Big Data – A Revolution That Will Transform How We Live, Work, and Think

No livro “Big Data – A Revolution That Will Transform How We Live, Work, and Think”, lançado este ano, os autores Viktor Mayer-Schönberger e Kenneth Cukier apresentam um panorama do que pode ser considerada a tendência mais quente da tecnologia na atualidade: a capacidade de coleta e análise de grandes quantidades de dados e seu impacto em diversas áreas, da política e economia até programas de saúde pública, negócios online e direitos individuais.

O caso da pandemia do vírus H1N1 é utilizado inicialmente pelos autores como uma ilustração das potencialidades do Big Data. Em 2009, essa nova forma do vírus da gripe se disseminou rapidamente em diversos países. Os centros de prevenção e controle dos EUA, por exemplo, tiveram dificuldade em realizar diagnósticos de forma rápida, pela demora dos pacientes em procurar um médico ou pelo tempo necessário para realizar o processamento das notificações dos casos.

No mesmo período, um artigo publicado na revista Nature apresentou algumas possibilidades de uso de recursos do sistema de buscas Google para previsão de ocorrência do vírus por localizações determinadas, como estados ou regiões. A análise não levou em conta apenas os termos buscados pelos usuários, mas uma grande quantidade de modelos matemáticos, construídos a partir de combinações entre a frequencia de certos termos e a disseminação do vírus através do tempo e regiões geográficas. A pesquisa processou 450 milhões de modelos matemáticos diferentes, comparando-os com casos de gripe registrados entre 2007 e 2008. O resultado foi a combinação de 45 termos de pesquisas que, quando utilizados nesses modelos matemáticos, mostravam uma forte relação entre as previsões e os dados oficiais posteriores. Portanto, a análise rápida de grandes volumes de dados, a partir de uma estrutura rápida e com alto poder de processamento, poderia ser utilizada para prever eventos.

Mas como definir um termo que vem sendo utilizado em abordagens de áreas diversas, como a publicidade e a produção de conteúdo científico? Para uso no livro, os autores afirmam que Big Data vai se referir a operações que podem ser feitas em grande escala – mas impossíveis em pequena escala – para extrair novos conhecimentos ou criar novas formas de valor, transformando mercados, organizações ou as relações, por exemplo, entre cidadãos e governos.

Em 2012, a campanha presidencial de Barack Obama colocou em prática o conceito para a conquista de votos. Um gigantesco banco de dados foi estruturado, com registros de eleitores, suas preferências, reações a abordagens de campanha já realizadas, além de publicações em mídias sociais como Facebook e Twitter. Mais e mais dados foram adicionados por empresas especializadas em hábitos de consumo. Essa base de dados foi utilizada para gerar microsegmentações que então deram origem a aplicativos, ferramentas de campanha e estratégias de atuação diferentes para uma infinidade de perfis de eleitores.

As Smart Cities, que atualmente estão sendo planejadas em diversos países, visualizam para um futuro próximo espaços urbanos altamente enriquecidos por tecnologias de informação e comunicação. Sensores disseminados em equipamentos de infra-estrutura urbana, informações produzidas por dispositivos pessoais de comunicação, redes sem fio, apps inteligentes, posts em mídias sociais baseadas em geolocalização, serviços de computação em nuvem. Todos esses elementos vislumbrados como parte essencial das smart cities – pelo menos no modo de vista tecnocrático das grandes empresas de TI – serão capazes de produzir e alimentar grandes bases de dados, com o objetivo de reagir de forma rápida a demandas individuais e mudanças no ambiente urbano.

Que pontos-chave poderíamos observar inicialmente como resultado das aplicações do conceito de Big Data? Mayer-Schönberger e Cukier não apresentam de maneira formal, na forma de tópicos, por exemplo, mas é possível identificar quatro pontos neste primero capítulo do livro. Primeiro, o aumento de escala na quantidade de dados disponíveis para análise pode levar a uma mudança da produção de informações quantitativas para qualitativas. Ou seja, uma quantidade limitada de dados pode restringir conclusões a índices estatísticos. Mais dados podem permitir o aprofundamento da análise e a possibilidade de produção qualitativa de informações. Segundo, nossa forma de tomar decisões e compreender a realidade passa a ser baseada menos na causalidade, e mais nas correlações. Os pesquisadores da Google tinham mais atenção nas informações sobre a disseminação do vírus H1N1, como fatores se relacionaram para prever esse evento, e menos em suas causas. Terceiro, a mudança de escala também pode trazer novas possibilidades, não conhecidas em escalas menores. Uma comparação realizada é com a alteração da condição de certos materiais, como ligas metais e cerâmicas, que podem se tornar mais flexíveis ou resistentes, quando observados em nanoescala. E quarto, a constatação de que Big Data se refere a previsões, através da aplicação matemática a uma grande quantidade de dados com o objetivo de inferir probabilidades.

Mas por outro lado é necessário conter os ânimos sobre o que os dados podem revelar. Em 2013, a ferramenta Google Tendências da Gripe previu um surto de gripe com quase o dobro da intensidade verificada pelo Center for Disease Control and Prevention (CDC), dos EUA, com discrepâncias ainda maiores em alguns estados. Pesquisadores sugerem que a ampla cobertura da mídia sobre a severa temporada de gripe nos EUA, incluindo a declaração de emergência de saúde pública pelo estado de Nova York, provocou muitas buscas relacionadas ao tema por pessoas que não estavam doentes.

E se Big Data foi uma palavra-chave na eleição de Barack Obama, o mesmo parece ocorrer na concepção do programa de vigilância Prism. Antes das recentes revelações do ex-agente Edward Snowden, uma reportagem da revista Wired já tinha descrito alguns detalhes sobre o uso de aplicações de Big Data pela Agência de Segurança Nacional (NSA), dos EUA. A agência está estruturando uma gigantesca infra-estrutura de captação e processamento de dados, no estado de Utah, com um investimento estimado em 2 bilhões de dólares e previsão para pleno funcionamento em setembro deste ano. O novo sistema integra uma extensa rede de vigilância capaz de interceptar mensagens de e-mail, mensagens de texto, diversos tipos de atividade na web e registrar até 320 milhões de conversas telefônicas por dia. Os tipos de informação a serem produzidos a partir daí são imprevisíveis.

Estamos, sem dúvida, frente a uma revolução na forma de desenhar estruturas para a produção de informações, mas que ainda requer uma série de discussões quanto às suas possibilidades e limites. Por isso, ao longo do livro os autores pretendem avaliar os benefícios e riscos de uma sociedade cada vez mais baseada em Big Data, como seu status de capital corporativo, o poder de decisão das máquinas, regulação na produção e uso dos dados e implicações para a liberdade e direitos do homem numa sociedade “probabilística”.