Resenhas

Big Data: por que usar uma amostra quando é possível usar N=all?

O Lab404 discute nesta quarta-feira o segundo capítulo do livro Big Data de Viktor Mayer-Schönberger e Kenneth Cukier. Com o título de “More”, o texto apresenta o que, para os autores, é a primeira grande mudança trazida pelo big data: a capacidade de analisar grandes quantidades de dados sobre um assunto ao invés de usar pequenos conjuntos.

O texto é curto, apresenta apenas argumentos que reforçam a visão dos autores de que o big data é um fenômeno novo, irreversível e com grande potencial para alterar a maneira como são tomadas decisões a partir das informações. O maior ataque de Mayer-Schönberger e Cuckier recaí sobre a insistência em usar técnicas de amostragem estatística em detrimento de processar os dados por inteiro.

Captura de tela 2013-07-02 às 17.54.03

História dos Dados
O capítulo fala sobre os limites impostos pela capacidade reduzida de lidar com os dados e o surgimento da estatística. Os autores apresentam uma breve história dos dados que começa há 3000 anos A.C. com os mercadores sumérios e pequenos símbolos feitos de argila para marcar bens que estivessem à venda. A contagem em larga escala começa com os censos encomendados pelos governos, com registros de recenseamentos egípcios, chineses e romanos. De 1086 data o Livro do Dia do Julgamento, o censo britânico feito por comissários reais que se espalhavam pelo país registrando informações sobre as pessoas, a terra e as propriedades. O processo era demorado, custoso e pouco preciso. A palavra censo, aliás, vem do do latim censure, que significa estimar.

Em 1600, John Graunt estabeleceu as bases para a demografia através de suas Tábuas de Mortalidade, um método estatístico para inferir a população de Londres durante a peste bubônica. No século 19, os censos continuavam complexos e caros, sendo realizados apenas raramente. Ainda assim, a constituição norte-americana determinava que o recenseamento deveria ser realizado a cada 5 anos, pelo menos até o censo de 1880, que demorou oito anos para ser terminado e estava obsoleto antes mesmo de estar disponível. Foi nesta época que o Escritório de Recenseamento contratou Herman Hollerith, futuro fundador da IBM. O inventor usou máquinas de tabulação, que liam cartões perfurados com os dados dos formulários preenchidos pelos cidadãos. A técnica fez com o que o tempo de processamento dos dados diminuísse de de 8 para 1 ano.

Apesar do método bastante eficaz para a época, ainda existia a dúvida sobre a necessidade de usar todos os dados ou só uma parte deles. A primeira resposta definitiva veio em 1934 com o estatístico polonês Jerzy Neyman, que provou que as amostras deveriam ser aleatórias para garantir taxas de erros menores. A descoberta de como criar amostras confiáveis fez com que o governo americano passasse a conduzir censos usando amostras aleatórias em intervalos curtos e mais de duzentas pesquisas econômicas e demográficas a cada ano, baseada em amostras.

Os limites da amostragem
As técnicas de amostragem passaram a ser empregadas nos mais diversos contextos, da indústria, para controle de qualidade, até as pesquisas de opinião e de intenção de voto, o que na visão dos autores, transformou grande parte do que costumava se chamar ciências humanas em ciências sociais.

Entretanto, o modelo de amostragem tem limitações. Como demonstrou o estatístico Nate Silver, as pesquisas de intenção de voto nas eleições americanas de 2008 estavam fortemente enviesadas por terem sido feitas com ligações para telefones fixos e excluído da amostra pessoas que usam apenas celulares, em geral, mais jovens e liberais. Garantir a qualidade da amostra é delicado e pode gerar erros significativos na análise final, no caso, diferenças de até 3 pontos percentuais.

Outro problema é que não é possível analisar subcategorias. A quantidade de pessoas que representam determinado grupo demográfico, pode estar mal ou super representada na amostra geral. A técnica de amostragem também depende de planejamento e execução, sendo que a amostra deve ser elaborada para responder questões específicas e, em geral, os dados não podem ser utilizados para além do propósito para o qual foram colhidos.

Olhando para o todo
Para os autores, o conceito de amostra não faz mais sentido quando se pode trabalhar com grandes quantidades de dados. As técnicas para lidar com os dados mudaram dramaticamente, mas os métodos e mentalidades ainda não se adaptaram.

Usar uma toda a informação disponível, significa poder olhar profundamente os dados. E só a partir da informação inteira é possível detectar padrões, como faz o Google Tendências da Gripe para identificar possíveis focos de doença ou as operadoras de cartões de crédito para detectar possíveis fraudes.

Também foi o que percebeu Lazló Barabási, conhecido por seus trabalhos com redes, ao observar a interação a partir das chamadas telefônicas móveis de uma operadora que atendia 1/5 de um país europeu não identificado. Os padrões encontrados por Barabási e sua equipe foram inesperados e mostraram pessoas com muitos laços próximos são menos importantes para a estabilidade de uma rede do que pessoas que tem laços mais distantes.

Para os autores, nossas instituições foram moldadas pela escassez de dados o que fez com que fossem desenvolvidas técnicas elaboradas para o usar a menor quantidade de dados possíveis. Este conceito foi desenvolvido para solucionar problemas específicos em um momento particular sob limites tecnológicos que já não existem mais.

Big data e ciências sociais
O argumento de que os cientistas sociais devem abandonar a era da escassez e abraçar a era de abundância dos dados também aparece nos trabalhos de Venturini e Latour. Com a digitalização, as ciências sociais passam a contar com uma quantidade de dados comparável às ciências naturais para manter tanto o foco quanto o escopo de suas observações. O problema passa a ser como identificar, extrair e analisar os dados. O projeto Mapping Controversies on Science for Politics – MACOSPOL e medialab da Science Po em Paris vem desenvolvendo técnicas e softwares para coletar e analisar informação massiva a fim de cartografar controvérsias.

As mudanças que o big data representa nos modos de compreender nossa realidade também são o foco do artigo Trending: The Promises and the Challenges of Big Social Data de Lev Manovich. O autor que desenvolve pesquisa em visualização de dados e softwares para análise de grandes quantidades de mídia, lembra que apesar do big data ser uma realidade apenas as grandes empresas de mídia social tem acervo ilimitado aos rastros deixados por seus usuários. Além disso, bons resultados dependem de boas as perguntas feitas ao dados, o que depende de habilidades de computação, estatística e data mining, treinamento que a maior parte dos cientistas sociais não possui.

Se os dados estão aí, cabe a nós buscar maneiras de extraí-los, sem ferir a privacidade ou a propriedade intelectual alheia, processá-los, usando software livre ou licenças acadêmicas de baixo custo, e analisá-los, a partir de uma literatura produzida na era da escassez dos dados. O caminho ainda parece longo.