O Lab404 – Laboratório de Pesquisa em Mídia Digital, Redes e Espaço – discute, neste semestre, o livro Big Data, de Viktor Mayer-Schönberger e Kenneth Cukier. Na próxima reunião, o debate gira em torno do terceiro capítulo, entitulado ‘Messy’ – a segunda grande mudança paradigmática oferecida pelo uso de dados em grande escala.
A proposição é relativamente simples: quanto mais dados possuímos, maior é o horizonte de erro com o qual temos que lidar. Para os autores, contudo, que isto aconteça não é necessariamente um grande problema. O ritmo com que crescem os dados é infinitamente maior que o ritmo com que crescem as imprecisões, os erros. Fato é que esta multiplicidade, esta enormidade de dados, de acordo com Mayer-Schönberger e Cukier, permite que, ainda que erros sejam computados aqui e ali, cenários muito mais precisos acerca de uma situação sejam gerados. Essa confusão – o termo original é messiness – seria algo, portanto, com o qual deveríamos viver, dada a mudança de paradigma profetizada pela máxima estatística do N=All.
O texto se inicia com um comentário acerca deste problema: volume implica em inexatidão, e à medida que progredimos, nossa obsessão histórica pela exatidão nas medidas é violentamente questionada por quebras de paradigma como o surgimento da mecânica quântica. É importante frisar que uma das justificativas para que se advogue em causa do paradigma de big data é que imprecisões e erros podem ser identificados em amostragens, e infinitamente ampliados, quando em se fazendo extrapolações.
O primeiro exemplo é elucidativo o suficiente: se em um vinhedo existe um sensor de temperatura para uma grande área, ele precisa ser calibrado com exatidão, mas não vai oferecer um panorama completo das variações por micro-áreas, o que aconteceria se vários sensores fossem instalados. A precisão aumenta, neste caso, e como há mais dependências de mais fontes, erros tornam-se mais comuns.
A ideia por trás da discussão, portanto, é a de que o uso de muitos dados transforma panoramas em algo mais probabilístico que preciso, e quando isto aconteçe, é necessário aceitar que alguns dos dados sejam passíveis de confusão.
A partir daí, os autores passam a defender a ideia de que, na verdade, o contexto atual de coleta de dados é extremamente rico e promissor não por causa da tecnologia – não é uma questão de melhora no processamento, não é uma questão de melhora nos algoritmos – mas simplesmente porque o volume de dados é infinitamente maior do que fora, há algumas décadas.
Um exemplo disso, para Mayer-Schönberger e Cukier é como os computadores podem processar, hoje, todos os endgames do jogo de xadrez, e que, com um volume de dados tão grande, torna-se impossível que um humano possa vencer um computador, nos dias de hoje. A história por trás da tradução de uma língua para a outra guarda as mesmas nuances: os autores sublinham que a grande vitória da Google ao criar um software de tradução aceitável – e bem dificilmente perfeito – foi quando, diferente de seus predecessores, que se debruçavam sempre em problemas de gramática, eles passaram a trabalhar com o efetivo de posts na Internet, e que essa quantidade de dados gerou resultados fascinantes nesta área.
Mais é melhor que melhor
O argumento do capítulo se torna, a partir daí, recorrente. Para Mayer-Schönberger e Cukier, o ponto principal é, como foi dito antes, relativamente simples: a despeito de alguns problemas de leitura, de uma falta de precisão, mais dados são sempre melhores do que “melhores” dados. More trumps better, nas palavras dos autores. Uma das referências para este pensamento vem, inclusive, da própria Google, na figura do trio Alon Halevy, Peter Norvig e Fernando Pereira, que escreveram um artigo chamado “The Unreasonable Effectiveness of Data”, precisamente sobre o problema de sistemas de tradução citado acima.
A culpa dessa confusão estaria nos métodos de coleta de dados, que são sujeitos a falhas – e não seria uma característica inerente aos dados.
Confusão em Ação
Por fim, em encerrando o capítulo, os autores começam a pontuar em que segmentos é possível encontrar manifestações dessa confusão, e a técnica de indexação e categorização conhecida como tagging é um dos grandes exemplos. Ao invés de uma classificação instituída estruturalmente – uma taxonomia, é muito mais fortuito que a grande soma de usuários de um sistema como a Internet possa identificar o conteúdo com o qual eles se relacionam. Claro, há uma margem de erro, mas o volume de dados é tão imenso que a categorização passa a refletir padrões emergentes.
Uma boa representação, neste caso, é o modo pelo qual, quando nos aproximamos de largas escalas, a precisão diminui. Os ‘like buttons’ do Facebook são um excelente exemplo: eles mostrariam 50, 100 pessoas, mas quando passam à casa dos milhares, eles regridem para ‘3K, 4K’. O erro torna-se irrelevante, devido à quantidade massiva de dados.
Por fim, Mayer-Schönberger e Cukier afirmam que sociedade fez duas grandes transações implícitas que se tornaram tão incutidas no modo como agimos que nem os vemos como transações: primeiro, presumimos que não podemos usar muito mais dados – então não o fazemos; e depois, a respeito da qualidade da informação, que teoricamente precisa ser o mais limpa e precisa o possível, e que não concebe que esse padrão é resultado de um tempo no qual não se podia trabalhar com dados em grande escala.
A perspectiva de big data pode demandar que nós mudemos, e nos tornemos cada vez mais confortáveis com a desordem e a incerteza.