- O Garganta de Fogo - http://blog.karaloka.net -

Bem-vindo à Era do Petabyte

Um modo acurado de entender teorias científicas é compará-las a modelos. Ou melhor, modelos são simulações de funcionamento dos princípios de uma teoria. São construídos a partir de dados. O exemplo mais comum vem da metereologia, mas também encontramos modelagem na física e na biologia. Com os modelos podemos entender de que modo os dados empíricos se associam para formar uma explicação razoavelmente coerente dos fenômenos estudados. É uma espécie de semântica dos dados. Com informações sobre o comportamento de massas de ar, áreas de pressão, velocidade dos ventos, temperatura e imagens de satélite alimentando um determinado modelo, podemos prever, com boa dose de acerto, o comportamento do clima. Exemplos podem ser encontrados aqui [1].

O interessante sobre os modelos é que muitos deles se baseiam, na verdade, na insuficiência de dados e não em sua abundância. O modelo utiliza hipóteses derivadas da teoria para preencher a lacuna deixada pela falta de informação. É por isso que a Física formula teorias consistentes com até 12 dimensões sem ter conseguido provar, experimentalmente, mais do que quatro. Acontece o mesmo na Economia, principalmente na Teoria dos Jogos de Estratégia. Aliás, incidentalmente, foi a procura por um modelo econométrico que inspirou a criação do Instituto Santa Fé, cuja principal conquista foi a controversa Teoria do Caos (sobre isso, o livro mais legal que já li é esse [2]).

Nem mesmo as ciência humanas – notadamente a sociologia e a economia – escaparam da hipótese de se poder modelar o comportamento social humano. Na Sociologia, a Teoria dos Sistemas (cf. Niklas Luhmann e Talcott Parsons) gerou modelos computacionais sobre interação social e comportamento de consumo. Se quiser aprofundar basta checar a literatura sobre sistemas complexos adaptativos [3].

Mas os pressupostos metodológicos e epistemológicos por detrás da idéia de modelagem podem ter sido ultrapassados pela tecnologia. É o que argumenta a reportagem da Wired “O fim da teoria [4]“. Segundo Chris Anderson, editor de ciência da revista,

Sixty years ago, digital computers made information readable. Twenty years ago, the Internet made it reachable. Ten years ago, the first search engine crawlers made it a single database. Now Google and like-minded companies are sifting through the most measured age in history, treating this massive corpus as a laboratory of the human condition. They are the children of the Petabyte Age.

O raciocínio de Anderson tem a ver com a equação quantidade x qualidade. Segundo ele a tecnologia nos dá a capacidade de interagir com quantidades de informação nunca antes disponíveis aos indivíduos sem a mediação de um modelo teórico que conferisse algum sentido a estes dados. No lugar das teorias, algoritmos de busca. No lugar da causalidade, correlação. O que sustenta este raciocínio é a percepção (ele não formula um tratado sobre o assunto) de que não é mais possível circunscrever toda informação disponível a uma totalidade de sentido. Por mais irônico que possa parecer, quando finalmente temos acesso a quantidades impressionantes de dados para comprovar a plausibilidade de determinados modelos, eles não são mais necessários.

At the petabyte scale, information is not a matter of simple three- and four-dimensional taxonomy and order but of dimensionally agnostic statistics. It calls for an entirely different approach, one that requires us to lose the tether of data as something that can be visualized in its totality. It forces us to view data mathematically first and establish a context for it later. For instance, Google conquered the advertising world with nothing more than applied mathematics. It didn’t pretend to know anything about the culture and conventions of advertising — it just assumed that better data, with better analytical tools, would win the day. And Google was right.

Este raciocínio tem um pressuposto, entretanto. A idéia de que teorias científicas são constructos anteriores à experimentação e sua “verdade” deve ser comprovada ex post facto. Em outras palavras, Anderson é um popperiano legítimo e sua interpretação da lógica da ciência pode ser entendida como um racionalismo crítico. Para falar com Bachelard, o vetor epistemológico vai da teoria em direção à experiência. É por isso que ele vê uma espécie de revolução no modelo científico ao entender que a tecnologia inverte o vetor bachelardiano. Agora, é a experiência que vem primeiro.

There is now a better way. Petabytes allow us to say: “Correlation is enough.” We can stop looking for models. We can analyze the data without hypotheses about what it might show. We can throw the numbers into the biggest computing clusters the world has ever seen and let statistical algorithms find patterns where science cannot.

Como evidência Anderson cita um cluster formado pela IBM, Google e mais seis universidades americanas prestes a colocar um gigantesco conjunto de precessadores de informações para funcionar. Curiosamente, o projeto inclui também programs de simulação (modelos!!) do cérebro e do sistema nervoso.

The cluster will consist of 1,600 processors, several terabytes of memory, and hundreds of terabytes of storage, along with the software, including IBM’s Tivoli and open source versions of Google File System and MapReduce. Early CluE projects will include simulations of the brain and the nervous system and other biological research that lies somewhere between wetware and software.

Learning to use a “computer” of this scale may be challenging. But the opportunity is great: The new availability of huge amounts of data, along with the statistical tools to crunch these numbers, offers a whole new way of understanding the world. Correlation supersedes causation, and science can advance even without coherent models, unified theories, or really any mechanistic explanation at all.

Eu, do meu lado, não consigo ver no horizonte da tecnologia uma mudança tão radical a ponto de redimensionar a relação teoria x experiência na ciência. Sem dúvida Anderson tem a seu favor a evidência histórica de que os impactos de uma nova tecnologia podem, realmente, alterar o modo como a ciência vê a si mesma (basta lembrar do telescópio de Galileu).

Por outro lado, as revoluções científicas sempre acontecem antes na especulação criativa dos cientistas do que na análise fria dos dados. Foi o que aconteceu com a teoria de evolução, por exemplo. Mesmo que, nos termos de Anderson, a correlação supere a causalidade, a ciência percorreu um caminho muito tortuoso e difícil até admitir sua natureza histórica, sua dimensão verdadeiramente humana (toda ciência é humana, neste sentido!) para agora dar meia-volta inspirada em algo evidente desde os gregos: a realidade é imensamente complexa e nossa capacidade limitada. Uma posição meramente instrumentalista, como a que Anderson defende, implica abandonar o problema do sentido, deixando-o de lado como se fosse um brinquedo quebrado. É preciso recuperar o pasmo essencial. Teorias serão sempre necessárias.

Posts relacionados

Comments Disabled (Open | Close)

Comments Disabled To "Bem-vindo à Era do Petabyte"

#1 Comment By Ronaldo Brito Roque On 12/07/2008 @ 12:18 pm

Excelente texto, Daniel. É isso mesmo, não dá para excluir a mente humana da experiência científica. Pelo contrário, ela é a causa da experiência científica, não apenas um dos seus elementos. A ciência é o casamento da mente com o mundo. Não dá para excluir nenhum dos dois.

Eu tenho o maior interesse em aprender esse lance de modelos matemáticos. Vc saca disso? Por favor, vamos trocar uns emails sobre isso.

Abraço,
Rbr