arXiv blog

As Crescentes Armadilhas da Previsão Através do Big Data

Estatísticos se gabaram dos benefícios do Big Data. Agora eles estão descobrindo suas fraquezas.

The Physics arXiv Blog 18/08/2014

No início deste ano, o Banco Central Europeu realizou um workshop de dois dias sobre Big Data e como ele pode ser usado para a previsão. O palestrante principal era Hal Varian, economista-chefe do Google e um analista de dados com status de estrela do rock.

Varian avaliou o poder do Google Trends e do Google Correlate grandes ferramentas de análise de dados da empresa. "Com o Google Trends, você faz uma pesquisa e receber de volta uma série de dados de atividade. Com o Google Correlate, você busca uma série de dados e recebe uma lista de pesquisas cujas séries de dados segue um padrão similar", diz o Google no site do Correlate. Em outras palavras o Google Correlate é como o inverso do Google Trends.

Varian mostrou todos os tipos de tendências interessantes e correlações. Por exemplo, buscas com a palavra "ressaca" aumentam substancialmente aos sábados, passam por um pico no domingo e caem acentuadamente na segunda-feira. Esse padrão é semelhante ao padrão de buscas pela palavra "vodca", só que atrasada em um dia (ou, mais provavelmente, uma noite e uma manhã depois).

Em outro exemplo, ele mostrou como inserir dados sobre os pedidos de seguro desemprego nos EUA retornou uma lista de 100 pesquisas com padrão semelhante, incluindo a frase "cadastre-se para o desemprego".

Há limites, é claro. Ele mostrou uma correlação falso-positiva entre a venda de automóveis e a pesquisa por "restaurantes indianos", entre 2004 e 2012, o porquê de esses dois conjuntos de dados seguirem tendências semelhantes não é clara, mas como qualquer estatístico dirá que a correlação não significa causalidade.

A mensagem era clara. Dados sobre pesquisas são extremamente poderosos, mas deve ser tratado com algum cuidado e cautela.

Hoje, Paul Ormerod, do University College London e um casal de amigos dize que há outras razões para ter cuidado. Esses caras têm estudado os dados do Google Flu Trends em que o Google usa o número de pesquisas relacionadas à gripe para prever a tendência de incidência de gripe em diferentes partes do mundo, a qualquer momento específico.

Ormerod e col. dizem que existem vários exemplos impressionantes, onde o Google tem estimado com precisão o número de casos de gripe, por exemplo, nos EUA em 2011/12, na Suíça em 2007/8, Alemanha 2005/6 e Bélgica 2007/8. Esta capacidade de monitorar a gripe tem recebido a atenção da mídia.

Menos conhecidos são os casos em que o Google Trends superestima significativamente o número real de casos de gripe. Isso ocorreu nos EUA durante o inverno de 2012/13, na Suíça em 2008/9, na Alemanha em 2008/9 e na Bélgica em 2008/9.

Por que a diferença? Ormerod e col. suspeitam que as pesquisas que as pessoas fazem relacionadas à gripe caem em duas categorias. As primeiras são aquelas que sofrem dos sintomas da gripe e o segundo grupo estão procurando apenas porque outras pessoas estão procurando bastante, talvez pelo interesse forte da mídia na gripe, por exemplo.

Naturalmente, os dados úteis vêm do primeiro grupo, que são pessoas que sofrem de gripe. A razão para a pesquisa é gerada internamente, independentemente do mundo externo - eles sentimento estão se sentindo doentes. Assim, seu padrão de pesquisas deve ser diferente das pessoas que estão à procura por causa de influências externas, como reportagens de jornais. Este processo de busca social, serve simplesmente para inflar os números.

Então, como diferenciar esses dois grupos? Ormerod e col. supõe que o padrão de pesquisas independentes ao longo do tempo irá variar substancialmente das pesquisas sociais. Em especial, eles dizem que pesquisas independentes deveriam aumentar rapidamente à medida que a gripe se espalha pela população e diminui lentamente à medida que a doença morre. Por outro lado, pesquisas sociais são mais simétricas.

Assim, a simetria nos dados é uma medida do nível de procura social. Na verdade, eles mostram que esta simetria é claramente mais evidente nos anos em que o Google Flu Trends superestimou substancialmente os casos quando comparado aos anos em que foi mais precisa.

Isso é um exemplo interessante dos tipos de armadilhas que os estatísticos devem negociar, ao analisar dados grandes. Google Trends é apenas um exemplo, o mundo está cada vez mais repleto de grandes conjuntos de dados e com os estatísticos lambendo os lábios.

Não há dúvida de que informações importantes relacionadas à economia, saúde e outras coisas que podem ser extraídos de grandes dados fornecidos as ferramentas certas. Mas exatamente como isso deve ser feito com precisão e confiabilidade ainda é tema de debate significativo.

Essa situação não é totalmente diferente da dos dados econômicos atuais, que geralmente fica atrasada com relação à economia real em pelo menos um mês e é frequentemente revisada depois, quando os números ficam mais claros. A falta de confiabilidade destes dados são uma fonte de grande preocupação para quem desenha políticas.

Parece claro que agências governamentais, empresas e quase qualquer outra pessoa que esteja disposta a jogar com os números será capaz de extrair valor significativo dos dados de pesquisa no futuro.

Mas atenção, é necessário muito cuidado. Não é só vodca que deixa um gosto desagradável na boca na manhã seguinte. Muitas ressacas econômicas foram causadas por excesso de dependência em dados não confiáveis.

Ref: arxiv.org/abs/1408.0699 : Nowcasting Economic And Social Data: When And Why Search Engine Data Fails, An Illustration Using Google Flu Trends

Para deixar seu comentário, por favor, regístrate ou efetue seu login

Esqueceu sua senha?

Publicidade

Vídeo

Inovadores com menos de 35 anos Brasil

Mais Vídeos

Informes Especiais

Uma Cura para os Gastos com Saúde

Os gastos com a saúde estão fora de controle. E a inovação em medicamentos, testes e tratamentos é o motivo. Mas e se a tecnologia pudesse ser uma forma de poupar dinheiro ao invés de gastá-lo?

Ganhando Com Dispositivos Móveis

Publicidade
Publicidade