Pages

quarta-feira, 27 de outubro de 2010

Prevendo o presente, como?

Essa foi uma questão levantada por dois pesquisadores do Google (Hyunyoung Choi, Hal Varian), e usaram o google trends para seus estudos e pesquisas, então passaram a monitorar o que os usuários faziam com suas buscas, e estudaram a seguintes questões:
  • venda de casas
  • venda de automóveis
  • venda do varejo
  • viagens
Eles fizeram uma correlação como relatórios divulgados publicamente sobre a situação econômica dos itens acima, como estes relatórios tem um certo atraso até sua divulgação nada impede de fazer as devidas correlações entre o período dos quais os relatórios fazem menção com relação as consultas feitas pelos usuários no mesmo período.

O interessante na descoberta das series temporais econômicas diferentes é que mesmo prevendo o presente foi possível verificar pontos de virada nas series temporais e se as pessoas começarem a fazer buscas sobre imóveis em um determinado local, é tentador pensar que a venda de casas podem aumentar nessa área em um futuro próximo.

Para alguns prever o futuro é mesma coisa que colocar 1000 macacos em 1000 computadores e o resultado da predição será o mesmo, assim muitos tratam a predição do futuro e menosprezam os resultados e quando acertam dizem que é fruto da pura sorte, estou cada vez mais certo que previsões estão e estarão cada vez mais certas e será sem dúvida uma de nossas grandes ferramentas para esta década (... isto é uma previsão).

O termo "coupon" foi usado aqui para mostrar como as compras no período de natal aumentam nos finais dos anos, e assim também com o termo em português "presente", google trends permite que você baixe os dados de consulta no formato CSV.


O google trends procura categorizar os termos de pesquisas usando processamento de linguagem natural e os classifica em 27 categorias em um primeiro nível e mais 241 categorias em segundo nível, aqui estão as categorias de primeiro nível:

  • Alimentos e bebidas
  • Artes e ciências humanas
  • Beleza e cuidados pessoais
  • Casa e jardim
  • Ciência
  • Compras
  • Computadores e aparelhos eletrônicos
  • Entretenimento
  • Esportes
  • Estilo de vida
  • Finanças e seguro
  • Fotos e vídeo
  • Imobiliário
  • Indústrias
  • Internet
  • Jogos
  • Lazer
  • Local
  • Negócios
  • Notícias e atualidades
  • Redes sociais e comunidades on-line
  • Referência
  • Saúde
  • Setor automotivo
  • Sociedade
  • Telecomunicações
  • Viagens
Em um dos exemplos da pesquisa que fizeram a correlação de vendas de automóveis e as consultas feitas no google trends e ressaltando que a venda de automóveis é um dos grandes indicadores da atividade econômica de uma região/país.



Não vou entrar no mérito técnico matemático dos modelos desenvolvidos pelos pesquisadores, por que o material pode ser conseguindo por este link a conclusão que constataram uma correlação muito  interessante entre as pesquisas e os relatórios econômicos com previsões muito boas e relevantes, evidente que alguns resultados foram melhores que outros, mas a pesquisa foi realmente válida para ilustrar a correlação de nossas consultas presentes com relatórios de vendas e o poder que estas ferramentas podem ter para prever nossas futuras compras e comportamentos.

Quero enfatizar que o estudo das previsões não param e são os mais variados possíveis, sempre com alternativas e possibilidades interessantes, no meu ponto de vista ainda estamos atrasados aqui no Brasil nesta questão, mas sem dúvida que temos muita qualidade para reverter este quadro.


terça-feira, 26 de outubro de 2010

... e o passado?

Tenho falado abertamente que podemos prever o futuro baseado no passado e no presente, mas tenho que deixar claro uma coisa, que possa te ajudar a prever é a mesma que talvez possa provar o contrário, por exemplo ambas conclusões podem vir da mesma questão:

Se você sobreviver até amanhã.

  • então você é imortal
  • ou que está mais próximo de sua morte
Ambas conclusões vêem dos mesmo dados, isto pode gerar um certo tipo de engano e existem diversos níveis de liberdade no entendimento de eventos passados.

O que projetamos do passado nem sempre ou melhor na maioria das vezes não se trata de um modelo linear, essa é uma maneira da qual nós seres humanos nos acostumamos a olhar por uma série de eventos e assim podemos deixar dados relevantes de fora e nos perdermos neste modelo.


Generalizar o modelo linear é a forma mais fácil para se prever o futuro, você acompanha um certo crescimento linear por exemplo e logo supõe que tem dados suficientes para fazer uma previsão, a idéia é sempre tentar encaixar na tendência mas aí mora o grande perigo por que você pode não estar trabalhando em um modelo linear, mas sim um modelo com curvas e neste caso suas previsões lineares perderão valor.


De certa forma prever é da natureza humana, umas o fazem por dinheiro, outras porque é o seu trabalho  e a grande maioria porque faz parte de nossa natureza.

Filosofo chamado Daniel Dennett lançou a seguinte idéia: qual é o uso mais poderoso de nosso cérebro? Precisamente a capacidade de projetar conjecturas futuras.

O intuito aqui com este simples post é descrever um processo de nossa natureza de generalizar para o mais simples e que somos tentados a fazer previsões porque gostamos de certa forma disto, mas existem alguns cuidados especiais em prever o futuro, até porque não existe absolutamente nada com 100% de certeza, até a morte já está sendo questionada!, derivações futuras baseadas no passado são infinitas.

segunda-feira, 25 de outubro de 2010

E o tempo?

Como fica a questão tempo, no trato do futuro, já que levamos em conta o passado e presente(real), como lidar com tanta informação mas dentro de uma questão temporal, quando crawleamos os dados, parte do processo consistente em parsear estes dados, na questão temporal é dar ao devido texto um tratamento por datas e horas e para o banco de dados existem algumas condições especiais para se tratar isto, você não tem a condição em si de data e hora apenas, mas o dia se é uma segunda, terça ..., mais se a data tem alguma representação como o dia do professor, dia das crianças, dia dos namorados, Natal, veja a importância de datas como estas.

Para o banco de dados podemos ter alguns problemas relativos a estas datas, fica muito complicado fazer uma busca temporal indexado, até podemos fazer alguma consultas simples sobre data e horário mas a coisa começa a ficar complicado se queremos fazer alguma coisa a respeito de todas as sextas-feiras, encontramos junto com isto anos bissestos, 28 e 29 de fevereiro, para alguns isto pode parecer muito simples mas quando se faz uma análise temporal complexa a coisa pode não ser tão simples assim, a questão aqui é olhar para os dados com a profundidade do tempo e sua relação com a qual faz parte.


Não consultamos,perguntamos e obtemos dados com muito mais informação temporal, existe uma combinação muito poderosa em utilizar dados da web combinado com dados temporais, em breve teremos boas combinações e os resultados serão determinantes em boas previsões.

Em uma análise recente para um amigo da área de investimentos, a pergunta dele foi: seria possível prever o que farei amanhã? ou depois de amanhã?

Em breve vou dar algumas explicações sobre a questão de prever mas sobre a ótica da aleatoriedade e como previsões em muitos casos acabam sendo uma mera combinação de eventos não previstos, mas isto deve ficar para depois.

Bom voltando ao assunto, eu achando que ele fosse perguntar algo como, como será a semana para investir em opções da petrobrás?

Bom coloquei algo ainda incompleto para trabalhar que é o módulo Tirésias para analisar a questão, como esse amigo perguntou algo pessoal e de seu interesse e claro de certa forma conhecedor de suas vontades, vi que sua lifestream ou vida digital eram significativos e que tinha um histórico razoável para alguns testes sobre prever o que faria nos próximos dias...
  • Na terça a 82% que ficaria em casa, 36% assistir a um filme
  • Na quarta 67% que iria a um teatro
  • Na quinta 87% que ficaria em casa, 65% assistir a um filme e 55% pedir uma pizza
  • Na sexta 71% que sairia com amigos
  • No sábado 78% que iria ao cinema
  • No domingo 40% ficar em casa, 32% ver a família e 10% ir a uma livraria

Acho que a relação de percentagem está fácil para entender, cada possibilidade em sua devida categoria!

Apresentei este dados na terça-feira já que tínhamos conversado a tarde na de segunda e ficou intrigado com a precisão dos dados, passada a semana perguntei como foi e o que tinha feita e o acerto foi de 85%.

Veja isto foi só como uma brincadeira mas elas foram esclarecedoras, porque fui um pouco além quando vi que ele poderia ir ao cinema e em uma livraria, resolvi rodar um novo módulo de recomendações e apresentei três opções para cinema, filme e livro falarei sobre sistemas de recomendação dentro do contexto de prever o futuro em um outro post ...

quinta-feira, 21 de outubro de 2010

Análise de sentimentos pode prever mercado de ações

Em um artigo publicado pela Technology Review a respeito do trabalho feito por três pesquisadores, que ao longo de março a dezembro de 2008 coletaram 9,7 milhões de tweets enviadas por cerca de 2,7 de tweeters a respeito do mercado de ações americanos e com esta informação conseguiram prever o mercado de ações com até 6 dias de antecedência, com acertos perto de 87,6% o que é um número realmente alto para este tipo de negócio.


O que se fala sobre prever o mercado de ações se ele vai subir ou descer é que o melhor dos previsores teria um resultado semelhante ao lançar de uma moeda.

Para muitos economistas sustentam que o movimento de preços em um mercado perfeito deve seguir um passeio aleatório e deve ser impossível prever com uma precisão superior a 50%.

Mas o que vários estudos vem provando é que o preço de ações não são aleatórios é sim de certa forma previsível, mas o grande questionamento é de como fazê-lo de forma consistente.

Um algoritmo, chamado de Generating Profile of Mood States (OpinionFinder and GPOMS)

OpinionFinder: é um pacote de software disponível para download para a análise de sentimentos, que é usado para determinar a subjetividade da sentença, ou seja, para identificar a polaridade emocional (positiva ou negativa) , e tem sido usada com sucesso para analisar o conteúdo emocional da grandes coleções de "tweets".

GPOMS registra o nível de seis estados/dimensões (calma,atenção,certeza,vitalidade,bondade,alegria) a idéia aqui foi captar além do sentimento positivo e negativo, uma forma de avaliar o estado de humor nestas seis dimensões.




Os pesquisadores se perguntaram qual a correlação destes estados com o Índice Dow Jones, e chegaram a conclusão que para um destes itens o resultado foi altamente expressivo que foi o índice GPOWS(calma), ele que previu um acerto em torno de 87,6% para o sobe e desce dos preços no mercado de ações.



O Twitter hoje é uma grande fonte de informação para este tipo de trabalho, pesquisa e estudo e vem ganhando cada vez mais espaço e permitindo dentro de suas limitações um fiel retrato comportamental do indivíduo como de sua relação em grupo, o que torna uma grande fonte para os analistas e mineradores de dados.

Hoje tenho trabalhado com a Inteligência Coletiva em redes sociais, e com a informação na web de uma forma em geral para prever o futuro e em breve estarei apresentado alguns destes resultados para o nosso cenário Brasileiro e claro a ferramenta que está sendo construída para estes tipos de análise e como ela poderá ser útil para prever o futuro em vários dos nossos segmentos.

Este post foi em parte retirado deste: http://www.technologyreview.com/blog/arxiv/25900

Pesquisadores: Johan Bollen, Huina Mao, Xiao-Jun Zeng

Artigo dos pesquisadores referente ao tema: Twitter mood predicts the stock market

OpinionFinder: http://www.cs.pitt.edu/mpqa/opinionfinderrelease/

segunda-feira, 4 de outubro de 2010

Prevendo o futuro em sua busca na WEB!?

Na internet hoje encontramos praticamente tudo o que queremos apenas com poucas palavras digitas em uma caixa de busca e lá está lago relacionado ou bem próximo do que queremos.

O que faz com que isso se torne possível é a imensa quantidade de dados atualizadas praticamente em tempo real de milhões de fontes de dados da WEB, estes dados são analisados por algoritmos específicos para o trabalho e que os posicionam de acordo com vários critérios.

Mas o ponto a que quero chegar é que nenhum retorno da busca combina com uma projeção do futuro e a importância que isto terá, o ser humano tem um ávido apelo a saber o que vai acontecer e como vai acontecer mesmo que não acontece ele quer saber das possibilidades, e isto já está presente na WEB mas de difícil acesso, projetar o futuro baseado no passado é algo que estatísticos já fazem a décadas, casos como número de habitantes para o ano de  2050, projeção de alimentos, energia, economia, ... outro caso de muito interesse é a meteorologia e sua previsão, assim o ser humano tem feito o que pode para saber o dia de amanhã.

Mas ainda não temos nada para os nossos desejos básicos talvez, para aquele usuário que faz compras pela internet, que acompanha as noticias da bolsa, política, economia, que se relaciona com comunidades e amigos, que gosta eventos, shows ...

A busca do futuro está relaciona com seus desejos como usuários em encontrar respostas para seus problemas sejam eles do tamanho que forem e como posicionar isto em linha temporal, quando pesquisamos por exemplo um produto estamos atrás provavelmente de uma serie de respostas que claro varia de usuário para usuário, ... estou interessado em uma câmera fotográfica, você vai querer saber da marca, dos modelos, preços, características, onde pode compra e como... peguei um caso específico de compra de máquina fotográfica para ilustrar o exemplo, mas nessa busca não temos nenhuma projeção e previsão de futuro:

  • não sabemos como está a marca e como estará, não sabemos se o modelo que estamos comprando é o primeiro ou o último de uma série,
  • não sabemos da variação de preço deste produtos,  e nem de quanto custará daqui alguns dias ou meses,
  • não sabemos o que estar por vim em termos de máquinas fotográficas e  o quanto isto impactará no preço,
  • não sabemos se as características do produto que estamos  pesquisando ou comprando se manterão ou se não existiram mais e quais as novidades que estão por vir,
... outro exemplo:

Comprar um apartamento? ... o que é importante para o cliente: localização,  características(área m², cômodos, ...), preços, a construtora, a corretora ...
O que seria uma predição e projeção futura para isto que tipos de informações a mais dariam ao usuário, cliente uma informação mais detalhada entre outros complementos como:
  • projetos de lei, desurbanização de pontos de risco e construção de casas populares pŕoximos ao seu futuro apartamento,
  • como está a construtora e como estará,
  • chegada de uma grande empresa nas proximidades,
  • construção de shopping por perto,
  • qual o possível valor do imóvel em algum tempo,
Qual seria o impacto destas informações e outras a sua decisão?

Veja fiz algumas colocações mas podemos generalizá-lo para todo o tipo de busca, sempre vamos encontrar algo que possa nos ajudar com uma previsão de futuro.


A mudança é constante e isto torna este tipo de pesquisa importante, a questão é sempre como nos posicionamos em relação a algo e como vamos agir em relação a isto em uma sequência temporal, e isto é muito importante para se fazer boas escolhas.

sábado, 2 de outubro de 2010

Qual a pergunta certa? (Para muitos dados)

Para alguns dados não são problemas, para outros eles são problemas, você pode olhar pelo lado da qualidade e quantidade, o Google tem uma proposta arrojada de organizar toda informação do mundo e isto o faz armazenar todo o tipo de dados.

A tempos atrás existiam problemas com coletar, armazenar e trabalhar estes dados mas com a medida do tempo novos serviços são criados como o "cloud computing" e que tem barateado em muito este processo.

O grande problema com os dados é o que eu quero deles, ela se resume a perguntas para encontrar respostas e sempre esperamos as corretas e mesmo processando analiticamente é sempre difícil saber o que procurar, e quanto mais dados estatisticamente falando é melhor isto tende a ser verdade, mesmo para dados com limites estabelecidos ainda assim é fácil se perder neles, o negócio não é agregar e explorar os dados mas ponto chave que quero colocar é que o mais importante é o que saber fazer com eles!

Não existe problema em si com os dados e nem uma falta de comunicação a questão é de como ligar os pontos e para ligar estes pontos e responder as perguntas certas, você precisa das pessoas certas!

sexta-feira, 1 de outubro de 2010

Seu comportamento pode ser previsto? ... ou não!

O que temos visto e que vai nos chegar em breve, é algo muito similar ao que foi visto no filme Minority Report (Steve Spilberg), o filme conta a história de uma unidade que prever o crime antes dele acontecer, assim eles se antecipam e prendem o futuro assassino.

Tenho trabalhado há algum tempo no desenvolvimento de soluções para predição do futuro, com foco no life stream ou vida digital do usuário, ou vestígios e sinais que são deixados em varias fontes, entre elas Facebook, Twitter, Blogs, Linkedin entre outras centenas de fontes, informações estas de domínio público entende-se que informações de domínio privado não fazem parte. Os usuários são categorizados e classificados de acordo com algumas características e padrões, com isto a empresa pode ter alguma idéia do perfil deste usuário.

Esta ferramenta pode auxiliar na contratação de um funcionário, pode monitorar de forma positiva seus funcionários, para evitar danos a empresa com processos judiciais entre outros, apesar de levar em conta a informação passada o principal objetivo é o comportamento futuro como uma proteção probabilística.

Esta ferramenta para o RH poderá ser de grande valia para contratação, promoção, monitoramento do comportamento entre outras coisas, fazendo-se uso das análises sociais e predição do futuro, para quem não acredita é só olhar para o passado e ver as mudanças das quais nós passamos e como a tecnologia tem evoluído, então acredite ferramentas assim estarão cada vez mais presente!