segunda-feira, junho 15, 2009

Porque o Google não é o Twitter

Por Randall Stross*, no The New York Times

Os blogs de tecnologia têm se perguntado se o Google não passa de um gigante desajeitado na era do Twitter, incapaz de lidar com o fluxo de tweets publicados há apenas poucos segundos.

O Google funciona mais rápido do que muitos críticos imaginam. Mas, mesmo que não funcionasse, a questão mais importante é se de fato queremos que o mecanismo de busca do Google engula todo o volume de informações que sai do Twitter assim que elas surgem, sem filtrar, analisar e hierarquizar por autoria?

"A busca em tempo real resulta em spam em tempo real", escreve Danny Sullivan, editor-chefe do site Search Engine Land.

Qualquer um que se inscreva para acompanhar um usuário específico do Twitter recebe as mensagens instantaneamente, assim que são enviadas (quando o sistema funciona). Filtrar não está em questão nesses casos: os 1,77 milhão de seguidores de Britney Spears provavelmente desejam receber cada linha de informação transmitida por sua conta.

Mas se alguém quiser procurar tweets sobre um assunto específico no Twitter - por exemplo, sobre Britney Spears, mas incluindo os tweets de qualquer pessoa que a mencione - os dados do Twitter enchem todo um oceano no qual é difícil encontrar um peixe específico.

A página de busca do Twitter diz: "Veja o que está acontecendo - nesse exato momento". Mas a base de dados do Twitter não foi originalmente planejada para ser pesquisada como foi o Google. De fato, no ano passado, o Twitter comprou outra "start-up" [empresa de tecnologia em desenvolvimento], a Summize, para prover essa função de busca.

Mesmo assim, o desempenho de busca do Twitter é muito lento em comparação ao fluxo de tweets. Sullivan observa que o serviço de busca do Twitter não oferece resultados em tempo real de forma consistente: normalmente passam-se 20 minutos ou mais para que um determinado tweet apareça nos resultados da busca. No Google, são necessários apenas centésimos de segundo para verificar a base de dados quando uma determinada frase de busca é submetida.

Mas, para se preparar para isso, a companhia re-examina a internet com uma frequência não divulgada para atualizar sua base de dados. Alguns sites, como os de novas organizações, são checados com bastante frequência. Outros esperam sua vez numa agenda rotativa de visitas do crawler [motor de busca] do Google, que armazena cópias das páginas de internet.

Peter Norvig, diretor de pesquisas do Google, diz que Larry Page, um dos cofundadores do Google, pressiona sistematicamente os engenheiros da companhia para indexar as páginas mais ativas da internet com mais rapidez. Quando a frequência aumentou para uma indexação de hora em hora, Page insistiu para que o intervalo fosse descrito como "3.600 segundos", enfatizando que seria reduzido ainda mais, o que de fato aconteceu.

O Google checa novas entradas constantemente, mas não indexa os tweets com tanta facilidade. Numa entrevista coletiva em Londres no mês passado, pediram para que Page dissesse se o Google tinha algum plano para fazer buscas no Twitter em tempo real. Page respondeu que faz tempo que ele pressiona suas equipes de busca para indexar a cada segundo. "Eles meio que riem de mim e dizem: 'Tudo bem se for alguns minutos'", disse ele. "E respondo: 'Não, não, tem que ser a cada segundo.'"

Recentemente, surgiram várias start-ups de busca que diferenciam suas ofertas dos antigos mecanismos de busca, enfatizando o fato de serem especializadas na internet em tempo real. Por exemplo, a OneRiot, de Boulder, Colorado, cobre o Twitter entre outros sites de mídia social, mas tem meios intrigantes de reduzir o spam do Twitter: ele não indexa os textos dos tweets - pega apenas os links, assumindo que as pessoas estão mais interessadas nos vídeos, notícias e posts de blogs que são compartilhados.

A OneRiot vai atrás do link, verifica se não há spam, comparando o conteúdo da página com o conteúdo do tweet, e depois usa seus próprios algoritmos para determinar se o link deve ir para sua lista sempre mutante de itens "quentes".

Estritamente falando, não se trata de processamento em tempo real. Mas checar os links antes de acrescentá-los ao índice parece ser um tempo bem gasto.

Tobias Peggs, gerente-geral da OneRiot, diz que sua companhia pode processar, checar e indexar um link em 37 segundos. Quando perguntado por que ele se preocupa em medir os segundos, uma vez que leva mais de 20 minutos ou mais só para receber os tweets buscáveis do Twitter, ele explicou que o atraso do mecanismo de busca do Twitter não afeta o serviço de busca de sua companhia, que recebe o fluxo de dados ao mesmo tempo que o mecanismo de busca do Twitter.
Como a empresa de investimentos de risco Spark Capital investiu tanto na OneRiot quanto no Twitter, a OneRiot tem "acesso aos dados do Twitter que outras empresas não têm", diz Peggs.

O Google percorre o site do Twitter - com uma frequência não revelada - para coletar os mesmos links incluídos nos tweets que a OneRiot indexa, e isso pode aparecer nos resultados de busca do Google. Se o Google negociasse o mesmo acesso direto ao fluxo de tweets que a OneRiot tem, ele provavelmente poderia ser tão rápido quanto o OneRiot e ter as mesmas listas, como "os [tweets] mais compartilhados do dia" ou "melhores vídeos do dia".

A busca quase em tempo real do Google fornece resultados de melhor qualidade do que as próprias buscas em tempo real. Quanto à necessidade de indexar "cada segundo" da internet, Page reconhece que é útil gastar um pouco mais de tempo para analisar a informação coletada.

"Se você de fato quer informação atualizada a cada segundo, ela não será tão boa quanto se você estiver disposto a esperar alguns minutos", diz ele. "Não tenho certeza se todo mundo precisa ficar vendo essa coisa a cada segundo."

* Randall Stross mora no Vale do Silício, é escritor e professor de administração na Universidade Estadual de San Jose.

Publicado no UOL Internacional.