Algoritmos dos Mecanismos de Busca: Visão Geral
Ruy Miranda
Otimização de Sites
Neste artigo vou fazer uma apresentação geral sobre os algorítmos dos
mecanismos de buscas e, em outros, me aprofundar mais. Desejo muito passar para
o leitor informações que venham desmistificar o significado desse vocábulo em informática e,
de certo modo, desvendar um paradoxo. De um lado, se um otimizador de sites
conhece bem os algorítmos dos mecanismos de busca, otimizará bem os sites e
isso é bom para os próprios mecanismos de busca. Por outro lado, seria de
se esperar que os mecanismos de busca tornassem público seus próprios algorítmos,
já que seriam beneficiados;
mas isso não acontece.
Vocábulo em Informática – Segundo o dicionário do Houaiss, é um conjunto das regras e procedimentos lógicos perfeitamente definidos que levam à solução de um problema em um número finito de etapas.
Vou explicar isso melhor. Vamos imaginar que você vai dividir 625 por 5. A operação segue determinadas regras e raciocíonios lógicos para chegar ao resultado de 125, não é? Essas regras e reciocínios são o algoritmo da divisão. Imagine agora que você vai
extrair a raiz quadrada de 625. A operação segue outras regras e outros raciocínios lógicos para chegar ao resultado de 25, não é? Essas regras e raciocínios lógicos são o algoritmo da raiz quadrada. Temos regras e raciocínios lógicos, etapas e o resultado final em um algoritmo.
Algoritmo na Internet – Imaginemos agora uma página da internet. De que maneira os mecanismos de busca vão decidir o lugar em que ela ficará? Vamos ver, primeiro, um pouco de história.
No início ordenava-se os sites pela home; não se usava listar todas as páginas de cada site. E a apresentação era pela ordem alfabética da URL. Por exemplo, as URLs cujo domínio começavam com a letra a eram listadas antes das que começavam com a letra b, e assim por diante. E, dentre as URLs que começavam pela letra a, era necessário, ordenar pelo alfabeto também. Assim, uma URL que fosse, por exemplo, http://www.agua.com vinha antes da que fosse http://www.aparelho.com. Mas a URL http://www.a-agua.com vinha antes de http://www.agua.com. Por outro lado, a URL http://www.aa-agua.com vinha antes de http://www.a-agua.com. Agora, você pode imaginar a confusão que começou a se instalar, na disputa para aparecer nos primeiros lugares de cada lista.
Se os usuários tendem a ler em primeiro lugar os sites que aparecem nos topos das listas, todo mundo queria uma URL que começasse com a letra a e tivessem outra letre a na seqüência. Contudo, a coisa estava ficando ainda mais complicada porque não havia impedimento de uma URL começar por número ou outro símbolo. Ou seja, a URL podia ser alfa-numérica. No ordenamento alfanumérico os números ou símbolos devem preceder as letras. Assim, a URL http://www.1-agua.com tem precedência sobre a URL http://www.agua.com. A URL http://www.1-aa-agua.com tem precedência sobre http://www.aa-agua.com. Também, http://www.1-aa-agua.com tem precedência sobre http://www.2-aa-agua.com. Ocorriam ainda, outras complicações com a introdução de símbolos.
Uma URL com algum sinal, digamos, de exclamação, teria precedência sobre os números. A URL http://www.!1-aa-agua.com teria precedência sobre http://www.1-aa-agua.com. E mais, a URL http://www.!!1-aa-agua.com teria precedência sobre http://www.!1-aa-agua.com. Você pode imaginar a confusão e a dificuldade para se identificar, pela URL, o site que contivesse as informações desejadas.
Pode-se deduzir que, no iníco, os algoritmos atribuiam um peso maior às URLs que começavam com a letra a , valor maior às que começavam com um número, valor maior ainda, às que começavam com uma ! ou ?
Mas, além das características da URL, os sites eram submetidos a cálculos segundo certos princípios, como palavras-chave na meta tag palavra-chave, a tag título, a meta tag descrição e, em cada lista, seguia-se a ordem alfanumérica. Portanto, o algoritmo de cada mecanismo de busca seguia esses regras.
Cada regra tinha um determinado valor numérico, o que permitia cálculos matemáticos. Por exemplo, a presença de palavras-chave na meta tag palavras-chave tinha um dado peso, expresso em um número, no Yahoo; esse número era diferente no AltaVista. As outras tags tinham também seu peso, expressos em números. Cada mecanismo de busca tinha um algoritmo rudimentar, ou seja, de poucas regras, para classificar os sites.
Na verdade, os mecanismos de busca no começo eram apenas diretórios. Os sites eram ordenados exclusivamente após a análise humana e posteriormente passaram a ser ordenados em parte, pela análise humana, e em parte por algoritmo rudimentar.
A grande Mudança no Algoritmo – O aparecimento do Google, ordenando as páginas e não apenas a home, aplicando o conceito de popularidade do link no algoritmo, dando um valor menor à URL, excluindo a análise humana, foi um acontecimento extraordinário. E como esse mecanismo de busca continuou evoluindo e inovando, tornou-se o mais popular do mundo. A busca pelo aprimoramento, levada a cabo pelo Google e pelos outros mecanismos de busca, resultou na introdução de mais regras. Essas regras mudam continuamente e podem variar de um país para outro.
Filtros – Você provavelmente já viu essa palavra vinculada ao posicionamento de páginas da web. Um filtro nada mais é do que uma regra. Um engenheiro do Google já disse que o algoritmo desse mecanismo de busca usa mais de cem filtros (regras). Cada filtro tem uma forma de cálculo, de modo a entrar numa equação matemática final, que dará o resultdo final, ou seja, o posicionamento de uma dada página.
Um filtro pode ser simples ou complexo. Por exemplo, o filtro da URL pode ser simples, ou seja, composto de poucas variações. Por outro lado, um filtro como o da popularidade do link é complexo. Atribui-se valores aos links que entram, aos links que saem, à popularidade do link que entra; os valores da popularidade precisam ser distribuídos entre as páginas do site, e assim por diante, para se chegar a um número que entrará no algorítmo. Portanto, são necessários vários e complexos cálculos para se determinar a popularidade de uma página da web.
Cada filtro é, na verdade, um subalgoritmo. O ordenamento de uma página será um número resultante do algorítmo, o qual, por sua vez, é composto de subalgoritmos.
Um filtro pode determinar também a exclusão da página. Por exemplo, o Google e outros mecanismos de busca, depois de aceitar a censura da China para entrar naquele mercado, devem estar incluindo algo assim: o equivalente a "praça da Paz Celestial" ou "praça" ou "Paz Celestial" associado a isso e aquilo, resulta em bloqueio. Então, a página que contiver essas condições não será exibida.
Alguns filtros podem ser controlados pelo usuário. Por exemplo, os mecanismos de busca estão possibilitando o usuário decidir pela apresentação ou não de sites com os chamados temas adultos.
Fevereiro/2006
Artigos relacionados:
Punições pelos Mecanimso de Busca – Visão Geral
Mapa do Site em XML vs Rastreamento do Google - Valor Relativo
Mazelas do Google
Otimização, Posicionamento, Buscas: Miscelânea
Conferir a
Validade de Redirecionamentos
Redirecionamento Permanente / 301 Servidor Windows
Redirecionamento Permanente / 301: Visão Geral
Princípios Básicos na Otimização
Conceito de Popularidade do Link
Popularidade do Link – Distorções
Hiperlinks / Links: Visão Geral
Links: Grafias
Redirecionamento Permanente
Zeus e Aumento de Tráfego
Supremacia do Google - Razões
Decoração dos Links
Punição Menos 30
Holofotes na Troca de Links
|