Minhas Desconfianças com o Canonical Link

Eu fiquei super entusiasmado quando Google, Yahoo e MSN (Bing) lançaram o link canonical. Foi um dos raros momentos em que os três grandes deixaram de lado as disputas e se comprometeram em adotar a canonização de links. Entretanto meu entusiasmo foi se arrefecendo com a experiência e hoje eu nem uso mais esse atributo do link. Vou apresentar uma prova para isso.

O que é o link canônico – É um link elegido entre duas ou mais URLs como representando a outra (ou outras). Isso ocorre quando há semelhança entre os conteúdos das páginas. É uma espécie de redirecionamento – uma URL é indexada por meio de um link colocado no head de duas ou mais URLs. Você pode ler mais sobre o assunto em Nova Tag em URLs com Conteúdos Repetidos – Atributo Canonical, Link Canônico vs Redirecionamento 301: Informações e 10 dicas, Tempo para Integração dos Arquivos pelo Link Canonical

Você escolhe a URL que será cononizada e vai nos respectivos heads e insere o link. Se não o fizer, Google, Yahoo, Bing o farão, embora o tempo seja maior. Aqui começa uma grande questão. É impossível saber com certeza se as duas (ou mais) URLs ligadas entre si por esse sistema estão funcionando, especialmente se a canonização deveria ser feita, digamos, pelo Google. Mas há evidências indiretas de que não estão funcionado. E tais evidências veem do aparente desinteresse do Google por essas URLs.

Uma prova contundente – Na figura abaixo aparecem cinco URLs que deviam estar canonizadas pelo Google. A imagem foi obtida de um relatório do Google nas ferramentas para webmasters.

Duplicações - canonização não funcionou

Vamos examinar os dados de duas delas, /art-posicionamento/ e / art-posicionamento/index.htm. Em geral o redirecionamento 301 feito por arquivos, como o htaccess, gera looping, logo é descartado, como foi o caso dessas duas. Por outro lado não há como colocar link canonical nas duas manualmente. As URLs /art-posicionamento/ e / art-posicionamento/index.htm datam de março de 2005 e a imagem acima foi obtida em novembro/2011. Portanto, entre o lançamento da canonização (fevereiro/2011) e a obtenção da imagem acima, passaram-se 2,9 anos. O Google não canonizou uma delas e tampouco as retirou do relatório de títulos e descrições duplicadas. E o mais sério é que essas URLs foram emparelhadas muitas vezes para identificar semelhanças em título, meta descrição, conteúdo – oportunidades para ser feita a canonização não faltaram. As outras URLs da imagem têm história e tempos parecidos.

A dedução mais coerente é que a canonização não veio para valer e não podemos confiar piamente nela.

Essas coisas podem aparecer inúmeras vezes em um site grande, em particular quando cada diretório recebe uma página index. Em todo diretório haverão duas URLs: com / e com /index.html (ou equivalente). Como fica a situação se você não pode fazer redirecionamento 301, não pode canonizar manualmente e tampouco o Google não canoniza uma?

Os exemplos acima não são isolados. Venho observando isso de há muito. Por tais indiferenças em relação ao assunto, acho temerário canonizar URLs ou esperar que Google, Yahoo, Bing, etc. o façam. É preferível fazer os redirecionamentos 301 (quando possível). Mas temos aí um outro problema: se existem muitos redirecionamentos (diria mais de 30) eles em geral não funcionam bem e retardam a ação dos robots. Acredito que esse retardo pode gerar perdas.

A esperança de resolver o problema de certas duplicações pela canonização já era.

 

Esta entrada foi publicada em otimizacao. Adicione o link permanente aos seus favoritos.

4 respostas a Minhas Desconfianças com o Canonical Link

  1. Pingback: Google Derruba Site com Base em Etica Discutível | Otimização de Sites

  2. Pingback: Futuro do PageRank em sua Trajetória Evolutiva | Otimização de Sites

  3. Gostei muito das informações passadas nesse artigo. Continue publicando os textos.

  4. Ruy Miranda disse:

    Alguns anos atrás, quando do lançamento do link canônico, uma funcionária do Google disse, num painel nos Estados Unidos, que o autor do site pode ajudar no processo de identificação de URLs com conteúdos semelhantes colocando-as agrupadas no mapa em xml. Discordo dessa opinião porque os robots “saem” para rastrear um conjunto de páginas de um dado site seguindo uma programação do próprio Google e não da ordenação de URLs numa listagem de mapa.

Deixe uma resposta

O seu endereço de email não será publicado Campos obrigatórios são marcados *


7 + = dez

Você pode usar estas tags e atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>