Avançar para conteúdo

Tudo para WordPress

Plugins, Temas, dicas de WordPress e muito mais para você que busca informação sobre este excelente CMS!

  • Twitter
  • Facebook
  • Google+
  • RSS
Entenda com funciona Assine nosso RSS

Conteúdo Duplicado e suas Causas

Publicado em 07/02/2012 às 22h07 por Guga Alves

Autor Original:Yoost de Valk.
Traduzido e com comentários adicionais de GugaAlves

Conteúdo DuplicadoMecanismos de Busca como o Google tem um “problema”. Eles chamam isso de “conteúdo duplicado”: o conteúdo de seu artigo está sendo mostrado em várias páginas, várias urls diferentes do seu site e também fora dele, e eles não sabem qual a URL correta deve ser exibida. Especialmente quando os visitantes começam a linkar para todas as diferentes versões do conteúdo, o problema se torna maior. Este artigo serve para que você compreenda as diferentes causas de conteúdo duplicado, e para encontrar a solução para cada uma deles. Você pode comparar isso com estar em um cruzamento e os sinais de trânsito estão apontando em duas direções diferentes para o mesmo destino final: que estrada você deve tomar? E agora, para torná-lo “pior” o destino final é muito diferente, mas apenas levemente. Como leitor, você não se importa: você recebe o conteúdo que você veio. Mas um mecanismo de busca tem que escolher qual deles para mostrar nos resultados da pesquisa, pois não irá mostrar o mesmo conteúdo duas vezes. Vamos dizer que o seu artigo sobre a palavra-chave x aparece na http://www.example.com/keyword-x/ e exatamente o mesmo conteúdo também aparece na http://www.example.com/article-category/keyword-x/, uma situação que não é tão fictícia: isso acontece em muitos dos CMS’s, inclusive no nosso WordPress. Seu artigo foi apanhada por vários blogueiros, e alguns deles apontam para a primeira URL, outros apontam para a segunda URL. Isto é, quando o problema do mecanismo de busca mostra a sua verdadeira natureza: o problema é na verdade seu ! Este conteúdo duplicado é sim seu problema pois os links estão a promover URLs diferentes. Se fossem todos os links para a mesma URL, sua chance de classificação no top 10 para a palavra-chave x seria muito maior.

1 – Causas para Conteúdos Duplicados

Existem dezenas e dezenas de razões que fazem com que um conteúdo seja duplicado. A maioria deles é técnico: não é muito frequente um ser humano decidir colocar o mesmo conteúdo em dois lugares diferentes, sem distinguir a fonte original: não parece natural para a maioria de nós. As razões técnicas ainda são abundantes. Isso acontece principalmente porque os desenvolvedores não pensam como um navegador ou um usuário, muito menos um spider de um mecanismo de busca, eles pensam como desenvolvedor. Que artigo aparece em http://www.example.com/keyword-x/ e http://www.example.com/article-category/keyword-x/ ? Se você perguntar para o desenvolvedor, ele vai dizer que só existe um.

1.1 – Incompreensão do conceito de uma URL

Será que o desenvolvedor enlouqueceu? Não, ele só fala uma língua diferente. Veja só:  todo site normalmente é alimentado por um sistema de banco de dados. Nesse banco de dados, há somente um artigo, o sistema do site apenas permite que o mesmo artigo a ser recuperado por meio de vários URLs. Isso porque, aos olhos do desenvolvedor, o identificador exclusivo para esse artigo, a chave primária, é o id que o artigo tem no banco de dados, e não a URL. Para o mecanismo de busca, porém, a URL é o identificador exclusivo de um pedaço de conteúdo. Se você explicar isso para um desenvolvedor, ele vai começar a entender o problema e, em seguida, se ele é como a maioria dos desenvolvedores que eu conheço e já trabalhei, ele vai aparecer com algumas razões, falando que o mecanismo de busca é estúpido e que ele não pode fazer nada sobre isso. Ele está errado.

1.2 – IDs de Sessões

Você quer manter o controle de seus visitantes, e tornar possível, por exemplo, armazenar itens que deseja comprar um carrinho de compras. Para fazer isso, você precisa dar-lhes uma “sessão”. Uma sessão é basicamente um breve histórico do que o visitante fez no seu site, e pode conter coisas como os itens em seu carrinho de compras, as categorias visitadas, e muito mais. Para manter essa sessão como um visitante clicar de uma página para outra o identificador exclusivo para a sessão, o ID da sessão chamada, precisa ser armazenado em algum lugar. A solução mais comum é fazer isso com cookies, no entanto, os mecanismos de busca não lêem tais cookies O que acontece nesse ponto é que alguns sistemas acabam optando por usar ID da sessão na URL. Nesse ponto, todos os links internos no site que recebe ID da sessão anexada à URL, e porque esse ID da sessão é única para a sessão, ele cria uma nova URL, e, portanto, o conteúdo duplicado.

1.3 – Parâmetros de URL utilizado para o acompanhamento e classificação

Outra causa de conteúdo duplicado é a utilização de parâmetros de URL que não alteram o conteúdo de uma página, por exemplo, no acompanhamento de links. Note que http://www.example.com/keyword-x/ e http://www.example.com/keyword-x/?source=rss não são uma mesma URL para um mecanismo de busca. No segundo link de exemplo, suponhamos que o parâmetro source permite controlar a origem do tráfego. Nesse caso, também pode atrapalhar a rankear tal URL pelos diferentes links gerados para cada uma das URLs ao invés de ter todos os links apontados para uma URL só, o que causa um efeito colateral muito indesejável. Isso não vai apenas para parâmetros de controle, é claro, vai para todos os parâmetros que você pode adicionar uma URL que não muda a peça vital do conteúdo. Se esse parâmetro é para mudar a classificação de um conjunto de produtos, para mostrar uma outra barra lateral, para fazer um trackeamento com o URL Builder do Google Analytics, todos podem ter apenas um efeito: gerar conteúdo duplicado na visão dos buscadores.

1.4 – Cópia de conteúdo

Enquanto a maioria das causas para conteúdo duplicado são seus mesmo, ou pelo menos “culpa” dos seus sites, por vezes outros websites copiam o seu conteúdo, com ou sem o seu consentimento. Eles nem sempre apontam para o artigo original e, portanto, o motor de busca não sabe disso e tem que lidar com outra versão do mesmo artigo. Quanto mais populares seus sites se tornarem, com maior frequência outros poderão vir acopiar seu conteúdo, tornando esse problema cada vez maior.

1.5 – Ordem de parâmetros

Outra causa comum é um CMS não usar URLs limpas, mas sim URLs como /?id=1&cat=2, onde ID se refere à identificação do artigo e do CAT se refere à categoria. A URL /?cat=2&id=1 irá retornar os mesmos resultados na maioria dos sistemas, mas eles são completamente diferentes para um mecanismo de busca.

1.6 – Paginação de Comentários

No nosso amado WordPress e em alguns outros sistemas, não há uma opção para para paginar seus comentários. Isso leva ao conteúdo ser repetido em todas as URLs das páginas dos comentários, no formato URL do artigo + comment-page-1/, /comment-page-2/ , e por ai vai.

1.7 – Páginas para impressão

Se seu sistema de gerenciamento de conteúdo cria páginas para impressão (ou você usa algum plugin para tal) que apontam para as páginas dos artigos (e vice-versa), o Google poderá encontrar aqueles que você não deseja, a menos que você tenha bloqueado as páginas que não deseja que sejam indexadas. Se você não as bloqueou para indexação, qual a versão o Google deve mostrar? Uma com anúncios e conteúdo periférico, ou apenas a versão para impressão? Se você não orientá-lo, ele vai indexar a que achar melhor (segundo as métricas dele).

1.8 – WWW vs sem WWW

Uma das formas mais antigas, mas os mecanismos de busca, por vezes, ainda entendem errado: WWW vs sem WWW acaba por duplicar seu conteúdo quando ambas as versões do seu site estão acessíveis. Uma situação menos comum, mas também pode acontecer com https vs http, onde o mesmo conteúdo é servido ao longo de ambos. Muitas causas, muita coisa a se pensar na hora de colocar seu site no ar.. mas e as soluções para conteúdo duplicado? Leia a continuação em Identificando Conteúdo Duplicado e usando URL Canonical!

13 pessoas comentaram o artigo

  • Marcelo comentou em 7 de fevereiro de 2012.

    Oi obrigado pelo artigo, cara me diz uma coisa, conteudo duplicado em titulo pode gerar punição pelos buscadores?

    Exemplo wordpress:
    site/category/site
    e site/site

    Titulo duplicado.

    Responder esse usuário
    • Guga Alves comentou em 7 de fevereiro de 2012.

      Marcelo,

      O site não será punido, ele nem sequer será indexado ou receberá um bom ranking (posicionamento) para ser punido.

      Responder esse usuário
  • Bruno Moacyr comentou em 1 de agosto de 2012.

    Muito interessante o artigo. No caso de um site que estou fazendo em wordpress todo os postos estão sendo duplicados. Vocês saberiam dizer o que está acontecendo ?

    Abraço

    Responder esse usuário
  • Euripedes Jorge comentou em 3 de junho de 2013.

    No meu site aparece um conteúdo triplicado no Google, são três rrls para cada título, o interessante é que a triplicação aconteceu porque eu auterei as urls duas vezes, por isso aparece as três que eu usei para o mesmo conteúdo. Eu deletei o conteúdo para tentar solucionar o problema, mas no webmasters do Google, continua aparecendo as três urls, só que agora uma dá um erro que não conheço, simplesmente aparece alguns códigos estranhos, e as outras duas abrem a pagina inicial do meu site. Você sabe como eu posso solucionar este problema. Gostaria muito que você me ajudasse.

    Responder esse usuário
    • Guga Alves comentou em 3 de junho de 2013.

      Euripedes, basta você criar um redirect 301 das urls antigas para as novas. Você pode usar o plugin Redirection ou fazer pelo .htaccess, na pasta raiz do seu servidor, e redirecionar as urls erradas para as certas, de preferência buscando um padrão de comportamento e criando uma regra no .htaccess.

      Responder esse usuário
      • Euripedes comentou em 3 de junho de 2013.

        Mas no caso eu já excluí a página de postagem, que está aparecendo apenas no Google. Não tenho mais uma página para redirecioná-las.

        Responder esse usuário
        • Guga Alves comentou em 3 de junho de 2013.

          ENtão remove elas no Webmaster Tools.. E cara, redireciona nem que seja pra home, dar erro pro usuário é que não pode né :(

          Responder esse usuário
  • Euripedes comentou em 3 de junho de 2013.

    Guga Alves;
    Eu percebi que você não formata os seus textos como justificado, eu faço isso no meu site, onde eu uso o plugin de otimização wordpress seo yoast, e o plugin não consegue ler as palavras chaves no primeiro parágrafo, apenas no primeiro, já nos outros não tem nenhum problema.
    Isso pode afetar o posicionamento do meu site nos motores de buscas?
    Ahh, em tempo!!
    Parabéns por responder a todos as dúvidas e comentários, quero seguir o teu exemplo.

    Responder esse usuário
    • Guga Alves comentou em 3 de junho de 2013.

      A formatação deve ser feita via CSS, mas de qualquer forma não deve afetar na leitura não.
      Estranho o plugin se comportar assim, nunca vi ele dar esse tipo de problema.
      Não acho que isso afete, o plugin não é o robô do Google né, não dá pra saber se ele está tendo o mesmo problema ;)

      Responder esse usuário
  • Carlos comentou em 13 de janeiro de 2015.

    Amigo bom dia!
    parabéns pelo post.

    Se me permite, gostaria de tirar uma dúvida.

    No site que tenho com minha esposa, estamos montando uma estrutura de posts, que seguirá um determinado padrão. Desta forma, muitas informações se repetirão nos mesmos posts, trocando praticamente somente a Palavra Chave e mais nada…. mas não porque estou querendo praticar black hat, mas por necessidade mesmo.

    Será que posso ser banido do goole?

    Responder esse usuário

Participe e deixe o seu comentário!

Procurando Temas?

Acesse o arquivo de Temas WordPress