seo otimizacao mecanismos busca

Conteúdo Duplicado e suas Causas

Autor Original:Yoost de Valk.

Mecanismos de Busca como o Google tem um “problema”. Eles chamam isso de “conteúdo duplicado”: o conteúdo de seu artigo está sendo mostrado em várias páginas, várias urls diferentes do seu site e também fora dele, e eles não sabem qual a URL correta deve ser exibida. Especialmente quando os visitantes começam a linkar para todas as diferentes versões do conteúdo, o problema se torna maior.

Este artigo serve para que você compreenda as diferentes causas de conteúdo duplicado, e para encontrar a solução para cada uma deles.

Você pode comparar isso com estar em um cruzamento e os sinais de trânsito estão apontando em duas direções diferentes para o mesmo destino final: que estrada você deve tomar? E agora, para torná-lo “pior” o destino final é diferente, mas apenas levemente.

Como leitor, você não se importa: você recebe o conteúdo que você veio. Mas um mecanismo de busca tem que escolher qual deles para mostrar nos resultados da pesquisa, pois não irá mostrar o mesmo conteúdo duas vezes.

Vamos dizer que o seu artigo sobre a palavra-chave x aparece em https://www.example.com/keyword-x/ e exatamente o mesmo conteúdo também aparece na https://example.com/keyword-x/, uma situação que não é tão fictícia: isso acontece em muitos dos CMS’s, inclusive no nosso WordPress se não configurado corretamente.

Seu artigo ganhou links de vários outros sites, e alguns deles apontam para a primeira URL, outros apontam para a segunda URL.

Este conteúdo duplicado é um problema pois os links estão a promover URLs diferentes. Se fossem todos os links para a mesma URL, sua chance de classificação no top 10 para a palavra-chave x seria muito maior.

1 – Causas para Conteúdos Duplicados

Existem dezenas e dezenas de razões que fazem com que um conteúdo seja duplicado. A maioria deles é técnico: não é muito frequente um ser humano decidir colocar o mesmo conteúdo em dois lugares diferentes, sem distinguir a fonte original: não parece natural para a maioria de nós. As razões técnicas ainda são abundantes. Isso acontece principalmente porque os desenvolvedores não pensam como um navegador ou um usuário, muito menos um spider de um mecanismo de busca, eles pensam como desenvolvedor.

Que artigo aparece em https://www.example.com/keyword-x/ e https://www.example.com/article-category/keyword-x/ ? Se você perguntar para o desenvolvedor, ele vai dizer que só existe um.

1.1 – Incompreensão do conceito de uma URL

Será que o desenvolvedor enlouqueceu? Não, ele só fala uma língua diferente. Veja só:  todo site normalmente é alimentado por um sistema de banco de dados. Nesse banco de dados, há somente um artigo, o sistema do site apenas permite que o mesmo artigo a ser recuperado por meio de vários URLs. Isso porque, aos olhos do desenvolvedor, o identificador exclusivo para esse artigo, a chave primária, é o id que o artigo tem no banco de dados, e não a URL. Para o mecanismo de busca, porém, a URL é o identificador exclusivo de um pedaço de conteúdo.

Se você explicar isso para um desenvolvedor, ele vai começar a entender o problema e, em seguida, se ele é como a maioria dos desenvolvedores que eu conheço e já trabalhei, ele vai aparecer com algumas razões, falando que o mecanismo de busca é estúpido e que ele não pode fazer nada sobre isso. Ele está errado.

1.2 – IDs de Sessões

Você quer manter o controle de seus visitantes, e tornar possível, por exemplo, armazenar itens que deseja comprar um carrinho de compras. Para fazer isso, você precisa dar-lhes uma “sessão”. Uma sessão é basicamente um breve histórico do que o visitante fez no seu site, e pode conter coisas como os itens em seu carrinho de compras, as categorias visitadas, e muito mais. Para manter essa sessão como um visitante clicar de uma página para outra o identificador exclusivo para a sessão, o ID da sessão chamada, precisa ser armazenado em algum lugar. A solução mais comum é fazer isso com cookies, no entanto, os mecanismos de busca não lêem tais cookies O que acontece nesse ponto é que alguns sistemas acabam optando por usar ID da sessão na URL. Nesse ponto, todos os links internos no site que recebe ID da sessão anexada à URL, e porque esse ID da sessão é única para a sessão, ele cria uma nova URL, e, portanto, o conteúdo duplicado.

1.3 – Parâmetros de URL utilizado para o acompanhamento e classificação

Outra causa de conteúdo duplicado é a utilização de parâmetros de URL que não alteram o conteúdo de uma página, por exemplo, no acompanhamento de links. Note que https://www.example.com/keyword-x/ e https://www.example.com/keyword-x/?source=rss não são uma mesma URL para um mecanismo de busca. No segundo link de exemplo, suponhamos que o parâmetro source permite controlar a origem do tráfego. Nesse caso, também pode atrapalhar a rankear tal URL pelos diferentes links gerados para cada uma das URLs ao invés de ter todos os links apontados para uma URL só, o que causa um efeito colateral muito indesejável.

Isso não vai apenas para parâmetros de controle, é claro, vai para todos os parâmetros que você pode adicionar uma URL que não muda a peça vital do conteúdo. Se esse parâmetro é para mudar a classificação de um conjunto de produtos, para mostrar uma outra barra lateral, para fazer um trackeamento com o URL Builder do Google Analytics, todos podem ter apenas um efeito: gerar conteúdo duplicado na visão dos buscadores.

1.4 – Cópia de conteúdo

Enquanto a maioria das causas para conteúdo duplicado são seus mesmo, ou pelo menos “culpa” dos seus sites, por vezes outros websites copiam o seu conteúdo, com ou sem o seu consentimento.

Eles nem sempre apontam para o artigo original e, portanto, o motor de busca não sabe disso e tem que lidar com outra versão do mesmo artigo. Quanto mais populares seus sites se tornarem, com maior frequência outros poderão vir acopiar seu conteúdo, tornando esse problema cada vez maior.

1.5 – Ordem de parâmetros

Outra causa comum é um CMS não usar URLs limpas, mas sim URLs como /?id=1&cat=2, onde ID se refere à identificação do artigo e do CAT se refere à categoria. A URL /?cat=2&id=1 irá retornar os mesmos resultados na maioria dos sistemas, mas eles são completamente diferentes para um mecanismo de busca.

1.6 – Paginação de Comentários

No nosso amado WordPress e em alguns outros sistemas, não há uma opção para para paginar seus comentários. Isso leva ao conteúdo ser repetido em todas as URLs das páginas dos comentários, no formato URL do artigo + comment-page-1/, /comment-page-2/ , e por ai vai.

1.7 – Páginas para impressão

Se seu sistema de gerenciamento de conteúdo cria páginas para impressão (ou você usa algum plugin para tal) que apontam para as páginas dos artigos (e vice-versa), o Google poderá encontrar aqueles que você não deseja, a menos que você tenha bloqueado as páginas que não deseja que sejam indexadas. Se você não as bloqueou para indexação, qual a versão o Google deve mostrar? Uma com anúncios e conteúdo periférico, ou apenas a versão para impressão? Se você não orientá-lo, ele vai indexar a que achar melhor (segundo as métricas dele).

1.8 – WWW vs sem WWW

Uma das formas mais antigas, mas os mecanismos de busca, por vezes, ainda entendem errado: WWW vs sem WWW acaba por duplicar seu conteúdo quando ambas as versões do seu site estão acessíveis. Uma situação menos comum, mas também pode acontecer com https vs http, onde o mesmo conteúdo é servido ao longo de ambos. Muitas causas, muita coisa a se pensar na hora de colocar seu site no ar.. mas e as soluções para conteúdo duplicado? Leia a continuação em Identificando Conteúdo Duplicado e usando URL Canonical!

Posts Similares

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

13 Comentários

  1. Oi obrigado pelo artigo, cara me diz uma coisa, conteudo duplicado em titulo pode gerar punição pelos buscadores?

    Exemplo wordpress:
    site/category/site
    e site/site

    Titulo duplicado.

  2. Muito interessante o artigo. No caso de um site que estou fazendo em wordpress todo os postos estão sendo duplicados. Vocês saberiam dizer o que está acontecendo ?

    Abraço

  3. No meu site aparece um conteúdo triplicado no Google, são três rrls para cada título, o interessante é que a triplicação aconteceu porque eu auterei as urls duas vezes, por isso aparece as três que eu usei para o mesmo conteúdo. Eu deletei o conteúdo para tentar solucionar o problema, mas no webmasters do Google, continua aparecendo as três urls, só que agora uma dá um erro que não conheço, simplesmente aparece alguns códigos estranhos, e as outras duas abrem a pagina inicial do meu site. Você sabe como eu posso solucionar este problema. Gostaria muito que você me ajudasse.

    1. Euripedes, basta você criar um redirect 301 das urls antigas para as novas. Você pode usar o plugin Redirection ou fazer pelo .htaccess, na pasta raiz do seu servidor, e redirecionar as urls erradas para as certas, de preferência buscando um padrão de comportamento e criando uma regra no .htaccess.

      1. Mas no caso eu já excluí a página de postagem, que está aparecendo apenas no Google. Não tenho mais uma página para redirecioná-las.

  4. Guga Alves;
    Eu percebi que você não formata os seus textos como justificado, eu faço isso no meu site, onde eu uso o plugin de otimização wordpress seo yoast, e o plugin não consegue ler as palavras chaves no primeiro parágrafo, apenas no primeiro, já nos outros não tem nenhum problema.
    Isso pode afetar o posicionamento do meu site nos motores de buscas?
    Ahh, em tempo!!
    Parabéns por responder a todos as dúvidas e comentários, quero seguir o teu exemplo.

    1. A formatação deve ser feita via CSS, mas de qualquer forma não deve afetar na leitura não.
      Estranho o plugin se comportar assim, nunca vi ele dar esse tipo de problema.
      Não acho que isso afete, o plugin não é o robô do Google né, não dá pra saber se ele está tendo o mesmo problema 😉

  5. Amigo bom dia!
    parabéns pelo post.

    Se me permite, gostaria de tirar uma dúvida.

    No site que tenho com minha esposa, estamos montando uma estrutura de posts, que seguirá um determinado padrão. Desta forma, muitas informações se repetirão nos mesmos posts, trocando praticamente somente a Palavra Chave e mais nada…. mas não porque estou querendo praticar black hat, mas por necessidade mesmo.

    Será que posso ser banido do goole?