Ebook "SEO para ecommerce" +165 pgs. nuevas

Inicio > Blog > Mejorando el posicionamiento de tu tienda Prestashop eliminando thin content

Mejorando el posicionamiento de tu tienda Prestashop eliminando thin content

1 estrella2 estrellas3 estrellas4 estrellas5 estrellas (5 promedio de votos: 5,00 sobre 5)
Cargando…

El thin content (contenido escueto, contenido de mierda) es definido por Google como contenido que no añade valor y es uno de los problemas con los que me encuentro en muchas tiendas online con un catálogo amplio.

Incluso yo mismo he pecado de tener mi tienda online de cuerdas de guitarra llena de fichas de producto sin apenas descripción (solo 1 frase de descripción corta y sin descripción larga). Hay veces que la pereza te puede y en muchas fichas de producto me lo curré muy poco. En otras páginas como las de categoría o las páginas pensadas para “robar” tráfico de marca, me lo curré mucho más.

En este magnífico post del amigo Natzir Turrado podéis ver por qué es importante para el SEO cuidar este tipo de aspectos.

en el momento que Googlebot se cansa de crawlear páginas basura automáticamente reduce el crawl rate y te filtra. Una de las razones de Google Panda es hacer consumir menos recursos a GBot filtrando sitios con contenido basura, no lo olvidéis (Natzir Turrado)

No es solo que nos pueda caer un pandazo por tener muchas URLs con contenido escueto y no relevante, es que encima puede afectar a la frecuencia de rastreo con la que el robot de indexación de Google pasa por nuestra web. Atención, este proceso que explico en el post funciona muchísimo mejor en sites con un alto número de URLs. Si tienes una web con 1.000 URLs notarás menos cambio que si tienes una con 10.000 URLs, es un tema de cantidades, no falla.

Primero, mind the Crawl Budget

Además de eso, debemos tener en cuenta el crawl budget (podéis leer más sobre el tema en el punto 1 de este artículo de Search Engine Land que escribió la SEO Aleyda Solís), el peso que asigna Google a un dominio y que determina cuánto tiempo al día se dedica Google a crawlear tu site. Dicho peso depende del Pagerank de la página.

–> Internet está lleno de URLs y también de mierda <–

 

Lo he separado del resto de texto porque me parecía lo suficientemente importante.

Es por eso que Google asigna a cada página unos recursos determinados que invertirá en crawlear e indexar dicho site.

Sumémosle a eso lo que comentó hace unos días Google:

 

No solo tienes un crawl budget, si no que también sabes ya que NUNCA indexarán todas las páginas de tu site. Así que, pensemos un poco, si somos una tienda online y nuestro negocio es vender, debemos priorizar la indexación y posicionamiento de las URLs que nos puedan traer más pasta.

Así es como limpié las URLs basurilla de mi tienda y mejoré los resultados a nivel de posicionamiento. Bienvenidos a un capítulo más de “pasar la escoba por tu web”.

1- Extraer todo el catálogo de la tienda utilizando Moussiq

Hace tiempo que utilizo este módulo gratuito (aunque también tenemos opción de pago), va de puta madre. Con él podemos sacar un Excel de todo el catálogo (exportarlo e importarlo también). Los campos que voy a exportar son estos:

moussiq

Los campos de ID de producto y nombre los voy a usar solo como referencia, no los necesito.

Una vez tengo extraído el CSV con todo mi catálogo lo importo a Excel.

2- Importando el CSV de productos a Excel

Estos son los pasos para importar el CSV de Moussiq a Excel. Hay que importar los datos transformándolos a UTF-8 para que los caracteres con acentos, eñes y demás, se vean bien:

importar-csv

importar-csv-2

Chachi, ahora ya tengo en Excel todos los datos de mi catálogo, por lo que voy a filtrar el campo de descripción para que me muestre los productos que no tienen descripción:

excel-filtro

Y de ahí saco todas las URLs de productos que no tienen descripción.

Salían 587 URLs.

Tengo 789 productos activos.

Cagon mi puta vida, ¡el 74% de mis fichas de producto son una mierda sin texto!.

3- Extraer las URLs indexadas con SERP extractor

Utilizando la herramienta gratuita SERP extractor, saco las URLs indexadas en Google (usando el comando site:cuerdadeguitarra.com en la búsqueda de Google y el paginador infinito para Google Chrome gInfinity). Con el paginador infinito lo que consigo es que se me muestren todos los resultados en una sola página y poderlos extraer de forma menos traumática, restando menos barra de vida, para entendernos.

serp-extractor

4- Comprobar si URLs sin descripción están indexadas o tienen alguna posición destacada en buscadores

Ahora que tengo el listado de URLs voy a sacar el listado de URLs posicionadas en el Top 100 de Google usando Sistrix (la captura no es la de las 100 URLs, si no tendríamos un post más largo que Pau Gasol)

sistrix-mejores-urls

Utilizando Excel puedo comparar las URLs sin descripción con mis URLs indexadas (que he sacado en el punto 3) y con las URLs que tienen posición en orgánico.

Esto lo hago poniendo el listado de URLs sin descripción y, a continuación, las URLs con posición (y más tarde las indexadas) usando el comando “Formato condicional > Duplicar valores“, que me señalará las URLs que están 2 veces, es decir, que no tienen descripción y que están indexadas o que tienen posición.

Adivina cuántas URLs me aparecen. Ninguna. Google no es tonto y no indexa la mierda que no aporta nada.

Para asegurar el tiro, reviso si el crawler de Google ha pasado por esas URLs sin descripción. ¿Cómo se hace eso? Esto ya tiene más miga y se necesita más tiempo para obtener resultados que puedas usar. Lino Uruñuela explica en este genial post cómo monitorizar Googlebot desde Analytics.

Pues bien, he creado un perfil nuevo en mi analytics y los resultados son estos

bots

Y puedo exportarlos todos desde Analytics así:

exportar-bots

Lo que hago, una vez más, es comparar las URLs que crawlea Googlebot con las que no tienen descripción. De igual manera que antes, Google no pasa por esas URLs. Las debió crawlear al principio y ya ha visto que son chufa. Aunque las tengo en el sitemap (y, para ir bien, debería quitarlas), no pasa por ahí.

Para rematar, hay que asegurarse que ninguna de esas URLs que vamos a capar tiene backlinks, ¡súper importante!

5- Paso final: capar las URLS

Para capar las URLs no vale poner no index, follow en las meta tags de los artículos. Para capar bien algo hay que hacerlo por el robots.txt (aunque ojo porque si no sabes lo que haces la puedes liar mega parda). Una vez más, tiramos de Excel. Ponemos en una columna las URLs a capar y en otra columna el texto “Disallow: ” (sin las comillas) y concatenamos. El resultado final concatenado, lo copio en mi robots.txt añadiendo un comentario para saber qué URLs son esas:

robots

Y, para rematarlo y como soy un tío ordenado, añado la anotación a mi Analytics para saber cuándo capé ese tráfico:

anotacion-analytics

6- Resultados

Después de 2 semanas y pico, la cosa ha chutado. Aquí tenemos en amarillo las URLs capadas por bots en la indexación de Webmaster Tools (y la indexación de páginas que baja)

indexadasY las visitas orgánicas que han subido:

organico

impresiones

clicks

Pero, lo mejor de todo, es ver el perfil que tengo solo para el Bot de Google, observad el cambio en el rastreo. De pasarse unas 140 veces por el site a diario a pasarse hasta 325 veces ayer sábado 5/09. Una pasada. ¡Probadlo!

bots

Publicado el 06.09.2015 en SEO
1 estrella2 estrellas3 estrellas4 estrellas5 estrellas (5 promedio de votos: 5,00 sobre 5)
Cargando…
Comentarios

21 comentarios para "Mejorando el posicionamiento de tu tienda Prestashop eliminando thin content"

  • El 07.09.2015 , Mj ha comentado:

    Muy buen post Jordi 🙂

    Para extraer las indexadas también puedes usar el serp Scraper de urlprofiler que es gratis y no hace falta cruzar con el paginador.

    Y la indexación creo que sistrix te esta dando las urls que tienen visibilidad o posicionamiento , urlprofiler también te da esa opción de saber si una URL esta indexada o cacheada en modo bulk

    Abrazo

    • El 07.09.2015 , jordiob ha comentado:

      Buena esa MJ, gracias!!!!

  • El 07.09.2015 , Stephen ha comentado:

    Interesante, aunque en el gráfico la subida de tráfico coincide también con la llegada de septiembre, fin de vacaciones. Estaría bien comprobar si ha variado la visibilidad/rankings aparte de tráfico, que de por sí en septiembre tiende a subir. Para sacar los productos sin descripción, otra opción es filtrar los productos directamente en el sql, si se tiene acceso al server. Buen post.

    • El 07.09.2015 , jordiob ha comentado:

      Hola Stephen! Tienes razón, de ahí que pusiera el gráfico de orgánico desde junio,podrás ver que ha subido. La visibilidad también ha subido en estas 2 semanas

  • El 07.09.2015 , Héctor ha comentado:

    ¿Bloquear esas URLs en robots.txt no provocará errores de acceso en Google Webmaster Tools? ¿Eso no es malo a la larga?

    Muchas gracias por el artículo, Jordi.

    • El 07.09.2015 , jordiob ha comentado:

      En mi caso, estas URLs no me interesaba indexarlas. Debes procurar que sea el mismo caso + que esas URLs no estén en el sitemap y, a la vez, bloqueadas por el robots

      • El 07.09.2015 , Héctor ha comentado:

        Ahora que lo dices, quizás el problema fuera que esas páginas seguían estando en mi sitemap.

        ¡Muchas gracias por tus consejos!

  • El 07.09.2015 , Carlos ha comentado:

    Hola Jordi,

    Fantástico post, pero estoy atascado en lo que seguro es una chorrada

    ¿Donde meto el código de Analytics nuevo? Hasta ahora siempre use el módulo de prestashop y solo tenia que meter el numero UA-

    Otra duda, si metemos este código con nuevas propiedades ¿debemos desactivar el modulo de prestashop?

    • El 07.09.2015 , jordiob ha comentado:

      Helloween! pues tendrías que ponerlo en el TPL del módulo de Analytics o a piñón en el footer.tpl

      Otra duda, si metemos este código con nuevas propiedades ¿debemos desactivar el modulo de prestashop?
      > nope!

      • El 07.09.2015 , Carlos ha comentado:

        Estoooooo,

        El UA que insertamos en el código php ¿Es el de la nueva propiedad creada para ver los bots? ¿correcto?

        • El 07.09.2015 , jordiob ha comentado:

          en el php no, en el tpl, ojo

          • El 08.09.2015 , Carlos ha comentado:

            Pues lo he puesto en footer.tpl pero no me salen los bots, la propiedad no funciona, en fin, otra vez sera

  • El 07.09.2015 , Carlos ha comentado:

    Graciaaaaaasss!!

  • El 07.09.2015 , Toni ha comentado:

    Aquí una victima más del Thin Content. Ahora ya le pongo nombre a la enfermedad… 🙂

    Un artículo muy interesante. Gracias por compartirlo.

  • El 15.02.2016 , Jose ha comentado:

    Qué ventajas tiene que el Bot de Google visite más a menudo la página?

  • El 20.04.2016 , Antonio ha comentado:

    Hola, felicidades por el post,

    Actualmente no se puede poner codigo php en los tpl en prestashop ya que los desabilito por motivos de seguridad.

    Por lo que he estado leyendo, habria que buscar una forma de crear un minimodulo o similar para poder ejecutar el codigo. Lo estoy probando en una web programada a pelo y en un prestashop y en una funciona pero en el prestashop no.

    A ver si se lo paso a algun programador mas tecnico que yo y conseguimos añadirlo, lo compartiria por aqui.

    Saludos!

  • El 16.05.2016 , Pilar ha comentado:

    Hola Jordi, gracias y enhorabuena lo primero de todo por contarnos tan claro las cosas.

    Tengo una pregunta, sabes como podría extraer las páginas indexadas de google de una web bastante grande?

    Probé con lo que explicas aquí pero no me funcionó.

    Gracias

  • El 10.09.2016 , Cesar ha comentado:

    Hola Jordi, creo que es una pregunta tonta pero ahí va:
    ¿Porque aparece un asteristo entre la barra y la url?
    Disallow: /*76-jirafa-loquesea.html

    Gracias!!

  • El 26.12.2016 , J.Martin ha comentado:

    Hola crack! Pululando por google me he encontrado con este articulo tuyo.

    En el caso de no indexar los productos metiendo un NOINDEX y bloqueas por Robots.txt, los crawlers no podrán ver la meta tag del codigo y la podrán indexar. ¿No es así?

    Es lo que dicen los Srs de Google.

    Un saludo!!

    • El 26.12.2016 , Jordi Ordóñez ha comentado:

      buenas! si metes un disallow en robots.txt, no debería rastrear. Si además pones un no index en el head, ya lo matas del todo

Deja tu comentario

Acepto expresamente la política de privacidad de jordiob.com