Muy interesante este artículo publicado en el blog oficial de Google, del que se extraen las siguientes conclusiones respecto a la indexación de los documentos en PDF (Google indexa estos documentos desde el año 2001):
– Se indexan en general todo tipo de PDFs, excepto lógicamente los que van protegidos por password
– Las imágenes que se encuentran dentro del PDF, no son indexadas de manera independiente al documento PDF
– El “crawler” sigue los links encontrados y los trata igual que los de una página web normal, pero no se puede utilizar el atributo “nofollow”
– Se puede usar la directiva noindex para evitar su indexación
– Los documentos pdf pueden ocupar sitios top en los rankings al igual que las páginas web
– Si el texto es el mismo que otra página web en html, puede haber problemas de contenidos duplicados
En este video, nuestro viejo amigo Matt Cutt nos explica como optimizar a nivel SEO un PDF