Etiqueta: WordPress

Cómo extraer el contenido de una página web

Extraer el contenido de una página web es el primer paso para traducirla y, muchas veces, se trata de un paso crítico: a pesar de que cada día se traducen sitios web en todo el mundo, muchos de ellos no han sido pensados para extraer fácilmente el contenido en un formato editable que permita realizar de forma ágil la traducción de los textos y su posterior carga en el sistema. Como consecuencia, es habitual acabar realizando el temido «copiar y pegar» para enviar a la empresa de traducción un documento Word para traducir y, posteriormente, entregar a los programadores las traducciones en Word para que las incorporen a la página web de forma más o menos manual.

Como es de suponer, este proceso, además de implicar tiempo y recursos, facilita la introducción de errores porque, al tratar manualmente el contenido original y su traducción, es muy posible que nos olvidemos textos o que se introduzca algún error en la traducción. Por ello, a continuación explicamos algunas opciones para extraer el contenido de una página web que pueden ser útiles tanto para el cliente de traducciones como para el traductor:

  • Extracción directa desde el gestor de contenidos. Si la página web funciona con un gestor de contenidos (por ejemplo, WordPress o Blogspot) es muy probable que exista la opción de extraer el contenido en un archivo editable. Uno de los más habituales es el formato XML, aunque determinados gestores permiten exportar el contenido a archivos XLIFF o Excel. En el caso de WordPress, por ejemplo, con tan sólo unos pocos clics se puede exportar a formato XML y reimportar el contenido correspondiente a entradas, comentarios, campos personalizados, categorías y etiquetas. Estos archivos pueden ser procesados por la agencia de traducción, que puede traducirlos y devolverlos en ese mismo formato, de forma que el usuario sólo tiene que importar el fichero y se ahorra el proceso de re-maquetación. En el caso de gestores de contenidos más avanzados, también es habitual la posibilidad de extraer los contenidos en un archivo XML u otros formatos (XLIFF, Excel), pero es necesario contactar con el programador de su gestor de contenidos para que le asesore sobre cómo hacerlo.
  • Extraer el contenido de una web mediante un gestor de descargas. Existen programas que permiten descargar los contenidos de un sitio web. Con ellos se pueden descargar los archivos HTML, PDF, PNG, JPG, etc., ubicados en un sitio HTTP. Una vez descargados los contenidos que queremos traducir sólo es necesario facilitar esos archivos a la agencia de traducción para que realice la traducción y nos devuelva las traducciones en el mismo formato, a fin de que el programador cargue en nuestra web directamente el nuevo contenido.
  • Extracción en ficheros PO. La mayoría de aplicaciones de software libre (por ejemplo, Drupal o WordPress) utilizan archivos PO, que son  archivos de texto estructurado. Algunas agencias de traducción profesional, como por ejemplo Ampersand Traducciones, trabajan con herramientas de traducción asistida que permiten editar archivos PO y entregar las traducciones en ese mismo formato, por lo que si tiene que traducir dichos archivos PO, sólo será necesario que facilite dichos archivos a su agencia de traducción

extraer el contenido de una web

Finalmente, como comentábamos en nuestro post Traducción de páginas web: la importancia del testing, después de introducir el contenido traducido en la web es recomendable realizar un testing para comprobar que todo esté en su sitio: que las opciones (botones, menús, etc.) muestren el texto completo, que los enlaces funcionen, que la longitud del texto traducido no afecte a la presentación de la página web, etc.