miércoles, 16 de julio de 2014

Extraer texto plano de una presentación odp

y, ¿para qué?, dirán algunos.
Hagamos una pequeña introducción.
En general, cuando tenemos tiempo, preparamos correctamente nuestros materiales de clase y charlas. Primero revisamos la "historia del arte", es decir, que se sabe hasta hoy de este tema; segundo, hacemos una selección de los documentos necesarios para los objetivos que tiene la clase, charla... lo que sea. Tres, si es posible, añadimos de nuestra propia cosecha los últimos avances que hemos realizado, si son interesantes para el tema. Cuatro, generamos un documento síntesis de toda esa información con las citas correspondientes; un documento bien hecho y bien citado se puede actualizar muy fácilmente con las novedades sobre el tema y nos facilita mucho el trabajo. Quinto, con ese documento generamos las presentaciones cuando tenemos que desarrollar clases o charlas.
Lo que pasa es que muchas veces nos falta el factor tiempo, así que 1, 2 y 3 se hacen juntos, se mezclan en un formato virtual cerebral y se pasa al punto cinco omitiendo el cuatro.
En resumen, actualmente, por falta de tiempo, no generamos los documentos síntesis.
Y de repente, ¡ALARMA!,  te piden que entregues el documento de la presentación, y como todavía no se han diseñado escáneres de cerebro que permitan extraer el contenido de la versión virtual interna (que además está seguramente muy desordenada, según las costumbres de cada cual, ese documento no existe; está solo en tu mente y en unos directorios llenos de ficheros que nadie sabe si fueron usados o no. La redacción de ese documento es especialmente difícil, por que los contenidos están en tu interior, pero el orden de exposición lo has delegado en una herramienta llamada presentación —nos pasa a todos; las aplicaciones como PowerPoint, Impress o incluso Prezi hace que no mantengamos el orden en la cabeza. Tenemos la información, pero hemos perdido el orden—.
Nos queda redactar el documento siguiendo las presentaciones o...
extraer el texto del documento ppt, odp...

Por supuesto, extraer el texto de un PDF es muy sencillo con el comando pdftotext, un comando de la suite de software xpdf, pero que también se encuentra en poppler-utils, un derivado de xpdf. Instalamos

su -c 'yum -y install poppler-utils'
    passwd

y el comando

pdftotext fichero.pdf

nos genera un fichero.txt con el texto plano del documento pdf.
Sin embargo, en este caso tenía un documento odp. Por supuesto, podemos convertirlo a pdf en la libreoffice y lugo aplicar pdftotext, pero no es necesario. Podemos recurrir al comando odt2txt, que convierte el texto de los ficheros OpenDocument en texto plano. Instalamos

su -c 'yum -y install odt2txt'
    passwd

y ejecutamos

odt2txt fichero.odp

y obtenemos un fichero.txt con el texto plano de la presentación.
Siempre es más fácil escribir un documento a partir del esquema que tenemos preparado que volver a seguir una presentación e ir desarrollando los contenidos. O al menos eso creo yo.


No hay comentarios:

Publicar un comentario