Cómo convertir un archivo PDF a texto editable usando la línea de comandos en Linux
Existen varias razones por las que quizás desee convertir un archivo PDF en texto editable. Tal vez necesite revisar un documento antiguo y todo lo que tiene es la versión PDF del mismo. Convertir archivos PDF en Windows es fácil, pero, ¿y si está usando Linux??
Sin preocupaciones. Le mostraremos cómo convertir fácilmente archivos PDF a texto editable utilizando una herramienta de línea de comandos llamada pdftotext, que forma parte del paquete "poppler-utils". Esta herramienta ya puede estar instalada. Para verificar si pdftotext está instalado en su sistema, presione "Ctrl + Alt + T" para abrir una ventana de terminal. Escriba el siguiente comando en el indicador y presione "Enter".
dpkg -s poppler-utils
NOTA: Cuando decimos que escriba algo en este artículo y haya comillas alrededor del texto, NO escriba las comillas, a menos que especifiquemos lo contrario..
Si pdftotext no está instalado, escriba el siguiente comando cuando se le solicite y presione "Intro".
sudo apt-get install poppler-utils
Escriba su contraseña cuando se le solicite y presione "Enter".
Hay varias herramientas disponibles en el paquete poppler-utils para convertir PDF a diferentes formatos, manipular archivos PDF y extraer información de los archivos..
El siguiente es el comando básico para convertir un archivo PDF en un archivo de texto editable. Presione “Ctrl + Alt + T” para abrir una ventana de Terminal, escriba el comando cuando se le solicite y presione “Enter”.
pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Cambie la ruta a cada archivo para que se corresponda con la ubicación y el nombre de su archivo PDF original y dónde desea guardar el archivo de texto resultante. Además, cambie los nombres de archivo para que se correspondan con los nombres de sus archivos..
El archivo de texto se crea y se puede abrir como si se abriera cualquier otro archivo de texto en Linux.
El texto convertido puede tener saltos de línea en lugares que no desea. Los saltos de línea se insertan después de cada línea de texto en el archivo PDF.
Puede conservar el diseño de su documento (encabezados, pies de página, paginación, etc.) del archivo PDF original en el archivo de texto convertido utilizando el indicador "-layout".
pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Si desea convertir solo un rango de páginas en un archivo PDF, use los marcadores “-f” y “-l” (una “L” minúscula) para especificar la primera y la última página del rango que desea convertir..
pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Para convertir un archivo PDF que está protegido y encriptado con una contraseña de propietario, use la bandera "-opw" (el primer carácter de la bandera es una letra minúscula "O", no un cero).
pdftotext -opw 'contraseña' /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Cambie la "contraseña" a la que se usa para proteger el archivo PDF original que se está convirtiendo. Asegúrese de que haya comillas simples, no dobles, alrededor de "contraseña".
Si el archivo PDF está protegido y encriptado con una contraseña de usuario, use la bandera "-upw" en lugar de la bandera "-opw". El resto del comando es el mismo..
También puede especificar el tipo de carácter de final de línea que se aplica al texto convertido. Esto es especialmente útil si planea acceder al archivo en un sistema operativo diferente como Windows o Mac. Para hacer esto, use la bandera "-eol" (el carácter central de la bandera es una letra minúscula "O", no un cero) seguido de un espacio y el tipo de carácter de final de línea que desea usar (" unix "," dos ", o" mac ").
NOTA: Si no especifica un nombre de archivo para el archivo de texto, pdftotext utiliza automáticamente la base del nombre de archivo PDF y agrega la extensión ".txt". Por ejemplo, "archivo.pdf" se convertirá a "archivo.txt". Si el archivo de texto se especifica como "-", el texto convertido se envía a la salida estándar, lo que significa que el texto se muestra en la ventana de la Terminal y no se guarda en un archivo.
Para cerrar la ventana de la Terminal, haga clic en el botón "X" en la esquina superior izquierda.
Para obtener más información sobre el comando pdftotext, escriba "man page pdftotext" en el indicador en una ventana de Terminal.