Cómo extraer y guardar imágenes de un archivo PDF en Linux
Puede convertir fácilmente archivos PDF a texto editable en Linux usando la herramienta de línea de comandos "pdftotext". Sin embargo, si hay alguna imagen en el archivo PDF original, no se extraen. Para extraer imágenes de un archivo PDF, puede usar otra herramienta de línea de comandos llamada "pdfimages".
NOTA: Cuando decimos que escriba algo en este artículo y haya comillas alrededor del texto, NO escriba las comillas, a menos que especifiquemos lo contrario..
La herramienta "pdfimages" es parte del paquete poppler-utils. Puede verificar si está instalado en su sistema e instalarlo si es necesario siguiendo los pasos descritos en este artículo..
Para extraer imágenes de un archivo PDF usando imágenes en pdf, presione “Ctrl + Alt + T” para abrir una ventana de Terminal. Escriba el siguiente comando en el indicador.
pdfimages /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image
NOTA: Para todos los comandos que se muestran en este artículo, reemplace la primera ruta en el comando y el nombre de archivo PDF a la ruta y el nombre de archivo de su archivo PDF original. La segunda ruta debe ser la ruta a la carpeta raíz en la que desea guardar las imágenes extraídas. La palabra "imagen" al final de la segunda ruta representa cualquier cosa con la que desee introducir su nombre de archivo. Los nombres de los archivos de las imágenes se numeran automáticamente (000, 001, 002, 003, etc.). Si desea agregar texto al comienzo de cada imagen, ingrese ese texto al final de la segunda ruta. En nuestro ejemplo, cada nombre de archivo de imagen comenzará con "imagen", como imagen-001.ppm, imagen-002.ppm, etc..
El formato de imagen predeterminado es PPM (mapa de píxeles portátil) para imágenes no monocromáticas o PBM (mapa de bits portátil) para imágenes monocromas. Estos formatos están diseñados para ser fácilmente intercambiados entre plataformas..
NOTA: Puede obtener dos archivos de imagen para cada imagen en su archivo PDF. La segunda imagen de cada imagen está en blanco, por lo que podrá decir qué imágenes contienen las imágenes del archivo por la miniatura en el archivo en el Administrador de archivos..
Para crear archivos de imagen .jpg, agregue la opción “-j” al comando, como se muestra a continuación.
pdfimages -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image
NOTA: También puede cambiar la salida predeterminada a PNG usando la opción “-png” o TIFF usando la opción “-tiff”.
El archivo de imagen principal para cada imagen se guarda como un archivo .jpg. La segunda imagen en blanco sigue siendo un archivo .ppm o .pbm.
Si solo desea convertir imágenes en y después de una determinada página, use la opción “-f” con un número para indicar la primera página a convertir, como se muestra en el siguiente comando de ejemplo..
pdfimages -f 2 -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image
NOTA: Combinamos la opción “-j” con la opción “-f” para que obtuviéramos imágenes .jpg e hiciéramos lo mismo con la opción “-l” que se menciona a continuación..
Para convertir todas las imágenes antes y en una página determinada, use la opción “-l” (una “L” minúscula, no el número “1”) con un número para indicar la última página a convertir, como se muestra a continuación.
pdfimages -l 1 -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image
NOTA: Puede usar las opciones “-f” y “-l” juntas para convertir imágenes en un rango de páginas específico en la mitad de su documento.
Si hay una contraseña de propietario en el archivo PDF, use la opción "-opw" y la contraseña entre comillas simples, como se muestra a continuación. Si la contraseña en el archivo PDF es una contraseña de usuario, use la opción "-upw" en lugar de la contraseña.
NOTA: asegúrese de que haya comillas simples alrededor de su contraseña en el comando.
pdfimages -opw 'contraseña' -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image
Para obtener más información sobre el uso del comando pdfimages, escriba "pdfimages" en el mensaje en una ventana de Terminal y presione "Enter". El uso del comando se muestra con una lista de opciones disponibles para usar en el comando.