Cómo extraer texto e imágenes fácilmente de los archivos de MS Office
Podemos encontrar la necesidad de extraer imágenes o texto de un archivo de MS Word o MS Powerpoint. Por lo general, esto puede incluir copiar y pegar manualmente, una página a la vez, y con archivos mega-grandes, esto llevará bastante tiempo..
Bueno, tenemos un truco simple para ayudarte. Extrae imágenes y texto de archivos del nuevo formato. es decir, DOCX, PPTX, XLSX mientras que con archivos del formato anterior, es decir, DOC, PPT, XLS, todo lo que necesita es un software libre Para ayudarte a extraer imágenes rápida y fácilmente..
Nota: Con el fin de demostrar esta publicación, usaremos solo un archivo de MS Word. El proceso es el mismo para los archivos MS Powerpoint y MS Excel..
Esto es lo que cubre este artículo:
- Cómo extraer imágenes y texto de archivos DOCX, PPTX, XLXS
- Cómo extraer imágenes de un solo archivo DOC, PPT o XLS
- Cómo extraer imágenes de múltiples archivos DOC, PPT o XLS
- Cómo extraer imágenes con “Guardar como página web” método
- Cómo extraer texto plano en lugar de XML
Cómo extraer imágenes y texto de archivos DOCX, PPTX, XLXS
Antes de seguir los pasos, abra la carpeta que contiene sus archivos. hacer clic Organizar> Opciones de carpeta y búsqueda> Ver y desmarcar Ocultar las extensiones para tipos de archivo conocidos. Ahora, puedes ver la extensión del archivo con cada nombre de archivo.
-
Localiza y selecciona el archivo del que desea extraer imágenes y texto (nota: es mejor hacer una copia de dicho archivo). En este ejemplo, nuestro archivo de destino se llama Archivo de muestra.docx.
-
prensa F2 para cambiar el nombre del archivo y reemplazar el nombre de extensión con .cremallera.
-
Se mostrará una advertencia para confirmar el cambio de la extensión del archivo. Hacer clic Sí.
-
Botón derecho del ratón en el archivo ZIP y haga clic en Extraer archivos.
-
Localice y abra la carpeta que contiene los datos extraídos y luego abra el palabra.
-
En él podrás ver algunas carpetas y archivos XML. En el medios de comunicación Carpeta encontrarás las imágenes extraídas. Para el texto extraído, abra el document.xml archivo con bloc de notas o bloc de notas XML.
Esto es lo que encontrarás en el medios de comunicación carpeta.
Cómo extraer imágenes de un solo archivo DOC, PPT o XLS
Si desea extraer imágenes de archivos de MS Office con formatos antiguos, El método anterior no funcionará con las imágenes. Necesita una herramienta gratuita llamada Office Image Extraction Wizard para este propósito. La herramienta funciona con archivos de MS Office desde 2012 y funciona con uno o varios archivos de MS Office de una sola vez.
-
Descargar y instalar Asistente de extracción de imágenes de Office.
-
Elija el documento del que desea extraer imágenes (para este ejemplo, lo hacemos en una carpeta que nombré Ch1.doc), y seleccione la carpeta de salida. Puede optar por tener una carpeta creada para albergar todas sus imágenes de salida al marcar la opción Crea una carpeta aquí. Una vez que haya terminado, haga clic en Siguiente.
-
Hacer clic comienzo para comenzar el proceso.
-
Una vez finalizado el proceso de extracción de la imagen, haga clic en Haga clic aquí para abrir la carpeta de destino y se abrirá la carpeta de salida.
-
Como se puede ver a continuación, el programa ha creado un Ch1 carpeta.
-
Dentro de la carpeta se encuentran las imágenes extraídas..
Cómo extraer imágenes de múltiples archivos DOC, PPT o XLS
-
Para extraer imágenes de varios archivos de los formatos DOC, PPT o XLS, marque la casilla Por lotes opción que se encuentra en la parte inferior izquierda.
-
Haga clic en Agregar archivos y entonces seleccionar Los archivos de los que desea extraer imágenes. Sostener el Ctrl Botón para seleccionar varios archivos de una sola vez. Después de seleccionar los archivos, haga clic en Siguiente.
-
Hacer clic comienzo.
-
Cuando se complete el proceso, localice y abra el carpeta de salida. Aquí verás dos carpetas con los nombres de archivo originales. Abierto estas carpetas para ver las imágenes extraídas de sus archivos originales de MS Office.
Cómo extraer imágenes con el método "Guardar como página web"
Hay otro método que funcionará con ambos más nuevo y más viejo Archivos de MS Office.
-
Abra el archivo DOCX o XLSX y haga clic en Archivo> Guardar como> Ordenador> Navegador y guardar el archivo como Página web.
-
Localizar La carpeta con el nombre de archivo en el que guardó la página web. Aquí verá todas las imágenes extraídas del archivo..
Cómo extraer texto plano en lugar de XML
-
Abra el archivo DOCX y haga clic en Archivo> Guardar como> Ordenador> Navegador. Elija guardar el archivo como Texto sin formato (para archivos XLSX, guárdelo como Texto (delimitado por tabulaciones)).
-
Localizar y abierto El archivo de texto con el nombre que ha usado para guardarlo. Este archivo de texto solo contendrá el texto de su archivo original sin ningún formato.
Si conoce algún otro método o herramienta para extraer imágenes de archivos de MS Office, mencione en el comentarios sección.