Página principal » Descargas de software gratis » Extraer texto de PDF y archivos de imagen

    Extraer texto de PDF y archivos de imagen

    ¿Tiene un documento PDF del que desea extraer todo el texto? ¿Qué pasa con los archivos de imagen de un documento escaneado que desea convertir en texto editable? Estos son algunos de los problemas más comunes que he visto en el lugar de trabajo al trabajar con archivos.

    En este artículo, hablaré de varias formas diferentes en las que puede intentar extraer texto de un PDF o de una imagen. Los resultados de su extracción variarán según el tipo y la calidad del texto en el PDF o la imagen. Además, sus resultados variarán dependiendo de la herramienta que use, por lo que es mejor probar tantas opciones a continuación como sea posible para obtener los mejores resultados..

    Extraer texto de la imagen o PDF

    La forma más sencilla y rápida de comenzar es probar un servicio de extracción de texto PDF en línea. Normalmente son gratuitos y pueden proporcionarle exactamente lo que está buscando sin tener que instalar nada en su computadora. Aquí hay dos que he usado con muy buenos a excelentes resultados:

    ExtractPDF

    ExtractPDF es una herramienta gratuita para capturar imágenes, texto y fuentes de un archivo PDF. La única limitación es que el tamaño máximo para el archivo PDF es de 10 MB. Eso es un poco pequeño; así que si tienes un archivo más grande, prueba algunos de los otros métodos a continuación. Elija su archivo y luego haga clic en el Enviar archivo botón. Los resultados normalmente son muy rápidos y debería ver una vista previa del texto al hacer clic en la pestaña Texto.

    También es un buen beneficio adicional que extrae imágenes del archivo PDF, ¡en caso de que las necesite! En general, la herramienta en línea funciona muy bien, pero me he topado con un par de documentos PDF que me han dado resultados divertidos. El texto se extrae bien, ¡pero por alguna razón habrá un salto de línea después de cada palabra! No es un gran problema para un archivo PDF corto, pero ciertamente es un problema para archivos con mucho texto. Si eso te sucede, prueba la siguiente herramienta..

    OCR en línea

    La OCR en línea generalmente funcionó para los documentos que no se convirtieron correctamente con ExtractPDF, por lo que es una buena idea probar ambos servicios para ver cuál le da mejor salida. El OCR en línea también tiene algunas características más agradables que pueden ser útiles para cualquier persona con un archivo PDF grande que solo necesita convertir texto en unas pocas páginas en lugar de todo el documento.

    Lo primero que quieres hacer es seguir adelante y crear una cuenta gratuita. Es un poco molesto, pero si no creas la cuenta gratuita, solo convertirá parcialmente tu PDF en lugar de todo el documento. Además, en lugar de solo poder cargar solo un documento de 5 MB, puede cargar hasta 100 MB por archivo con una cuenta.

    Primero, elija un idioma y luego elija el tipo de formato de salida que le gustaría para el archivo convertido. Tienes un par de opciones y puedes elegir más de una si quieres. Debajo Documento multipágina, Puedes elegir Número de páginas y luego elija solo las páginas que desea convertir. A continuación, seleccione el archivo y haga clic en Convertir!

    Después de la conversión, se lo llevará a la sección Documentos (si está conectado), donde podrá ver cuántas páginas gratuitas disponibles le quedan y enlaces para descargar sus archivos convertidos. Parece que solo tienes 25 páginas gratis por día, así que si necesitas más que eso, tendrás que esperar un poco o comprar más páginas.

    El OCR en línea hizo un excelente trabajo al convertir mis archivos PDF porque pudo mantener el diseño real del texto. En mi prueba, tomé un documento de Word que usaba viñetas, diferentes tamaños de fuente, etc. y lo convertí a PDF. Luego usé el OCR en línea para volver a convertirlo al formato de Word y fue aproximadamente un 95% igual al original. Eso es bastante impresionante para mi.

    Además, si está buscando convertir una imagen en texto, entonces OCR en línea puede hacerlo con la misma facilidad que extrae texto de archivos PDF..

    OCR en línea gratis

    Ya que hablábamos de imagen a texto OCR, permítanme mencionar otro buen sitio web que funciona muy bien en imágenes. El OCR en línea gratuito fue muy bueno y muy preciso al extraer texto de mis imágenes de prueba. Tomé un par de fotos de mi iPhone de páginas de libros, folletos, etc. y me sorprendió lo bien que pudo convertir el texto..

    Elija su archivo y luego haga clic en el botón Cargar. En la siguiente pantalla, hay un par de opciones y una vista previa de la imagen. Puedes recortarlo si no quieres OCR todo. Luego haga clic en el botón OCR y su texto convertido aparecerá debajo de la vista previa de la imagen. Tampoco tiene ninguna limitación, lo que es realmente agradable..

    Además de los servicios en línea, hay dos conversores de PDF gratuitos que quiero mencionar en caso de que necesite un software que se ejecute localmente en su computadora para realizar las conversiones. Con los servicios en línea, siempre necesitará una conexión a Internet y eso puede no ser posible para todos. Sin embargo, noté que la calidad de las conversiones de los programas gratuitos era significativamente peor que la de los sitios web..

    A-PDF Text Extractor

    A-PDF Text Extractor es un programa gratuito que realiza un trabajo bastante bueno de extracción de texto de archivos PDF. Una vez que lo descargue e instale, haga clic en el botón Abrir para elegir su archivo PDF. Luego haga clic en Extraer texto para iniciar el proceso.

    Le pedirá una ubicación para almacenar el archivo de salida de texto y luego comenzará la extracción. También puede hacer clic en el Opción Botón, que le permite elegir solo ciertas páginas para extraer y el tipo de extracción. La segunda opción es interesante porque extrae el texto en diferentes diseños y vale la pena probar los tres para ver cuál le da el mejor resultado..

    PDF2Text Pilot

    PDF2Text Pilot hace un buen trabajo de extracción de texto. No tiene opciones; solo agregas archivos o carpetas, conviertes y esperas lo mejor. Funcionó bien en algunos archivos PDF, pero para la mayoría de ellos, hubo numerosos problemas.

    Simplemente haga clic en Agregar archivos y luego haga clic en Convertir. Una vez que se complete la conversión, haga clic en Examinar para abrir el archivo. Su millaje variará usando este programa, así que no espere mucho..

    Además, vale la pena mencionar que si está en un entorno corporativo o puede obtener una copia de Adobe Acrobat del trabajo, entonces realmente puede obtener resultados mucho mejores. Obrobat obviamente no es gratuito, pero tiene opciones para convertir PDF a Word, Excel y HTML. También hace el mejor trabajo de mantener la estructura del documento original y convertir texto complicado..