¿Cómo puedo copiar texto de un PDF mientras se conserva el formato?

PDF, el formato de documento ubicuo, es ideal para compartir documentos a la vez que conserva las fuentes, las imágenes y el diseño general de las plataformas. Sin embargo, ¿existe una manera fácil de conservar ese mismo formato al copiar y pegar texto del documento??

La sesión de Preguntas y Respuestas de hoy nos llega por cortesía de SuperUser, una subdivisión de Stack Exchange, un grupo de sitios web de preguntas y respuestas impulsado por la comunidad..

La pregunta

SuperUser reader Colen está buscando una forma de extraer texto de archivos PDF a la vez que conserva el formato:

Cuando copio texto de un archivo PDF y lo meto en un editor de texto, termina mancillado de varias maneras. Formateo en negrita y cursiva se pierden; los saltos de línea suaves dentro de un párrafo del texto se convierten en saltos de línea duros; los guiones para romper una palabra en dos líneas se conservan incluso cuando no deberían serlo; y las comillas simples y dobles son reemplazadas por? señales.

Idealmente, me gustaría poder copiar texto de un PDF y convertir el formato a códigos HTML, las "comillas inteligentes" y ", y los saltos de línea realizados correctamente. ¿Hay alguna manera de hacer esto??

¿Existe una forma rápida y fácil para que Colen (y el resto de nosotros) obtengamos un texto de agarre sin sacrificar el formato??

La respuesta

El colaborador de Superusuarios Frabjous ofrece una solución combinada con una gran dosis de precaución:

En primer lugar, tienes que entender qué es un PDF. Los PDF están diseñados para imitar una página impresa, y están diseñados solo como un formato de salida, no como un formato de entrada. Un PDF es básicamente un mapa que contiene la ubicación exacta de los caracteres (letras individuales o puntuación, etc.) o imágenes. En la mayoría de los casos, un PDF ni siquiera almacena información acerca de dónde termina una palabra y comienza otra, y mucho menos cosas como saltos suaves contra saltos duros para los finales de los párrafos..

(Algunos PDF recientes almacenan cierta información sobre estas cosas, pero esa es una nueva tecnología, y sería una suerte encontrarlos así. Incluso si lo hiciera, es posible que su visor de PDF no lo sepa).

De todos modos, depende de su software implementar algún tipo de "inteligencia artificial" para extraer simplemente de las ubicaciones de los caracteres individuales lo que es una palabra, lo que es un párrafo, etc. Un software diferente lo hará mejor que otros, y también dependerá de cómo se hizo el PDF. En cualquier caso, nunca debes esperar resultados perfectos. Tener el PDF de salida no es lo mismo que tener el documento de origen. Mucho mejor tratar de obtener eso si puedes.

La solución estándar para su tipo de problema es utilizar Adobe Acrobat Professional (el costoso, no el lector gratuito) para convertir el PDF a HTML. Incluso eso no va a obtener resultados perfectos..

Existe un software gratuito que se puede utilizar para extraer texto de archivos PDF con algunos de los formatos intactos, pero nuevamente, no espere resultados perfectos. Consulte, por ejemplo, calibre (que se puede convertir a formato RTF), pdftohtml / pdfreflow o el procesador de texto AbiWord (con todos los complementos de importación / exportación habilitados). También hay un complemento de importación de PDF para OpenOffice.

Pero por favor no esperes la perfección con ninguno de estos resultados. Vas contra el grano aquí. PDF simplemente no es un formato de entrada editable.

Si tiene problemas para decidir con qué herramienta comenzar, Caliber es un verdadero documento de Swiss Army Knife. También puede usarlo para convertir archivos PDF para usarlos en su lector de libros electrónicos y organizar su libro electrónico / biblioteca de documentos.

¿Tienes algo que agregar a la explicación? Apague el sonido en los comentarios. ¿Quieres leer más respuestas de otros usuarios de Stack Exchange con experiencia en tecnología? Echa un vistazo a la discusión completa aquí.