Tesseract.js lleva la traducción de OCR de imágenes a los navegadores
La traducción de OCR aún no es perfecta, pero ha mejorado dramáticamente en los últimos años. Liderando el camino es el Tesseract motor de traducción actualmente abierto en origen do++.
Si bien esta es una biblioteca increíble, sin embargo, está restringida al software. Afortunadamente alguien hizo un puerto de Tesseract en JavaScript que se llama Tesseract.js. Eso soporta hasta 60 idiomas Y aunque ciertamente no es perfecto, hace bien el trabajo..
La instalación y la configuración son muy fáciles de usar. apuntar a cualquier elemento de la imagen en la página y ejecute el Tesseract.recognize () función. Esto puede tomar cualquier tipo de imagen y automáticamente comprimir y traducir justo en el navegador.
Puedes conseguir mucho más complicado pero la belleza es. Cómo puedes ejecutar OCR con una sola línea de código.
Consulte la página de inicio de Tesseract.js si desea ver una demostración en vivo. Esto funciona justo en el navegador donde puedes arrastre y suelte cualquier imagen escaneada de texto para obtener una traducción automática de OCR.
También puede descargar este ejemplo localmente a través de la página GitHub o puede crear su propia aplicación incluyendo el script Tesseract.js directamente desde un CDN..
El ejemplo de código más simple es el siguiente, donde Mi imagen es una referencia directa a un elemento de imagen HTML:
Tesseract.recognize (myImage) .then (function (result) console.log (result));
De cualquier manera, esta biblioteca es muy útil para moverse con OCR en la web. Está lejos de ser perfecto pero también es el El mejor recurso para los desarrolladores web que desean una funcionalidad dinámica de OCR en la página..
Para obtener más información, visite la página GitHub de Tesseract.js, donde puede ver una demostración en vivo y navegar a través de la documentación en línea..