tesseract: ¿es posible cambiar la fuente de salida en OCRed pdf?

¿Seguir sobre cómo OCR un file pdf y get el text almacenado en pdf? He producido con éxito páginas OCRed pdf.

En Evince, sin embargo, las letras no se muestran; con esto quiero decir que no puedo ver los personajes, pero puedo seleccionarlos, copyrlos y pegarlos en otro lugar con éxito. Esto no parece ser un error de Evince: https://bugzilla.networkinghat.com/show_bug.cgi?id=1364201

Al iniciar un OCR de una página pdf con pdfsandwich, tesseract produce una página que

contiene una fuente que no tiene ningún glifo utilizable (lo llamaron GlyphLessFont). Solo tiene reemploops .notdef y .null (los cuadrados). Evince usa el glifo .notdef si no hay un glifo para el personaje. La razón por la que Okular resalta el text es porque lo hace en la image no como un text normal como lo hace evince.

pdftotext reconoce los personajes.

Ahora, la pregunta es: ¿se puede decir a tesseract que use una fuente diferente?

Puede personalizar esta parte del código fuente a su gusto y cambiar la fuente aquí. Tendrás que rebuild Tesseract desde la fuente una vez que realices el cambio.

Tesseract Github Renderer.h

Intereting Posts