Transcribes text out of a given image, scan (.jpg, .png, .tif) or PDF file using a text recognition model (Computer Vision) with various settings for layout extraction: parse text, tabular, rotated, single line, uniform, and more.
Supported Languages
Afrikaans, Arabic, Azerbaijani, Belarusian, Bosnian, Bulgarian, Catalan, Croatian, Czech, Danish, Dutch, English, Estonian, Finish, French, Galician, German, Greek, Spanish, Hebrew, Hindi, Hungarian, Icelandic, Indonesian, Italian, Japanese, Kannada, Kazakh, Korean, Latvian, Lithuanian, Macedonian, Malay, Marathi, Nepali, Norwegian, Persian, Polish, Portuguese, Romanian, Swedish, Thai, Turkish, Ukrainian, Urdu.

Usage Example
Running the Text Extractor for Romanian on the image below (screenshot of a Facebook post) will extract all displayed text with being able to recognize the language-specific diacritics.

curl -X POST "http://localhost:8989/rest/process-file" -H "accept: application/json" -H "Content-Type: multipart/form-data" -F "content=@facebook-post-ron.png;type=image/png"
Calling the Text Extractor with the above will generate the simple JSON response below:
{
"text": "[en] Hari Bucur-Marcu E\ncae EI)\n\nCe voiam să zic eu în textul postat anterior pe acest perete, despre faptul că democrațiile au\nreţineri să plece de capul lor la război, pe când autocrațiile și dictaturile nu au nicio reținere\n(diferenţa fiind făcută de nivelul de responsabilitate a guvernanților față de guvernați) era că,\n\npână la urmă, cea mai solidă garanţie de securitate că Federaţia Rusă nu va mai agresa vreodată\npe nimeni și că nu va mai şantaja pe nimeni cu dezastrul umanitar, dar și că nu va mai ameni... See\nmore\n\n \n\n& 320 4 Comments 41 Shares\n\nbi că PI)\n\f"
}
One response
[…] “character recognition”. Modern AI OCR systems, like the ones offered by Zetta Cloud (https://zettacloud.ai/optical-character-recognition/), can preprocess scanned documents to make them suitable for further ingestion, can identify […]