Optical Character Recognition

Posted by

Transcribes text out of a given image, scan (.jpg, .png, .tif) or PDF file using a text recognition model (Computer Vision).

Supported Languages

We currently support the following languages: English, Romanian, German, Italian, Arabic, Catalan, Danish, Greek, French, Dutch, Japanese, Polish,
Spanish, Portuguese, Russian, Farsi, Macedonian, Lithuanian, Hungarian

Usage Example

Running the Text Extractor for Romanian on the image below (screenshot of a Facebook post) will extract all displayed text with being able to recognize the language specific diacritics.

curl -X POST "http://localhost:8989/rest/process-file" -H "accept: application/json" -H "Content-Type: multipart/form-data" -F "content=@facebook-post-ron.png;type=image/png"

Calling the Text Extractor with the above will generate the simple JSON response below:

{

  "text": "[en] Hari Bucur-Marcu E\ncae EI)\n\nCe voiam să zic eu în textul postat anterior pe acest perete, despre faptul că democrațiile au\nreţineri să plece de capul lor la război, pe când autocrațiile și dictaturile nu au nicio reținere\n(diferenţa fiind făcută de nivelul de responsabilitate a guvernanților față de guvernați) era că,\n\npână la urmă, cea mai solidă garanţie de securitate că Federaţia Rusă nu va mai agresa vreodată\npe nimeni și că nu va mai şantaja pe nimeni cu dezastrul umanitar, dar și că nu va mai ameni... See\nmore\n\n \n\n& 320 4 Comments 41 Shares\n\nbi că PI)\n\f"

}

One response