OCRGet 1.5.3

Logiciel permettant de réaliser la reconnaissance optique de caractères (OCR) sur des images et des PDFs, extrayant du texte de manière efficace.


Description


OCRGet est un logiciel qui permet de réaliser la reconnaissance optique de caractères (OCR) sur des images et des PDF, en extrayant du texte de manière efficace. Il est basé sur Python et utilise la bibliothèque Tesseract OCR, avec un support pour l'automatisation via une interface graphique (GUI) et une ligne de commande (CLI). Le projet est destiné aux utilisateurs qui ont besoin d'un outil simple et personnalisable pour extraire du texte de documents numérisés ou d'images.

Principales Fonctionnalités :

  • OCR sur Images et PDFs : Extrait du texte de fichiers PNG, JPEG, BMP, TIFF et PDFs.
  • Interface Graphique et CLI : Offre une GUI construite avec Tkinter pour une facilité d'utilisation et un support CLI pour l'automatisation.
  • Pré-traitement des Images : Inclut des options pour améliorer la qualité de l'image (réglage de la luminosité, du contraste, binarisation) avant l'OCR.
  • Sortie Flexible : Le texte extrait peut être enregistré dans des fichiers TXT ou copié dans le presse-papiers.
  • Configuration de Tesseract : Permet de spécifier le chemin de Tesseract et des paramètres supplémentaires pour optimiser la reconnaissance.
  • Support de Fichiers Multiples : Traite plusieurs fichiers en lot via CLI.

Capture d’écran


OCRGet