OCRGet 1.5.3

Software, die es ermöglicht, optische Zeichenerkennung (OCR) in Bildern und PDFs durchzuführen und effizient Text zu extrahieren.


Beschreibung


OCRGet ist eine Software, die optische Zeichenerkennung (OCR) in Bildern und PDFs ermöglicht und Texte effizient extrahiert. Sie basiert auf Python und verwendet die Tesseract OCR-Bibliothek, mit Unterstützung für Automatisierung über eine grafische Benutzeroberfläche (GUI) und die Befehlszeile (CLI). Das Projekt richtet sich an Benutzer, die ein einfaches und anpassbares Werkzeug benötigen, um Texte aus gescannten Dokumenten oder Bildern zu extrahieren.

Hauptfunktionen:

  • OCR in Bildern und PDFs: Extrahiert Texte aus PNG-, JPEG-, BMP-, TIFF-Dateien und PDFs.
  • Grafische Benutzeroberfläche und CLI: Bietet eine mit Tkinter erstellte GUI für Benutzerfreundlichkeit und CLI-Unterstützung für Automatisierung.
  • Bildvorverarbeitung: Enthält Optionen zur Verbesserung der Bildqualität (Helligkeitsanpassung, Kontrast, Binarisierung) vor der OCR.
  • Flexible Ausgabe: Der extrahierte Text kann in TXT-Dateien gespeichert oder in die Zwischenablage kopiert werden.
  • Tesseract-Konfiguration: Ermöglicht das Festlegen des Tesseract-Pfades und zusätzlicher Parameter zur Optimierung der Erkennung.
  • Unterstützung für mehrere Dateien: Verarbeitet mehrere Dateien im Batch über die CLI.

Screenshot


OCRGet