OCRGet 1.5.3

画像やPDFからテキストを効率的に抽出する光学文字認識(OCR)を実行できるソフトウェアです。


説明


OCRGetは、画像やPDFから効率的にテキストを抽出する光学文字認識(OCR)を実行できるソフトウェアです。Pythonに基づいており、Tesseract OCRライブラリを使用して、グラフィカルユーザーインターフェース(GUI)とコマンドライン(CLI)を介した自動化をサポートしています。このプロジェクトは、スキャンしたドキュメントや画像からテキストを抽出するためのシンプルでカスタマイズ可能なツールを必要とするユーザー向けです。

主な機能:

  • 画像とPDFのOCR: PNG、JPEG、BMP、TIFFファイル及びPDFからテキストを抽出します。
  • グラフィカルインターフェースとCLI: 使用の容易さのためにTkinterで構築されたGUIと自動化のためのCLIを提供します。
  • 画像の前処理: OCRの前に画像の質を向上させるオプション(輝度、コントラスト、二値化の調整)を含みます。
  • 柔軟な出力: 抽出したテキストはTXTファイルに保存するか、クリップボードにコピーすることができます。
  • Tesseractの設定: Tesseractのパスと追加のパラメータを指定して、認識を最適化することができます。
  • 複数ファイルのサポート: CLIを介してバッチ処理で複数のファイルを処理します。

スクリーンショット


OCRGet