OCRGet 1.5.3

Phần mềm cho phép thực hiện nhận dạng ký tự quang học (OCR) trên hình ảnh và PDF, trích xuất văn bản một cách hiệu quả.


Mô tả


OCRGet là một phần mềm cho phép thực hiện nhận diện ký tự quang học (OCR) trên hình ảnh và PDF, trích xuất văn bản một cách hiệu quả. Nó được xây dựng trên nền tảng Python và sử dụng thư viện Tesseract OCR, với hỗ trợ cho tự động hóa qua giao diện đồ họa (GUI) và dòng lệnh (CLI). Dự án này nhằm phục vụ cho người dùng cần một công cụ đơn giản và có thể tùy chỉnh để trích xuất văn bản từ tài liệu đã quét hoặc hình ảnh.

Chức Năng Chính:

  • OCR trên Hình Ảnh và PDF: Trích xuất văn bản từ các tệp PNG, JPEG, BMP, TIFF và PDF.
  • Giao Diện Đồ Họa và CLI: Cung cấp một GUI được xây dựng với Tkinter để dễ sử dụng và hỗ trợ CLI cho tự động hóa.
  • Tiền Xử Lý Hình Ảnh: Bao gồm các tùy chọn để cải thiện chất lượng hình ảnh (điều chỉnh độ sáng, độ tương phản, nhị phân hóa) trước khi thực hiện OCR.
  • Đầu Ra Linh Hoạt: Văn bản trích xuất có thể được lưu vào các tệp TXT hoặc sao chép vào clipboard.
  • Cấu Hình Tesseract: Cho phép chỉ định đường dẫn của Tesseract và các tham số bổ sung để tối ưu hóa nhận diện.
  • Hỗ Trợ Nhiều Tệp: Xử lý nhiều tệp theo lô qua CLI.

Ảnh chụp màn hình


OCRGet