OCRGet는 이미지와 PDF에서 문자 인식(OCR)을 수행하여 효율적으로 텍스트를 추출할 수 있는 소프트웨어입니다. 이 소프트웨어는 Python을 기반으로 하며 Tesseract OCR 라이브러리를 사용하며, 그래픽 사용자 인터페이스(GUI)와 명령줄 인터페이스(CLI)를 통한 자동화를 지원합니다. 이 프로젝트는 스캔한 문서나 이미지에서 텍스트를 추출하기 위해 간단하고 개인화할 수 있는 도구가 필요한 사용자들을 위해 설계되었습니다.
주요 기능:
이미지 및 PDF에서 OCR: PNG, JPEG, BMP, TIFF 파일 및 PDF에서 텍스트를 추출합니다.
GUI 및 CLI: 사용 편의를 위한 Tkinter로 구축된 GUI와 자동화를 위한 CLI 지원을 제공합니다.
이미지 전처리: OCR 이전에 이미지 품질을 개선하기 위한 옵션(밝기, 대비, 이진화 조정)을 포함합니다.
유연한 출력: 추출된 텍스트는 TXT 파일로 저장하거나 클립보드에 복사할 수 있습니다.
Tesseract 설정: Tesseract의 경로와 인식을 최적화하기 위한 추가 매개변수를 지정할 수 있습니다.