본문 바로가기
속편한 프로그램

테서랙트(Tesseract) 다운 및 설치 방법: 비개발자도 쉽게 가능

by 속편한It 2024. 8. 27.
반응형

테서랙트(Tesseract)는 구글에서 개발한 오픈소스 OCR(광학 문자 인식) 엔진으로, 이미지나 PDF 파일에서 텍스트를 손쉽게 추출할 수 있는 도구입니다. 다양한 언어를 지원하며, 개인 사용자부터 기업까지 널리 사용되고 있습니다.

 

특히, 비개발자도 간단한 설치와 설정만으로 테서랙트를 사용할 수 있어 접근성이 뛰어난 것이 특징입니다.

이 글에서는 테서랙트를 다운로드하고 설치하는 방법을 단계별로 자세히 설명드리겠습니다.

이 가이드를 따라 진행하면 누구나 쉽게 테서랙트를 활용할 수 있을 것입니다.

테서랙트 다운 및 설치 방법을 담은 글임을 나타내는 특성 이미지

 

테서랙트(Tesseract) 다운로드 방법

테서랙트를 설치하려면 먼저 설치 파일을 다운로드해야 합니다.

GitHub 페이지에서 최신 버전을 다운로드 할 수 있습니다.

아래 링크를 클릭하여 테서랙트의 GitHub 다운로드 페이지로 이동하세요.

테서랙트 다운로드 페이지

 

링크를 클릭하면, 화면 구성이나 텍스트가 다를 수 있지만, 이 글 작성 시점을 기준으로 페이지는 다음과 같은 형태로 되어 있습니다.

GitHub Tesseract 다운로드 페이지

 

위 스크린샷에서 붉은 네모 박스로 표시된 부분을 클릭하면 다운로드가 시작됩니다. (참고: 이 파일은 Windows용입니다.)

 

테서랙트(Tesseract) 설치 방법

다운로드가 완료되면 이제 설치를 진행할 차례입니다. Windows를 기준으로 테서랙트를 설치하는 방법을 단계별로 설명드리겠습니다.

 

1. 설치 파일 실행

다운로드한 `.exe` 파일을 더블 클릭하여 설치 프로그램을 실행합니다.

테서랙트 설치 01

2. 언어 선택

설치 프로그램을 실행하면 언어 선택 창이 나타납니다.

한국어는 없으므로 기본 설정인 English를 선택하거나, 원하는 다른 언어가 있다면 선택하세요.

테서랙트 설치 02

 

3. 설치 과정 진행

'Next' 버튼을 계속 눌러 설치를 진행하세요.

설치 중간에 사용하고자 하는 언어 데이터를 선택하는 단계가 나옵니다.

위 화면에서 붉은 네모 부분을 클릭해 목록을 펼친 후 'Korean'을 선택하세요.

테서랙트 설치 03

 

한국어 인식을 원하지 않는 경우, 이 단계를 건너뛰어도 됩니다. 하지만 한국어 인식이 필요할 가능성이 있다면 추가하는 것을 추천드립니다.

 

4. 설치 완료

마지막으로 'Next' 및 'Finish' 버튼을 눌러 설치를 완료합니다.

 

이렇게 해서 테서랙트 설치가 완료되었습니다! 이제 테서랙트를 사용해 이미지에서 텍스트를 추출할 준비가 되었습니다. 다음 글에서는 테서랙트 설치 이후 환경변수 설정 방법을 소개해드리겠습니다.

 

환경변수 설정은 테서랙트 설치 후 꼭 필요한 과정이므로 반드시 하시길 추천 드립니다.

반응형