문자인식을 할 때 사용하는 툴 tesseract는 다운로드받은 상태 그대로 사용하면 인식률이 매우 좋지않다.
얘를 트레이닝 시켜줘서 인식률을 높일 수 있다.
jTessBoxEditor를다운로드한다.
https://softfamous.com/jtessboxeditor/download/
적당한곳에 저장하여 압축을 풀어준다.
실행시키기 전에 먼저 메모장에 트레이닝 시킬 글자를 입력한다.
지난번에 인식에 실패한 그 차번호에 있던....'하'
여기서 TIFF/Box Generator 탭 클릭 -> Input 버튼 클릭하여 앞에서 입력한 트레이닝 문자 파일을 불러온다.
불러오면 아래처럼 나옴.
output파일은.. 일단 걍 두고, 옆의 eng를 kor로 바꿔준다.
jTessBoxEditor window를 옆으로 늘리면 한없이 늘어난다.
ㄷㄷ 무슨 UI를 이렇게 만들었담.
generate버튼을 누르면 tif파일이 생성된다.
다음으로 Box Editor tab에서 open버튼을 눌러 방금 만들었던 tif파일을 불러온다.
이제부터 학습을 시작하기 위해 Trainer 탭 클릭
일단 아무거나 해본다;;;몰라서;;;
Language에 kor을 입력해준 뒤 Run 버튼 옆의 드롭다운 목록에서 Train with existing box 를 선택한다.
그리고 Run버튼을 눌러준다.
training 진행중.
training complete
19초 걸렸다.
이게 근데 어떤 원리로 동작하는 방식인지 알아야겠다.
일단 텍스트로 입력받은 글자의 code를 저장해 두고, 영상인식을 하여 box를 채워서 뭔가 판단하여 저장하는 듯하다.
아까 지정한 경로에 taining data가 생성되었고, 얘를 C:\Program Files\Tesseract-OCR\tessdataC:\Users\Public\AppData\Local\Tesseract-OCR\tessdata 에 옮겨주면 완료다. (tesseract 설치경로.)
기존것을 백업해뒀다. 아무래도 내가 트레이닝한 데이터의 용량이 훨씬 작아서.
지난번에 실패했던 번호인식을 다시 해보고자 한다.
더 안된다. 휴...
더 많이 트레이닝시키는 방법을 찾아봐야겠다.
댓글