Tesseract Ocr Study
tesseract ocr 공부
기술조사 ) Tesseract-ocr을 사용
순서1) 라이브러리설치에 앞서서, 맥으로 해야하기 때문에 홈브루 설치(https://whitepaek.tistory.com/3)
순서2) tesseract, tesseract-lang설치
brew install tesseract
brew install tesseract-lang
순서3) sudo pip3 install pytesseract
sudo pip3 intall Image
순서4) 실행한다.
peter:~ peter$ tesseract /Users/peter/Downloads/IMG_5814.JPG /Users/peter/Downloads/aaa.txt -l kor
순서4-1) 또는 파이썬으로 실행한다.
import pytessearct
import PIL import Image
print(pytesseract.image_to_string(Image.open('/Users/peter/Downloads/IMG_5814.JPG'), lang='kor'))
결과1) 별로 좋지 않은 결과
이 도 아이티 들으 그도 밸아차
가 소경더 [준공 023
자구 가바바 다자이 이누 그두자구
1611 11\ 1000 너(|'0>030)40)
이 지 성 지음
시도2) 이미지를 rotate시켜본다.
>>> im = Image.open('/Users/peter/Downloads/IMG_5814.JPG')
>>> img3 = im.rotate(90)
>>> print(pytesseract.image_to_string(img3, lang='kor'))
결과2) 더 안좋음 ㅠㅜ
몽|? 을 |? |0
도스 사기브 사고 ~ 요일 -………애 : 다
00000 0 디넌낸트이나 조는
[1
~
야
오어
1오 "
0
시도3) tesseract의 train된 lang을 추가해본다.
https://github.com/tesseract-ocr/tessdata/blob/master/kor.traineddata 에서 다운로드받고,
받은 데이터파일을 아래에 추가.
mac으로 terracert 를 설치한 경우, 추가할 위치는 /usr/local/share/tessdata 이다.
결과3) 첫번째에 비해 달라진걸 모르겠다 ㅠㅜ
人 還 計生 lane Austen ()%+()&1)
點
『 | 1 도
~) 人 全 一 人 生 人 加
人 크
” > 재한 0 블 세 랐 도 기 ||” :( 총 니 . 내 - 올 를
SKIN 7! 올블
이 入 성 지음
시도4) 문제를 알았다… 폰트같은 글자 모양이나 길이에 대한 학습이 필요하다는 것을…
시도5) 이미지를 box파일을 만든담에 https://hello-gg.tistory.com/5 에서처럼 하나씩 불러서 인식을 잡아준다. 그리고 학습 후 기존 학습파일에 add해준다. https://diyworld.tistory.com/114