0%

Tesseract快速上手

Tesseract是一个光学字符识别引擎,由 Google 赞助开发。

outputResult


安装

Windows 用户下载: tesseract-ocr-w64-setup-v4.1.0-bibtag19.exe

安装时候勾选中文语言支持,Additional script data (download) 勾选 Han Simplified script,Additional language data (download) 勾选 Chinese (Simplified):

勾选中文语言支持

安装完毕后,将安装路径添加进系统变量的 Path 中:

系统变量

测试

进入 CMD,查看 Tesseract 以及语言包是否安装完成:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
# 查看tesseract版本
>tesseract -v
tesseract v4.1.0-bibtag19
leptonica-1.78.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.2.0
Found AVX2
Found AVX
Found SSE

# 查看帮助
>tesseract --help
Usage:
tesseract --help | --help-extra | --version
tesseract --list-langs
tesseract imagename outputbase [options...] [configfile...]

OCR options:
-l LANG[+LANG] Specify language(s) used for OCR.
NOTE: These options must occur before any configfile.

Single options:
--help Show this help message.
--help-extra Show extra help for advanced users.
--version Show version information.
--list-langs List available languages for tesseract engine.

# 查看tesseract引擎支持的语言
>tesseract --list-langs
List of available languages (6):
chi_sim
chi_sim_vert
eng
osd
script/HanS
script/HanS_vert

使用

可用 Windows 画图工具 mspaint 绘制一张图片并保存为 testTesseract.png,如下所示:

testTesseract

进入 Git Bash,使用 tesseract 引擎对图片 testTesseract.png 进行 OCR,语言为 chi_sim,输出到 outputResult.txt 文件并查看内容:

1
2
3
4
$ tesseract testTesseract.png outputResult -l chi_sim && cat outputResult.txt
Tesseract Open Source OCR Engine v4.1.0-bibtag19 with Leptonica
你好,
是 SANNAHALI

可见识别准确率还是可以的,有更高要求还可以进行训练调教。