希望长大对我而言，是可以做更多想做的事，而不是被迫做更多不想做的事...... 首页

tesseract-ocr验证码识别

丁D
学无止境
2020-07-07 16:48
94142已阅读

摘要本文将详细介绍如何使用tesseract来进行图片识别，验证码识别，使用jTessBoxEditor自定义语言库提高识别率，及语言库的合并

### OCR安装工具
下载安装tesseract-ocr-setup-3.02.02
训练工具jTessBoxEditor-2.3.0 
下载地址
```
https://download.csdn.net/download/u011356878/12639109
```

### OCR文字识别实现
参考
https://www.cnblogs.com/cnlian/articles/5765871.html

#### 环境的安装及卸载
安装ocr比较简单，一直next下一步就行了。
需要java环境，所以需要安装jdk8。

注意如果要卸载的话，要注意环境变量有没有删除，不然重新安装不起来
TESSDATA_PREFIX和path
![](/upload/QzpcVXNlcnNcQWRtaW5pc3RyYXRvclxBcHBEYXRhXFJvYW1pbmdcRGluZ1RhbGtcODY2MjM5MDBfdjJcSW1hZ2VGaWxlc1wxNTk0MTAyMzg3NjQxXzEwNUQwQTQ0LTU4RkYtNDE4My04RUVELTJGMjNGNUI4MzE2NC5wbmc=.png)
![](/upload/QzpcVXNlcnNcQWRtaW5pc3RyYXRvclxBcHBEYXRhXFJvYW1pbmdcRGluZ1RhbGtcODY2MjM5MDBfdjJcSW1hZ2VGaWxlc1wxNTk0MTAyNDUwODEyXzM2RDcxMDYzLTNBREItNGJkNy04NDJGLTZBMTQ3QzMzQUVFQS5wbmc=.png)
安装完成测试一下
打开命令行窗口，进入安装目录，输入如下命令
`tesseract test.png output_1 –l eng`
output_1是将识别的结果写入这个文件（文件会自己创建）
-l end  指定使用的语言库，，eng是英语

这里我使用的是亚马逊的验证码图片去识别，发现识别效果比较差。所以我们需要训练来提高我们的识别率。

#### jTessBoxEditor训练

1、我们将要训练的图片（样本）放在一个统一的文件夹

2、打开jTessBoxEditor，Tools->Merge TIFF，将样本文件全部选上，并将合并文件保存为  was.font.exp0.tif
![](/upload/QzpcVXNlcnNcQWRtaW5pc3RyYXRvclxBcHBEYXRhXFJvYW1pbmdcRGluZ1RhbGtcODY2MjM5MDBfdjJcSW1hZ2VGaWxlc1wxNTk0MTAxOTQxNjkxX0FDRUU1N0Q2LTg5QzktNGE1Yy1CRTc1LUU2QTRFODc5NDYyOC5wbmc=.png)
![](/upload/QzpcVXNlcnNcQWRtaW5pc3RyYXRvclxBcHBEYXRhXFJvYW1pbmdcRGluZ1RhbGtcODY2MjM5MDBfdjJcSW1hZ2VGaWxlc1wxNTk0MTAyMDAxNDE5XzI5ODQxNzVBLUQ0RDUtNGI3OC1CQ0Q3LUVFQzIxNjIwRDk0MC5wbmc=.png)

3、生成BOX文件
tesseract was.font.exp0.tif num.font.exp0 batch.nochop makebox
![](/upload/QzpcVXNlcnNcQWRtaW5pc3RyYXRvclxBcHBEYXRhXFJvYW1pbmdcRGluZ1RhbGtcODY2MjM5MDBfdjJcSW1hZ2VGaWxlc1wxNTk0MTAxODg5MzIxX0E5QUJFOUE2LTRERUYtNDM0Ni1CMjQ0LUIxQzVGRDg4MTY1NS5wbmc=.png)
【语法】：tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox  
lang为语言名称，fontname为字体名称，num为序号；在tesseract中，一定要注意格式。

ps: 如果前3个步骤报错，可以下来下面这样处理

样本图像文件格式必须为tif\tiff格式，否则在Merge样本文件的过程中会出现 Couldn’t Seek 的错误。
如果报错，使用下来方式
1、我们先用程序将图片转成tif\tiff格式
2、手动将第一步生成的图片，后缀改成tiff
打开jTessBoxEditor，Tools->Merge TIFF，将样本文件全部选上，并将合并文件保存为  was.font.exp0.tif

4、定义字符配置文件
在目标文件夹内生成一个名为font_properties的文本文件，内容为

font 0 0 0 0 0  
【语法】：<fontname> <italic> <bold> <fixed> <serif> <fraktur>  
fontname为字体名称，italic为斜体，bold为黑体字，fixed为默认字体，serif为衬线字体，fraktur德文黑字体，1和0代表有和无，精细区分时可使用。

5、字符矫正
打开jTessBoxEditor，BOX Editor -> Open，打开num.font.exp0.tif；矫正<Char>上的字符，记得<Page>有好多页噢！，记得点save保存
![](/upload/QzpcVXNlcnNcQWRtaW5pc3RyYXRvclxBcHBEYXRhXFJvYW1pbmdcRGluZ1RhbGtcODY2MjM5MDBfdjJcSW1hZ2VGaWxlc1wxNTk0MTAxMDQ3ODIwXzU1OUU0RkMyLTFGNjMtNGQyNy1BQUNCLTc5RjY3MTAxM0MyOS5wbmc=.png)
6、新建was.bat,并且双击执行
```
rem 执行改批处理前先要目录下创建font_properties文件 
echo Run Tesseract for Training.. 
tesseract.exe was.font.exp0.tif was.font.exp0 nobatch box.train 
 
echo Compute the Character Set.. 
unicharset_extractor.exe was.font.exp0.box 
mftraining -F font_properties -U unicharset -O was.unicharset was.font.exp0.tr

echo Clustering.. 
cntraining.exe was.font.exp0.tr

echo Rename Files.. 
rename normproto was.normproto 
rename inttemp was.inttemp 
rename pffmtable was.pffmtable 
rename shapetable was.shapetable

echo Create Tessdata.. 
combine_tessdata.exe was. 
echo. & pause
```

测试
tesseract test.png output_2 -l num

#### 合并训练库

我们昨天天训练了一个字体库，发现不够精确，今天又训练一个，可以将昨天和今天的合并起来
参考 https://www.jianshu.com/p/ea06f02195af

合并训练库 （合并需要tif文件和box文件）

一、先生成相对应的 .tr 文件（如果你之前训练的.tr 有的话，可以忽略这步）
tesseract test.font.exp0.tif test.font.exp0 nobatch box.train
tesseract was.font.exp0.tif was.font.exp0 nobatch box.train

二、从所有文件中提取字符
unicharset_extractor was.font.exp0.box test.font.exp0.box

三、生成字体特征文件（was.font.exp0.box   font是第二部分）
3.1
新建的font_properties文件，内容如下
font 0 0 0 0 0
font 0 0 0 0 0
 
3.2 
mftraining -F font_properties -U unicharset was.font.exp0.tr test.font.exp0.tr

四、聚集所有.tr 文件
cntraining was.font.exp0.tr test.font.exp0.tr

五、重命名文件，把unicharset, inttemp, normproto, pfftable，shapetable 这几个文件加了前缀aws. (目的是为了后面的聚集合并)
rename normproto aws.normproto

rename inttemp aws.inttemp

rename pffmtable aws.pffmtable

rename shapetable aws.shapetable

rename unicharset aws.unicharset

六、合并所有文件 生成一个大的字库文件
combine_tessdata aws.
   ![](/upload/QzpcVXNlcnNcQWRtaW5pc3RyYXRvclxBcHBEYXRhXFJvYW1pbmdcRGluZ1RhbGtcODY2MjM5MDBfdjJcSW1hZ2VGaWxlc1wxNTk0MTAyMTg4MTg5XzAyQTFDNDIwLTlENEMtNDUwZi04MDE4LTJBMUFFRDM4MUJGRS5wbmc=.png)
   
七、最后文件夹中就可以看到生成的.traineddata训练库
然后将aws.traineddata 拷贝到安装ocr的tessdata目录下
C:\Program Files (x86)\Tesseract-OCR\tessdata

测试
tesseract test1.jpg output_2 -l aws

上一篇：MYSQL-连续登陆的天数

下一篇：liunx磁盘扩容