希望长大对我而言,是可以做更多想做的事,而不是被迫做更多不想做的事...... 首页 tesseract-ocr验证码识别 丁D 学无止境 2020-07-07 16:48 57633已阅读 tesseract-ocr jTessBoxEditor 验证码识别 图片识别 摘要本文将详细介绍如何使用tesseract来进行图片识别,验证码识别,使用jTessBoxEditor自定义语言库提高识别率,及语言库的合并 ### OCR安装工具 下载安装tesseract-ocr-setup-3.02.02 训练工具jTessBoxEditor-2.3.0 下载地址 ``` https://download.csdn.net/download/u011356878/12639109 ``` ### OCR文字识别实现 参考 https://www.cnblogs.com/cnlian/articles/5765871.html #### 环境的安装及卸载 安装ocr比较简单,一直next下一步就行了。 需要java环境,所以需要安装jdk8。 注意如果要卸载的话,要注意环境变量有没有删除,不然重新安装不起来 TESSDATA_PREFIX和path ![](/upload/QzpcVXNlcnNcQWRtaW5pc3RyYXRvclxBcHBEYXRhXFJvYW1pbmdcRGluZ1RhbGtcODY2MjM5MDBfdjJcSW1hZ2VGaWxlc1wxNTk0MTAyMzg3NjQxXzEwNUQwQTQ0LTU4RkYtNDE4My04RUVELTJGMjNGNUI4MzE2NC5wbmc=.png) ![](/upload/QzpcVXNlcnNcQWRtaW5pc3RyYXRvclxBcHBEYXRhXFJvYW1pbmdcRGluZ1RhbGtcODY2MjM5MDBfdjJcSW1hZ2VGaWxlc1wxNTk0MTAyNDUwODEyXzM2RDcxMDYzLTNBREItNGJkNy04NDJGLTZBMTQ3QzMzQUVFQS5wbmc=.png) 安装完成测试一下 打开命令行窗口,进入安装目录,输入如下命令 `tesseract test.png output_1 –l eng` output_1是将识别的结果写入这个文件(文件会自己创建) -l end 指定使用的语言库,,eng是英语 这里我使用的是亚马逊的验证码图片去识别,发现识别效果比较差。所以我们需要训练来提高我们的识别率。 #### jTessBoxEditor训练 1、我们将要训练的图片(样本)放在一个统一的文件夹 2、打开jTessBoxEditor,Tools->Merge TIFF,将样本文件全部选上,并将合并文件保存为 was.font.exp0.tif ![](/upload/QzpcVXNlcnNcQWRtaW5pc3RyYXRvclxBcHBEYXRhXFJvYW1pbmdcRGluZ1RhbGtcODY2MjM5MDBfdjJcSW1hZ2VGaWxlc1wxNTk0MTAxOTQxNjkxX0FDRUU1N0Q2LTg5QzktNGE1Yy1CRTc1LUU2QTRFODc5NDYyOC5wbmc=.png) ![](/upload/QzpcVXNlcnNcQWRtaW5pc3RyYXRvclxBcHBEYXRhXFJvYW1pbmdcRGluZ1RhbGtcODY2MjM5MDBfdjJcSW1hZ2VGaWxlc1wxNTk0MTAyMDAxNDE5XzI5ODQxNzVBLUQ0RDUtNGI3OC1CQ0Q3LUVFQzIxNjIwRDk0MC5wbmc=.png) 3、生成BOX文件 tesseract was.font.exp0.tif num.font.exp0 batch.nochop makebox ![](/upload/QzpcVXNlcnNcQWRtaW5pc3RyYXRvclxBcHBEYXRhXFJvYW1pbmdcRGluZ1RhbGtcODY2MjM5MDBfdjJcSW1hZ2VGaWxlc1wxNTk0MTAxODg5MzIxX0E5QUJFOUE2LTRERUYtNDM0Ni1CMjQ0LUIxQzVGRDg4MTY1NS5wbmc=.png) 【语法】:tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox lang为语言名称,fontname为字体名称,num为序号;在tesseract中,一定要注意格式。 ps: 如果前3个步骤报错,可以下来下面这样处理 样本图像文件格式必须为tif\tiff格式,否则在Merge样本文件的过程中会出现 Couldn’t Seek 的错误。 如果报错,使用下来方式 1、我们先用程序将图片转成tif\tiff格式 2、手动将第一步生成的图片,后缀改成tiff 打开jTessBoxEditor,Tools->Merge TIFF,将样本文件全部选上,并将合并文件保存为 was.font.exp0.tif 4、定义字符配置文件 在目标文件夹内生成一个名为font_properties的文本文件,内容为 font 0 0 0 0 0 【语法】: fontname为字体名称,italic为斜体,bold为黑体字,fixed为默认字体,serif为衬线字体,fraktur德文黑字体,1和0代表有和无,精细区分时可使用。 5、字符矫正 打开jTessBoxEditor,BOX Editor -> Open,打开num.font.exp0.tif;矫正上的字符,记得有好多页噢!,记得点save保存 ![](/upload/QzpcVXNlcnNcQWRtaW5pc3RyYXRvclxBcHBEYXRhXFJvYW1pbmdcRGluZ1RhbGtcODY2MjM5MDBfdjJcSW1hZ2VGaWxlc1wxNTk0MTAxMDQ3ODIwXzU1OUU0RkMyLTFGNjMtNGQyNy1BQUNCLTc5RjY3MTAxM0MyOS5wbmc=.png) 6、新建was.bat,并且双击执行 ``` rem 执行改批处理前先要目录下创建font_properties文件 echo Run Tesseract for Training.. tesseract.exe was.font.exp0.tif was.font.exp0 nobatch box.train echo Compute the Character Set.. unicharset_extractor.exe was.font.exp0.box mftraining -F font_properties -U unicharset -O was.unicharset was.font.exp0.tr echo Clustering.. cntraining.exe was.font.exp0.tr echo Rename Files.. rename normproto was.normproto rename inttemp was.inttemp rename pffmtable was.pffmtable rename shapetable was.shapetable echo Create Tessdata.. combine_tessdata.exe was. echo. & pause ``` 测试 tesseract test.png output_2 -l num #### 合并训练库 我们昨天天训练了一个字体库,发现不够精确,今天又训练一个,可以将昨天和今天的合并起来 参考 https://www.jianshu.com/p/ea06f02195af 合并训练库 (合并需要tif文件和box文件) 一、先生成相对应的 .tr 文件(如果你之前训练的.tr 有的话,可以忽略这步) tesseract test.font.exp0.tif test.font.exp0 nobatch box.train tesseract was.font.exp0.tif was.font.exp0 nobatch box.train 二、从所有文件中提取字符 unicharset_extractor was.font.exp0.box test.font.exp0.box 三、生成字体特征文件(was.font.exp0.box font是第二部分) 3.1 新建的font_properties文件,内容如下 font 0 0 0 0 0 font 0 0 0 0 0 3.2 mftraining -F font_properties -U unicharset was.font.exp0.tr test.font.exp0.tr 四、聚集所有.tr 文件 cntraining was.font.exp0.tr test.font.exp0.tr 五、重命名文件,把unicharset, inttemp, normproto, pfftable,shapetable 这几个文件加了前缀aws. (目的是为了后面的聚集合并) rename normproto aws.normproto rename inttemp aws.inttemp rename pffmtable aws.pffmtable rename shapetable aws.shapetable rename unicharset aws.unicharset 六、合并所有文件 生成一个大的字库文件 combine_tessdata aws. ![](/upload/QzpcVXNlcnNcQWRtaW5pc3RyYXRvclxBcHBEYXRhXFJvYW1pbmdcRGluZ1RhbGtcODY2MjM5MDBfdjJcSW1hZ2VGaWxlc1wxNTk0MTAyMTg4MTg5XzAyQTFDNDIwLTlENEMtNDUwZi04MDE4LTJBMUFFRDM4MUJGRS5wbmc=.png) 七、最后文件夹中就可以看到生成的.traineddata训练库 然后将aws.traineddata 拷贝到安装ocr的tessdata目录下 C:\Program Files (x86)\Tesseract-OCR\tessdata 测试 tesseract test1.jpg output_2 -l aws 很赞哦! (6) 上一篇:MYSQL-连续登陆的天数 下一篇:liunx磁盘扩容 目录 点击排行 Elasticsearch6.3.2之x-pack redis哨兵 2019-07-09 22:05 Redis+Twemproxy+HAProxy+Keepalived 2019-07-12 17:20 GC优化策略和相关实践案例 2019-10-10 10:54 JVM垃圾回收器 2019-10-10 10:23 标签云 Java Spring MVC Mybatis Ansible Elasticsearch Redis Hive Docker Kubernetes RocketMQ Jenkins Nginx 友情链接 郑晓博客 佛布朗斯基 凉风有信 MarkHoo's Blog 冰洛博客 南实博客 Rui | 丁D Java研发工程师 生活可以用「没办法」三个字概括。但别人的没办法是「腿长,没办法」、「长得好看,没办法」、「有才华,没办法」。而你的没办法,是真的没办法。 请作者喝咖啡