光学特征识别的实验应用(OCR)
光学特征识别的实验应用(OCR)
该应用程序是我几年前开发的实验应用程序,它证明了使用Tesseract OCR引擎来识别设备摄像头捕获的图像中的文本。
该应用程序在您的设备上运行OCR - 无需将图像上传到服务器 - 适合识别单个单词或短语文本,但此应用程序旨在为对OCR感兴趣的业余爱好者和软件开发人员而不是对一般观众感兴趣。
与Google的移动视觉API相反,该应用程序可以在离线时识别以非基于非拉丁字体打印的文本。为了实现这一目标,该应用程序包含了多种语言的异常大量培训数据。此培训数据存储在您的手机上,并且该应用程序比普通应用程序占用更多的空间。
在将捕获的图像帧移交给Tesseract之前,该应用程序没有执行图像预处理,因此该应用不会针对任何特定的用例调整,因此,其识别准确性和速度在很大程度上取决于诸如Perspective,例如诸如Perspective的情况,照明和字体类型。
该应用程序的源代码可在GITHUB上获得(可容纳GitHub文件尺寸限制的较小更改)。该应用程序的代码是来自Zxing条形码扫描仪项目的开源摄像头相关代码和Tesseract OCR项目中的开源光学字符识别代码的组合。
文字捕获
默认的单发捕获量在单击快门按钮(如常规照片)时捕获的快照图像上运行OCR。
当检查“连续预览”复选框时,该应用显示了设备在相机取景器旁边识别的东西的动态实时显示。连续预览模式在快速设备上最有效。
使用此应用
•将设备指向文本的小区域,然后触摸屏幕快门按钮以启动OCR。
•要识别中文/日语/韩国字符,请将页面细分模式设置为“单个字符”。
识别准确性
•各种因素可能导致OCR失败:不均匀的照明,风格化的文本或文本,而背景没有足够的对比度。尝试具有良好的照明。
•保持设备稳定,并确保图片焦点。
•如果您需要扫描大量文本或整个文档,请尝试使用文档扫描应用程序,例如文本童话。
语言
•该应用支持Google Translate未识别的几种语言/脚本。
•OCR支持的语言:
南非荷兰语
阿尔巴尼亚人
阿姆哈拉语
阿拉伯
阿萨姆人
阿塞拜疆
阿塞拜疆(西里尔)
巴斯克
白俄罗斯人
孟加拉
波斯尼亚
保加利亚语
缅甸
加泰罗尼亚
宿务
切诺基
中文(简化)
中国(传统)
克罗地亚人
捷克
丹麦语
荷兰
Dzongkha
英语
英语,中间(1100-1500)
世界语
爱沙尼亚人
芬兰
法兰克人
法语
法语,中间(约1400-1600)
加利西亚人
格鲁吉亚人
格鲁吉亚 - 老
德语
希腊语,古代(-1453)
希腊人,现代(1453-)
古吉拉特语
海地
希伯来语
印地语
匈牙利
冰岛
印度尼西亚
Inuktitut
爱尔兰人
意大利人
意大利人 - 老
日本人
爪哇人
卡纳达语
哈萨克
高棉
韩国人
库尔德
吉尔吉斯
老挝
拉丁
拉脱维亚
立陶宛语
马其顿
马来语
马拉雅拉姆语
马耳他
马拉地语
尼泊尔
挪威
Oriya
Pashto
波斯语
抛光
葡萄牙语
旁遮普
罗马尼亚人
俄语
梵文
塞尔维亚
塞尔维亚(拉丁)
僧伽罗
斯洛伐克
斯洛文尼亚人
西班牙语
西班牙语 - 老
斯瓦希里语
瑞典
叙利亚
他加禄语
塔吉克
泰米尔人
泰卢固语
泰国
藏
tigrinya
土耳其
乌克兰
乌尔都语
Uyghur
乌兹别克
乌兹别克(西里尔)
越南人
威尔士语
意第绪
三星设备注意
•在三星Galaxy设备上,您可能需要长时间按下菜单按钮以设置首选项。
•如果您取消检查“标准焦点模式”,则可能会获得更好的结果。
阅读更多信息