顾乔芝士网

持续更新的前后端开发技术栈

浅析OCR技术文档识别_ocr识别技术原理

关键字:文档识别、纸质协议文档OCR识别、公文文档识别、合同文档识别、OCR技术、OCR识别、文档OCR扫描识别、协议OCR扫描识别、公文文档扫描识别、合同文档扫描OCR识别

OCR识别技术

OCR文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文档资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的识别过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题的友好性,产品的稳定性,易用性及可行性等。

编辑本段软件结构由于扫描仪的普及与广泛应用,OCR软件只需提供与扫描仪的接口,利用扫描仪驱动软件即可。因此,OCR软件主要是由下面几个部分组成:图像输入、预处理、版面分析、字符切割、字符识别、版面恢复、后处理、校对。

OCR文档识别

编辑本段工作流程一个OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间。

文档识别过程:从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正,将结果输出。

产品描述

文档识别OCR技术SDK,是文通研制开发的多语种亚洲语言文字文档识别软件开 发包 ,提供强大的识别 API开发接口 ,帮助用户将 OCR文字文档识别技术无缝内嵌到用户业务系统中 , 为数字资源的建立提供了方便 、快捷 、稳定的技 术手段。

文档识别OCR技术SDK支持简体中文 、繁体中文、日 文 、韩文 、纯英文的文字识别 ,具有识别率高 、 适应性强等突出的技术优势 。

特色功能

01、可以对图像由于扫描引起的倾斜进行自 动校正;

02、支持对指定区域的识别;

03、可以对图像进行 自动版面分析;

04、支持回调函数显示OCR 识别进度;

05、支持对内存中的图像进行识别;

06、能够获取识别字符在原文中的位置和大小信息;

07、支持USB key授权控制,序列号授权控制;

08、C语言编写的程序,并预留有VC、VB、DEPH、JAVA等开发语言的API;

09、文档识别提供OCX插件及DLL动态链接库方式的调用接口

10、文档识别能识别纯英文 、简繁体中文 、 日文、韩文 、 中英文混排的文本图像;

11、文档识别根据识别结果能够进行版面恢复 ,并导出TXT 、RTF , XLS ,双层PDF等格式文件;

12、文档识别支持GB一2312 码(大陆使用上 BIG一5 码(台湾使用) 、GBK 、Shift-JIS ( 日文使用)、KSC (韩文使用)内码的输出;

13、文档识别支持TIFF , JPEG, PCX , BMP 格式图像的读取 ,支持Pacleb its 和G4 压缩的TIFF格式;

14、文档识别可以对横排文本图像 ,纵排文本图像 ,表格文本 图像、 图形图像进行识别。

版本划分

文档识别标准版:标准版含三个开发进程,无识别页数限制,无时间期限限制

文档识别企业版:企业版不限制开发进程,无识别页数限制,无时间期限限制

配置要求

支持windows 32位、64位;linux 32位、64位;

CPU:586以上;

内存:256M以上

图像规范

1、规范的扫描图像有助于提高识别率

2、DPI,200至300dpi扫描分辨率是最佳的;

3、扫描尽量规范不倾斜

运营人员 谢常胜 微信[13829771132] 文章转载之前烦请联系本人 谢谢!

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言