特邀综述 | 文档智能分析与识别前沿：回顾与展望《中国图象图形学报》

2023-09-07

导言：

2023年是生成式AI爆发的元年，同时也开启了“以内容驱动生产力”的广阔前景。文档识别，作为快速获取非数字原生文档内容的核心技术，也将在这个已然爆发的内容时代，再次回到科技舞台的中心。

近期，汉王科技董事、中国科学院自动化研究所研究员刘成林，及相关领域的专家，共同发表综述论文《文档智能分析与识别前沿：回顾与展望》，小编特此全文转载《中国图像图形学报》相关栏目内容，与各位读者一道，纵览文档智能分析与识别技术的前世今生。

中国图象图形学报

20世纪60年代以来，文档识别方法研究与应用受到广泛关注并取得巨大进展。近年来，得益于深度学习技术的发展和应用，文档识别的性能快速提升，相关技术在文档数字化、票据处理、笔迹录入、智能交通、文档检索与信息抽取等领域得到广泛应用。

图图今日推荐《中国图象图形学报》2023年第8期“文档图像智能处理与识别”专栏中的重磅综述——

文档智能分析与识别前沿：回顾与展望

作者：刘成林，金连文，白翔，李晓辉，殷飞

图复杂文档的例子

“文档图像智能处理与识别”专栏

专栏简介全文链接：

http://www.cjig.cn/jig/article/html/2300008

关注并回复【OCR】

免费获取专栏论文电子版

论文信息

引用格式：

Liu Chenglin， Jin Lianwen， Bai Xiang， Li Xiaohui， Yin Fei. 2023. Frontiers of intelligent document analysis and recognition：review and prospects. Journal of Image and Graphics， 28(08):2223-2252

刘成林，金连文，白翔，李晓辉，殷飞. 2023. 文档智能分析与识别前沿：回顾与展望. 中国图象图形学报， 28(08):2223-2252

全文链接：

http://www.cjig.cn/jig/article/html/221112

关键词：文档分析与识别; 文档智能; 版面分析; 文本检测; 文本识别; 图形符号识别; 语义信息抽取

论文看点

1. 本文对文档智能分析与识别领域60多年的研究历史进行了简要回顾。

2. 重点对深度学习兴起以来的研究进展从几个主要技术环节（图像预处理、版面分析、场景文本检测、文本识别、图形符号识别和信息抽取）进行了回顾和分析。

3. 总结了当前技术发展的主要特点和研究与应用中存在的不足。

4. 最后从系统性能提升、应用扩展、学习能力增强3个角度提出了未来研究方向。在这些方向上努力深耕，有望持续推进文档识别技术的发展和推广应用。

关键表格

表1 文档分析与识别的主要研究内容

表2 部分场景文本识别方法在6个不同数据集上的

性能（词正确率）对比

表3 部分数学公式识别方法性能（公式级别正确率）

表4 文档分析与识别中的学习问题

未来研究方向

从提升性能、应用扩展、提升学习能力几个角度提出以下研究方向：

1. 从提升性能角度，研究问题包括文本识别可靠性、可解释性、全要素识别、长尾问题、多语言、复杂版面分割与理解、变形文档分析与识别等。

2. 应用扩展包括新应用（如机器人流程自动化RPA）、文字信息抄录、考古）和新技术问题（语义信息抽取、跨模态融合、面向应用的推理决策等）两方面。

3. 从提升学习能力角度，相关问题包括小样本学习、迁移学习、多任务学习、领域自适应、结构化预测、弱监督学习、自监督学习、开放集学习和跨模态学习等。

作者简介

刘成林，中国科学院自动化研究所多模态人工智能系统全国重点实验室，研究员，《中国图象图形学报》领域主编。主要研究方向为模式识别、机器学习、文档分析与识别。

E-mail：liucl@nlpr.ia.ac.cn

金连文，华南理工大学电子与信息学院，教授，《中国图象图形学报》领域主编。主要研究方向为模式识别、文档分析与识别、信息抽取。

E-mail：eelwjin@scut.edu.cn

白翔，华中科技大学电子信息与通信学院，教授，《中国图象图形学报》编委。主要研究方向为模式识别、计算机视觉、文档分析与识别。

E-mail：xbai@hust.edu.cn

李晓辉，中国科学院自动化研究所多模态人工智能系统全国重点实验室，助理研究员，主要研究方向为模式识别、文档分析与识别。

E-mail：xiaohui.li@nlpr.ia.ac.cn

殷飞，中国科学院自动化研究所多模态人工智能系统全国重点实验室，研究员，主要研究方向为模式识别、文档分析与识别。

E-mail：fyin@nlpr.ia.ac.cn

汉王影研云图OCR识别

北京汉王影研科技有限公司云图OCR引擎，基于AI文字识别技术及图像处理技术，从文档数据化、数据标准化、数据精细化、数据智能化出发，打造数据处理产品矩阵，围绕数据应用场景研发系列产品，为政法、医疗、档案等各行业客户及集成商提供数据利用服务，并在价值挖掘过程中提供技术赋能。

影研科技

扫描左侧小程序码

体验影研云图OCR

产品特点

识别信息多样化

除常规印刷体文字外，支持手写体、英文、证件、表格、图像等多类文本材料中常见内容识别。

识别准确率高

利用AI技术，印刷体文字识别准确率99%；手写体文字识别准确率95%以上，高于人眼辨认。

干扰因素自适应

在图片灰暗、成像不清、轻微污损、文字倾斜、文字扣章等环境下保证高准确率，无惧识别干扰。

识别结果版式还原

识别结果可按照原图中文字大小、位置、段落、排版进行1:1还原，无限接近原图阅读体验。

识别速度快

整机服务器识别速度可达20QPS，处国内领先水平，可根据业务需求及并发量对算力进行横向扩展以满足不同业务量需求。

支持个性化定制

基于深度学习技术，可根据需求对识别引擎做个性化定制，适用于特殊业务材料的识别。

应用场景

结构化信息回填

基于业务需求对文档中结构化信息自动提取，提取结果自动回填至业务系统，减轻人工著录工作。

文档辅助编写

将纸质文档识别为可编辑文本，在编写其他文档时可直接对已有文档信息进行快速复用。

文档质量审查

对文档进行结构化信息提取，对文档关键信息进行业务规则校对，提升文档合规性及严谨性。

文档全文检索

将纸质/图像文档进行内容识别，可基于内容进行更精准检索，替代传统标题检索形式。

关于影研

北京汉王影研科技有限公司，成立于2005年，是汉王科技（股票代码002362）旗下高新技术企业。自成立起，始终专注行业数据内容管理，是业内优秀的业务数据内容管理信息化与流程服务提供商，帮助用户提供贯穿全业务生命周期的综合数据服务，包括IT系统规划、信息系统建设、业务流程外包、数据生产、数据挖掘与治理、AI智能硬件、AI智能应用服务等。

END

上一篇：9月，共赴“服贸之约”

下一篇：汉王科技闪耀服贸会，绽放AIGC光芒，开启智慧服务新时代

影研资讯

特邀综述 | 文档智能分析与识别前沿：回顾与展望《中国图象图形学报》