400-690-0167
汉王影研OCR图文识别引擎:精准识别,打造高效办公新体验
2023-12-22

纸质数据的“进化”过程,是现代社会数字化转型的生动体现。在这个过程中,识别效果直接决定应用效果。为了实现纸质材料在PC、移动端的数据分析应用,需要经过一系列的处理步骤。首先,利用高拍仪、扫描仪等采集设备对纸质材料进行数字化加工,生成影像材料。然后,通过OCR文字识别技术将生成的图片转化为文本数据。接下来,对文本进行要素抽取,形成结构化的数据并进行存储。最后,将结构化数据提供给业务系统进行数据分析和利用。


从纸质数据的“进化”过程中可以看出,图文识别效果直接决定应用效果。然而,随着信息社会的发展,纸质文档的形态越来越复杂化、多样化,给文字识别带来了新的技术挑战。传统的OCR技术已经无法满足文档“多样性”的识别及利用需求。因此,业务应用上亟需一款集约、稳定、准确的OCR图文识别引擎。


7ba684779fe8216b05f11d2cd79ff78.png

汉王影研图文识别引擎正是基于以上需求痛点专门打造,利用AI文字识别技术及图像处理技术,从文档数据化、数据标准化、数据精细化、数据智能化出发,打造数据处理产品矩阵,围绕数据应用场景研发系列产品,为政法、医疗、民生、档案馆等各行业客户及集成商提供数据利用服务,并在价值挖掘过程中提供技术赋能。


影研图文识别引擎


产品特点


安全无忧


支持私有化部署,可完全在内网或政务专网内部署,数据不外漏,保证信息安全。


快速灵动


采用新一代云计算架构,支持高并发,成熟稳定,易于整合,面对海量数据也能快速灵动。


精准可靠


基于AI机器学习、深度学习技术,包含文字识别、卡证识别、表格识别、版式识别、图像识别、文本解析、要素抽取等功能,识别处理解析准确率高、速度快。


影研图文识别引擎


产品功能


精准识别


印刷体文字识别:识别准确率高达99%

手写体文字识别:识别准确率高达95%,高于人眼辨认

表格识别:可将表格线精准还原,一键导出EXCEL

证件识别:支持20+类常见个人企事业证件材料

图像元素检出:支持印章、手印、签字、图片、国徽、人像、条码、二维码等10+类元素检出


优化阅览


双层PDF合成/双层OFD合成:支持自由复制文本复用

版式精准还原:段落版式1:1精确还原

图像智能处理:“脏图”智能过滤、无惧干扰

材料自动命名分类:支持文件切分、标题提取、文本规则匹配


要素抽取


支持NLP结构化、半结构化要素抽取,包含文本内容要素抽取、表格要素抽取、卡证要素抽取。


影研图文识别引擎


优势亮点


识别干扰自适应


针对表格、混排等复杂版面、版面污损、自由手写、扭曲形变、文字划线涂抹、印章、带有底灰底纹的复印证照造成干扰情况,引擎利用海量脏图进行深度学习,识别效果丝毫不受干扰,不影响识别准确率。


快速优化提升


引擎基于机器学习技术,可结合不同行业的业务数据进行训练,具体的训练流程为:获取文档材料→进行样本标注→生成深度学习算法模型→大规模算法迭代→引擎服务化→上线部署→人机耦合→循环标注,最终达到持续优化的目的。可在线搭建深度学习流水线,不断自我完善,成为活化的图文识别引擎。


识别速度快


基于常规GPU服务器配置,整机识别吞吐率可达10张/秒,可根据实际业务并发需求进行弹性扩展,支撑批量化、实时同步调用需求。


支持多种部署平台


支持X86平台部署,同时支持国产化平台部署,支持飞腾+寒武纪、鲲鹏+Atlas300、海光+寒武纪多种国产化硬件计算资源,支持国家信息化应用创新战略。


支持多生态适配


截止目前,经过统信、麒麟、华为、达梦、东方通严格的兼容性功能测试、性能测试及安全测试,图文识别能力引擎满足测试要求,成功与统信服务器操作系统V20、银河麒麟高级服务器操作系统V10、华为鲲鹏&昇腾芯片、武汉达梦数据库、东方通中间件完成国产化适配认证,并取得兼容性认证证书。可根据不同项目要求进行快速适配,提供更完善的图文识别生态。


影研图文识别引擎


应用场景


法院立案回填


1023a96ba4e53d3f3cc5fa388f1b8fb.png

在法院受理立案过程中,法官将审核通过的材料进行扫描,扫描完成后进行图文识别,将身份证、护照、营业执照等证件材料进行识别并提取身份信息,起诉状、送达地址确认书等制式材料进行识别并提取诉讼实体信息;最终可实现将姓名、住址、案由、诉讼请求等结构化信息回填到立案系统,法官只需审核即可完成立案登记。


医疗病案全文检索


8a55d87a983c2431791d8ef007c3264.png

在医疗病案全文检索过程中,对历史病案在扫描后进行OCR图文识别并建立索引,接下来对病案文本进行分词等自然语言处理,将结构化信息进行存储,根据检索信息进行规则匹配后返回查询结果。


民生社保录入回填


shebao.jpg

在民生领域,为社保中心提供社保经办材料识别解析服务,通过经办材料识别、结构化信息提取,实现参保人信息自动录入、经办材料内容检索、医保报销明细内容提取,为业务办理人员减轻大量重复工作及复杂工作,大大提升办公效率。


档案馆(室)全文检索


档案.jpg

在档案领域,针对档案馆(室)接收和数字加工的档案图像进行OCR全文识别和双层PDF转换,实现档案全文检索,方便快速精确查阅档案。


结语


在数字化转型的浪潮中,汉王影研图文识别引擎凭借卓越的技术实力和多元化的应用场景,为政法、医疗、民生、档案馆等各行业客户提供高效且精确的数据处理解决方案。从文档数字化到数据智能化,影研图文识别引擎始终以技术创新为内核,为数据价值的挖掘和利用赋能。


END