基于DIKW“数据-〉信息-〉知识-〉智慧”理论模型,结合汉王OCR、NLP、大模型技术与多年档案行业数据积累,整合处理档案结构化与非结构化数据(文档、图片、音视频、数据库、XML等),公司自研档案数据化加工处理平台,利用人机耦合方式,以“AI技术+工具平台+人员服务”的模型将档案数据化服务交付给用户,帮助用户实现档案知识库构建,可视化图谱展示,实现智能编研、审核、检索以及对外服务等应用。
专门为档案定制全文识别方案,基于汉王OCR核心技术,结合档案材料数据进行深度学习,支持各类版式(印刷、手写、表格、证件等),印刷体识别准确率可达99%以上,手写识别准确率可达95%以上,在中文识别领域处于国内外领先地位。
基于OCR文字识别和NLP自然语言处理和深度学习等人工智能技术,对档案材料先进行OCR全文识别,并对版面进行分析后对要提取的关键要素进行提取,支持票据、证件、名片、凭证、财务报表、简历、古籍、合同、论文、表格等各类版式。
基于知识图谱、大模型技术,结合档案数据深度加工服务,将结构化数据、半结构化数据、非结构化数据进行识别标引处理,将其中的各类数据串连、组织、融合汇总成为人、地、事、物、组织等实体为节点,属性、时空、语义、特征等联系为边的一张关系网中,形成知识图谱库,再现真实世界对象之间的错综复杂的关系。
对档案材料进行高精度的全文识别后形成文本数据库,可根据关键字词进行全面匹配检索。
可将抽取后的关键要素信息回填至OA、业务系统或下游系统,节省人工录入,提升办公效率。
形成档案知识库后,基于关联可视的知识数据可对本机关单位主要业务进行过往数据分析,在处理相似新生业务时做到研判参考、辅助决策。
从全文识别到要素抽取到知识挖掘的完整技术链覆盖,并支持多种格式文件,图像、pdf、word、xml、excel、txt等。
基于汉王多年OCR、自然语言处理技术积累和人工智能模型(LSTM、 CRF、 BERT、 CNN、 GNN等),技术成熟先进,自主可控。
支持部署在局域网进行部署,可根据用户档案数据情况不断优化学习,优化提升准确性。