(相关资料图)
在日前由中国信息通信研究院(以下简称“中国信通院”)开展的“可信AI—智能文档处理系统”评估活动中,上海静安人工智能及大数据科技企业合合信息公司自主研发的智能文字识别产品,获得该模块最高评定等级:“5级”。
国际数据公司(IDC)最新发布的预测数据显示,数字经济的快速发展,中国数据量规模将从2022年的23.88ZB增长至2027年的76.6ZB,年均增长速度(CAGR)达到26.3%。
而在人工智能技术的应用场景不断拓展过程中,也面临着产品能力参差不齐、缺乏行业基准和标杆、安全可信要求落实不明确等问题。为此,中国信通院于2018年起逐步构建和完善“可信AI”评测体系,助力人工智能技术的发展和产业的健康成长,“智能文档处理”是评测项目之一。
中国信通院主要依据《自然语言处理技术和产品评估方法第8部分:智能文档处理系统》,全方位评估企业智能文档处理的技术先进度。
评估结果显示,合合信息智能文档处理产品在通用能力及AI核心能力方面均表现优异。
通用能力方面
合合信息产品在信息抽取、表格文字识别、版面分析等方面均获得5分评分。表格文字识别、版面分析是文档处理的难点,合合信息表格文字识别技术支持识别图片/PDF格式文档中的多类型表格内容。在财报相关表格识别测试中,合合信息有线表识别单元格结构准确率高于98%;无线表识别在保证表格区域内容的完整性的同时,检测准确率较传统方法显著提升。
合合信息版面分析技术通过解决版面分割、区域间的逻辑关系处理等方面的难题,可将文档图像切分成不同类型内容(文本、图形、公式、表格等)的区域,并分析区域之间的关系,让机器更精准地确定文档中的文字位置、字体、大小和排版方式,从各类版式复杂的图片文档中精准获取信息。
AI核心能力方面
合合信息产品在NLP领域的文本分类、知识图谱领域的实体识别、关系抽取及OCR领域的字符识别、文本行识别均获得5分评分,并支持文本生成、事件抽取等高阶处理能力,其中准确率、召回率、F1值等指标评分总体较高。
关键词: