监管科技创新：金融文档语义理解从方法到应用

中国科学院计算技术研究所罗平

在过去二十年里，互联网技术革命性发展让各行各业的纸质文档变换为电子化存储文档。其中，金融领域的文档电子化发展尤为突出，如企业年报、重大并购重组等文档需要在互联网上公开披露。基金、券商、会计师事务所等机构也需要进行大量电子化金融文档的撰写、审查和复盘。

与此同时，金融行业的高风险性，要求从业人员对文档信息处理必须准确、严谨且完整。为了将文件的错误率降到最低，相关机构需要投入大量精力对金融人才进行培训。即便如此，相比于计算机，人类主观思维决策“长周期、非即时与易出错”等特点，制约了处理信息的效率。

以此前在国内引起轩然大波的“长生生物事件”为例。其公开披露的2015年年报第10、11、12页，在售产品包含“百白破”联合疫苗，该产品批签发量为5,624,972人份。2016年年报第9、10、11页，在售产品包含“百白破”联合疫苗，但未披露“百白破”和“脑膜炎”疫苗的批签发数量。2017年年报第10、11、12页，“百白破”和“甲肝”疫苗未被列入主要销售产品，也未披露“百白破”和“脑膜炎”疫苗的批签发数量。由此可见，2016年和2017年，长生生物的主要产品发生了很大变化，两个问题产品没有在年报中出现，也没有披露重大产品变化的原因。未对“违规披露”进行预警，有可能因为文档数量巨大，审查人员无法一一阅读，导致出错。目前，行业内多以传统人工方式或半自动方式来收集和提取数据，对数据的处理和分析普遍缺乏时效性，全面性和准确性。

那么，行业是否可以借助AI手段，让计算机帮助人们阅读庞大复杂的电子化存储文档？为此，研究组希望通过对“语义理解认知模型”的研究，赋予计算机可阅读文档的能力，使电子化存储的非结构化文档可以通过语义甚至模型，转变为计算机可阅读的结构化信息，完成从“电子化存储”到“机器可阅读”的跨越，进而支撑呈指数剧增的非结构化文档的分析需求，更好地服务于金融场景。

文本语义理解的层次

文本语义理解是指将金融文本语义理解分成粗粒度、中粒度和细粒度三个层次。

粗粒度文档分析。在金融场景应用中，运用粗粒度文档分析的典型代表是舆情分析。例如，某一新闻文档与某公司相关，该新闻会被打上“正”或“负”的标签，背后的逻辑是文档分类，采用的技术是从该文档中选出一些关键字，这些关键字本身带有一些负面情绪，如果负面词较多，把这些词的负面语义汇集起来打一个标签，即是负面的情感。这是粗粒度的语义理解，只是对整个文档打上情感标签。

中粒度文档分析。大量金融从业者都有阅读年报的需求，且需要进行文字段落搜索及表格搜索。例如，我们要了解年报中公司的“应收账款”细节表格，基于关键字的搜索往往返回数十个包含“应收账款”的片段，且需要人工筛选。若能够对文档中每个段落、表格都打上标签，搜索结果将更加精准，较舆情分析的粗粒度语义理解更加细致。

细粒度文档分析。通常该场景下的使用者对语义分析的需求更加精细，如审计人员及监管人员。使用者需要了解这家公司的每一个财务指标，这些财务指标除了蕴含在三大财务报表中，通常还会“藏匿”于附注的两三百个表格中，而由于各个行业附注表的科目差异较大，在信息理解过程中，就要对表格结构、标题进行深度理解。

图文本语义理解的层次（细粒度）

以细粒度文档分析为例（如图），当前已提取了“2017年度支付的其他经营活动有关的现金”信息，为2，478，629，986，经过人工核算得出“较上年减少了80.73%”的数据结论。而通过将语义理解粒度细化到每句话和表格中的每个数据单元，运用自然语言对计算公式进行表述，即可自动复核减少的比例是否正确，这里运用的就是细粒度语义分析。即原本审计师需要花费一至两周进行的财务数据复核工作，计算机可以在极短时间内实现智能复核，大大降低了时间和人力成本。

纯文本和富文本

我们所面临的文档有哪些特点呢？文档分为纯文本和富文本，简单来讲，纯文本就是TXT文档，TXT文档的信息非常少，只有换行符或制表符等简单符号。而金融文档大多以PDF文件、WORD文档以及网页形式进行存储，计算机领域将这类文档统称为富格式文档，即富文本。富文本中有文本段落、表格、图表等不同模态的数据信息，经过复杂的排版，形成带有篇章结构信息的文档，最终呈现给读者。

理解富文本是金融文档语义理解的关键。这就需要做文档结构的识别，包括对正常表格、跨页表格、文本段落、图片的识别与理解。完成文档结构识别之后，再针对表格中的文本段落，用自然语言的理解方式，将其转化为结构化的知识。

金融文档语义理解的应用

金融文档语义理解的核心技术包括文档结构识别、文本内容理解、图表内容理解、表格内容理解和跨内容块理解。其应用主要包括智能披露合规风控和智能投研领域。

智能披露合规和风控。以券商内部投行电子化审核为例，在年报及各种金融文档发布之前，金融机构需要审核风险点。以IPO审核及募集说明书的审核为例，通过运用细粒度的金融文档语义分析，可以智能地对文档内部财务指标勾稽关系进行复核。同时，通过将金融文档底稿和撰写成果文档进行智能关联，成果文档中的每一句话都能“溯源”到原始底稿中相应内容，满足穿透式监管的要求。

智能投研和数据定制化服务。以万得为例，其提供的标准化金融数据包含常见的三大财务报表数据，但因受到人工能力限制，附注的表格数据不能得到及时获取。而有了全自动化手段，获取、分析、理解信息的效率也将大大提升。例如，某企业在18:05发布的财报数据，通过自动化应用的快速捕捉、分析、理解，金融市场在18:10就可以将数据进行广泛使用。

目前，市场上已出现能够满足金融机构智能化审核需求的相关应用产品。以“债有主”为例，投行从业者可以上传工作文档，用AI的智能方式帮助其复核财务数据勾稽关系。而在表格识别应用方面，”PDFlux”可以实时提取企业PDF公告，利用表格识别技术，将数据自动放到数据库，仅耗费一两分钟时间，即可对数据进行结构化处理，并根据数据研报输出图表。与此同时，”PDFlux”提供可溯源的数据抽取服务，支持无线框表格的识别，攻克了Adobe本身都无法解决的难题。目前这些工具在监管机构、香港交易所、券商、会计师事务所已经落地应用，提高了广大金融从业者的工作效率，体验度非常好。

总而言之

监管科技的人工智能应用大致分为两个领域，一是计算机视觉，二是自然语言或者文档的理解。以“语义理解认知模型”为代表的研究项目，将成为行业智能化的科学基础，实现对海量存储于金融文档中信息和数据的理解、打通、关联和分析。而全自动的文档结构化能力，也就是金融语义理解技术，将成为提升监管科技的关键。

声明：本文来自金融电子化，版权归作者所有。文章内容仅代表作者独立观点，不代表士冗科技立场，转载目的在于传递更多信息。如有侵权，请联系 service@expshell.com。