金融科技——关于自然语言处理在不良资产行业中应用的思考

Posted 浙商资产金融评论

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了金融科技——关于自然语言处理在不良资产行业中应用的思考相关的知识,希望对你有一定的参考价值。

近年来,随着计算机和互联网技术的不断发展,各种智能化应用层出不穷,大数据、人工智能等工具都已经逐步的应用于实践,对于不良资产行业,有什么样的信息化工具可以与之结合呢?当然,这个答案可能有很多,本文着重探讨自然语言处理技术(NLP)可能给不良资产行业带来的一些应用场景。

一、关于自然语言处理

(一)基本概念

自然语言处理是人工智能领域的一个重要方向,也是人工智能应用的重要基础,他研究的是人与计算机能用自然语言进行交流和通信的各种理论和方法。简单来说,就是让计算机能够读懂人的语言,理解语言中所表达的内容、思想和情感。语言是人类交流的主要方式,是人类区别于其他动物的本质特性,人类的多种智能都和语言有着密切的关系,人类的绝大部分知识和社会生活也是以语言文字的形式记载和流传下来的。用人类自己的语言和计算机进行交流,这是人们长期以来所追求的,有着非常明显的实际意义。

目前,从现有的理论和技术来看,通用的、高质量的自然语言处理系统,仍然是长期的努力目标,但是随着技术的不断发展,已经有相当数量具有一定自然语言处理能力的应用和产品出现,比如机器翻译、全文信息检索、智能写作机器人等。虽然距离完美的理解还有一段距离,但是通过自然语言处理的技术辅助进行大数据的整理和分析已经可以实现。

(二)应用方法

自然语言处理是一门融合语言学、计算机科学、数学于一体的科学。最早的自然语言处理方面的研究是机器翻译。1949年,美国人威弗首先提出了机器翻译设计方案。20世纪60年代,国外对机器翻译曾有大规模的研究工作,耗费了巨额费用。但人们当时显然是低估了自然语言的复杂性,语言处理的理论和技术均不成热,所以进展不大。当时主要的做法是存储两种语言的单词、短语对应译法的大辞典,翻译时一一对应,技术上只是调整语言的同条顺序。大约90年代开始,自然语言处理领域发生了巨大的变化。这种变化的两个明显的特征是:在内容输入方面,要求研制的自然语言处理系统能处理大规模的真实文本,而不是如以前的研究性系统那样,只能处理很少的词条和典型句子;在结果输出方面,鉴于真实地理解自然语言是十分困难的,对系统并不要求能对自然语言文本进行深层的理解,但要能从中抽取有用的信息。例如,对自然语言文本进行自动提取索引词,过滤,检索,自动提取重要信息,进行自动摘要等等。基于此,很多基础性的工作也得到了重视和加强,比如大规模真实语料的研制,信息丰富的词典编制等工作。

现在,自然语言处理的工具有很多,也有社会计算等领域的机构和专家在研究更加精确的技术。就目前来看,分词系统、语义分析、文本分类、信息检索和机器翻译等是比较成熟的常见应用方法。

(三)产品案例介绍

目前,已经有许多成熟的基于自然语言处理的产品,比如百度云自然语言基础平台、腾讯云文智自然语言处理平台以及阿里云自然语言处理(公测中)等等。除此之外还有很多高校研究机构等提供的开源代码。这些产品主要可以实现的功能有文本搜索、命名实体、智能分词、句法分析、情感分析、舆情监测、自动摘要和观点提取等等。以百度AI开放平台为例,其产品简要介绍如下。

1、词法分析:百度词法分析向用户提供分词、词性标注、命名实体识别三大功能。该服务能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体,百度词法分析的算法效果大幅领先已公开的主流中文词法分析模型。

2、依存句法分析:利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系),并用树状结构来表示整句的结构(如主谓宾、定状补等)。

3、词向量表示:词向量计算是通过训练的方法,将语言词表中的词映射成一个长度固定的向量。词表中所有的词向量构成一个向量空间,每一个词都是这个词向量空间中的一个点,利用这种方法,实现文本的可计算。

4、DNN语言模型:语言模型是通过计算给定词组成的句子的概率,从而判断所组成的句子是否符合客观语言表达习惯,通常用于机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等。

5、词义相似度:本技术用于计算两个给定词语的语义相似度,基于自然语言中的分布假设,即越是经常共同出现的词之间的相似度越高。词义相似度是自然语言处理中的重要基础技术,是专名挖掘、query改写、词性标注等常用技术的基础之一。

6、短文本相似度:短文本相似度计算服务能够提供不同短文本之间相似度的计算,输出的相似度是一个介于-1到1之间的实数值,越大则相似度越高。这个相似度值可以直接用于结果排序,也可以作为一维基础特征作用于更复杂的系统。

7、评论观点抽取:自动分析评论关注点和评论观点,并输出评论观点标签及评论观点极性。目前支持13类产品用户评论的观点抽取,包括美食、酒店、汽车和景点等,可帮助商家进行产品分析,辅助用户进行消费决策。

8、情感倾向分析:针对带有主观描述的中文文本,可自动判断该文本的情感极性类别并给出相应的置信度。情感极性分为积极、消极、中性。情感倾向分析能帮助企业理解用户消费习惯、分析热点话题和危机舆情监控,为企业提供有力的决策支持。

二、关于不良资产行业

(一)行业概况

不良资产是一个泛概念,它是针对会计科目里的坏账科目来讲的,包括但不限于包括银行的不良资产,政府的不良资产,证券、保险、资金的不良资产,企业的不良资产等等,金融企业是不良资产的源头。我国于 1999 年相继成立了中国华融、中国长城、中国东方和中国信达四大不良资产管理公司,设立目的是处理和消化来自四大国有商业银行的不良贷款。截至目前,已有近60家地方AMC注册成立,包括省级AMC和地市级AMC。我国不良资产行业处于全面商业化发展的重要阶段。

对于不良资产管理公司来说,业务逻辑相对简单,主要是通过AMC牌照从银行批量收购不良资产包,然后进行处置或转卖回收资金。虽然逻辑简单,但是过程却极其严谨和复杂。因为资产包都价值不菲,而且一般都有着复杂的债务关系,如果估值不准确或者法律上有疏漏,造成的损失是巨大的。所以在不良资产行业,信息的充分性与准确性是非常重要的。

(二)风险分析

1、法律和操作风险

对于国内的不良资产行业来说,其本身就较为复杂,包含了许多不同的法律关系,比如借贷、担保、票据和房地产等,任何不正确的判断或者疏忽都会产生风险。而且合同的有效和无效,只能由法院和仲裁机关依法认定,其他任何机构和个人做出的判断都只是参考性意见。在不良资产行业中,涉及到了大量的合同关系判定,这些大都是通过协商来处理的,本身就有一定的法律风险。同时,不良资产行业涉及的资产种类繁多,法律关系复杂,在尽调、估值和处置的过程中都会涉及到法律风险。由于信息获取不完整,工作疏忽渎职,法律关系梳理不充分,应有的权利未主张,乃至处置方案或过程中违反国家有关法律法规等,导致出现障碍或者法律漏洞,都会造成新的不良和损失的发生。

2、定价和决策风险

不良资产行业中,最重要也最困难的就是资产定价问题。虽然一般以评估价格作为交易的参考,但是不同的评估方法很难科学准确的计算资产的真实价值,所以各家资产管理公司在资产定价方面也都煞费苦心。如何科学准确的给资产定价,如何在确保盈利的同时有效的避免风险成为各家机构间角逐的核心竞争力。定价不仅需要根据各种信息来综合准确的估算价格,还需要能够运用各种手段进行处置变现,比如究竟应该运用那种方法,通过何种渠道,在什么时间,以什么价格处置能够获得最大化的收益等等,都对业务和决策人员的素质有着极大的考验。

3、处置风险

资产管理公司都是采取投资委员会的决策机制,一般一个债权包户数较大,且大都债务情况复杂,决策处置仅仅依靠业务人员提供的调查报告或者方案来了解详情是远远不够的。伴随着业务量的加大,在处置过程中的资产包管理和信息更新也非常重要,仅仅依靠人力来维护很难做到万无一失。在资产处置过程中,如何来防范风险,避免临门一脚时的失误发生,也时刻考验着各家资产管理机构的管控能力。

三、可能的应用场景

通过上述风险分析,我们可以看出,不良资产行业最最重要的是信息搜集的准确性和全面性。在信息大爆炸的今天,信息已经可以非常容易的获得,但是如何从海量的数据中筛选出我们所需要的内容,则考验着各家资产管理机构的技术分析能力。

一般情况下,在债务人网站、新闻媒体、政府信息公开平台、关联机构、裁判文书网和司法拍卖平台等互联网站点中,我们可以获取到许多可以参考的信息。通过人工来逐一整理异常复杂,也容易错漏。可喜的是,我们所获取到的大部分内容都是以文本形式存在,这就让基于自然语言处理技术的自动化分类整理成为可能,让人力的解放和不良资产行业智能化成为可以实现的目标。

当前,市场上已经有了许多类似的网站平台出现,比如风报和企查查等。这些网站已经能围绕互联网信息自动抓取分析,围绕企业和关键词形成关联关系图谱和债务关系图谱等智能化展示内容。以风报网站为例,相关分析图谱展示如下:

金融科技——关于自然语言处理在不良资产行业中应用的思考

图2中所示为企业全网事件关系图谱,左侧区域为事件关系统计饼图和事件相关公司归类情况,右侧区域为抓取到的事件关键词及内容详情展示,可以按照重要性或关联度等分类标准进行排序查看。

金融科技——关于自然语言处理在不良资产行业中应用的思考

图3中所示为企业涉诉信息分析图谱,左侧区域为涉诉开庭公告情况,中区为已公开的判决信息,右侧区域为涉诉判决的执行情况,按照年度进行了汇总,同时根据案由、身份和金额进行了分类统计展示等。

目前,从技术层面上来说,词法分析、语义分析和观点提取等方法已经日趋成熟,很多专业化的应用也越来越丰富,在不良资产处置各个业务环节中的应用也有了更多的可能。

(一)尽调估值

在尽调估值环节,信息获取的充分性直接决定了最终估值定价的准确程度和风险承受能力,是不良资产处置行业中的关键。目前,除了要大量的查询、搜集、分析和调研之外,还要阅读、整理、比较和统计,对人员的业务素质和精力要求都非常高。通过引入自然语言处理技术配合网络爬虫的抓取,可以非常快速高效的把我们需要的关键信息从海量数据中提取出来,可以作为我们尽调和估值的辅助参考。如果技术成熟,则完全可以取代人工尽调,自动从企业信息、拍卖网站和判决文书等文本里抓取出我们所需要的企业债务情况、担保人情况、资产抵押及价格信息等关键元素,为自动化估值打好基础。

就如同图3所示,通过对法律文书的文本分析和提取,可以快速得到企业的债务关系图谱和统计金额,对于在尽调中快速判断债权包价值有着非常直观的参考作用。除了广度的统计分析之外,通过对特定法律文书的深入分析统计也可以获得单一债权主体下的详细司法判决数据,对于业务决策可以起到非常重要的帮助。

(二)跟踪监控

对于存量资产包,及时的维护、管理和价值发现至关重要,可以有效的回收资金,减少风险,提高收益。通过自然语言处理和网络爬虫的相互配合,对抓取到的文本信息进行有效分析,可以和存量资产包进行准确匹配,对于存量资产的价值发现有着不可估量的实际意义。

目前,对于存量资产管理虽然也有相关的系统工具,但是大多是时间提醒类型,还是需要人工现场查验后录入,费时费力且不够及时性。如果可以通过自动化工具进行初步提取分析,包括自然语言处理和图像识别等,就可以将人力进一步解放,更好的创造价值。

(三)清收处置

在清收处置环节中,信息的获取同样十分重要,但更多的可能是法律文书的归类整理和债务的梳理分析。就像上述图表中一样,如果能够通过技术手段将企业完整的债务关系绘制成可视化的图表,那么对于清收处置方案的设计和更好的发掘资产价值十分有利。

不良资产处置目前大多还是简单的批发零售类的操作,如果能够通过自然语言处理更好的梳理分析出企业价值,展现出企业深层的债务痛点和关键信息,相信不久的将来,不良资产处置将会迈入更加专业化投行化的时代,更加能够盘活资产,救活企业,而不再是简单的买和卖。

四、问题和思考

虽然说自然语言处理技术对于不良资产行业有着十分有利的辅助作用,但是将其完全的智能化还有很长的一段路要走。自然语言处理是人工智能的基础,同样也是不良资产行业智能化的基础,谁能够最快的完成技术和数据的积累,谁就能够占得未来发展的先机。与此同时,对于智能化工具的应用,还有很多不可控的问题和障碍,需要大家共同来思考和完善,共同推动技术和行业的高速发展。

(一)信息公开

智能化的前提是信息的有效获取。除了新闻和网站公开信息之外,大量的文本参考信息来自于工商和法律文书等政府公开内容,这就导致信息的及时性完全依赖于政府网站的公开发布,可是目前还很难做到完整和及时,这就会对技术的使用和功能发挥造成很大的影响。

如果公开渠道获取不能保证,通过人工获取进行补充也是可行的解决办法之一。这样就需要关系人的配合和帮助,根据不良资产行业性质判断,通过半自动化的方法进行补足。

(二)隐私和法律风险

在当前的互联网中,各类网络爬虫在不停的抓取数据,这其中就涉及到了隐私问题。虽说网站中的数据都是其自主公开的,但对于爬虫的获取还要遵循Robots协议。虽然没有明确的法律规定,但这是互联网界通行的道德规范。所以,在信息的获取和使用中,要特别注重隐私和法律风险的防范,在保护别人的同时也是在保护自己。

自然语言处理只是一种文本的分析方法,但是对于文本内容的获取,需要考虑道德和法律的风险,特别是债务等敏感信息,需要多加注意。

(三)数据准确性

不良资产行业中一般资产包的价格都很高数据的真实和准确性显得至关重要,细微的错漏都可能会导致巨额的亏损。技术的分析是否真的能够做到万无一失,这在每个人心里可能都是一个问号。但是技术的趋势又是不可阻挡,企业长久发展的关键。

虽然说很难保证万无一失,但可以通过很多风险防控手段及时发现来避免同时很多技术类的风控手段也日趋成熟,通过技术间的相互监督和交叉验证来避免风险也是风险管理行业的重点研究方向。

五、总结

随着中国进入经济换挡期以及互联网和信息化的发展,面对这数万亿的不良市场,很多互联网企业也纷纷杀入,希望能够把握住“风口”。他们进入市场的同时,也带来了新的互联网思维和技术,对于传统资产管理机构来说,如何快速的与新技术结合,是关乎生死存亡的大事。

截至2017年中,已有近百家的“互联网+不良资产”平台创立,依托互联网技术所开展的不良资产业务也遍地开花。除了淘宝司法拍卖等传统互联网服务,有的甚至已经打出了人工智能的概念。科技正在以不可估量的速度进行迭代,不良资产行业也在被快速的推动着向前发展。

如上文中所述,自然语言处理作为人工智能的基础性技术,已经在越来越多的领域中得到应用,并且表现不俗,在不良资产行业中同样也有非常广泛的适用空间。面对着未来更加多元化的需求和新技术的不断发展,无论是尽调估值、跟踪监控和资产处置,归根到底都是信息和法律文书的来往。采用自然语言处理技术将各类文本进行有效提取,将互相关联的信息进行准确的连接,对于不良资产的价值发现意义深远。新技术+不良资产正在高速的发展,从产品设计、业务模式到用户体验等都在进行着融合探索与合作创新。相信未来会在更加明确的轨道上高速发展,希望能够为不良资产处置带来更高的效率和收益,为我国宏观经济“去杠杆”与金融业的健康发展贡献力量。


该文章刊登于《浙商资产视界》2018年第1期,如有需要期刊者请联系研究员孙铮021-68583630-816,sunzheng@kinghing.com。


责任于心 专业至上

浙商资产研究院

长按,识别二维码,加关注




以上是关于金融科技——关于自然语言处理在不良资产行业中应用的思考的主要内容,如果未能解决你的问题,请参考以下文章

华夏基金与澜舟科技成立金融NLP联合实验室,共促金融科技创新

关于如何编写好金融科技客户端SDK的思考

中国互联网金融发展报告:金融科技的核心不是金融

华泰资讯自然语言处理在金融投资领域的应用

2017金融科技盘点:七大应用构筑未来金融生活

数库科技受邀出席ITL自然语言处理智能技术应用研讨会