实战：机器学习在信息科技风险识别方面的应用

文 / 广东省农村信用社联合社姚俊先

近年来人工智能得到快速发展。2017年7月国务院印发《新一代人工智能发展规划》，人工智能成为国家发展战略。习近平总书记高度重视和关注人工智能，10月31日主持召开政治局会议专题学习人工智能，并强调要促进人工智能同经济社会发展深度融合。

目前，人工智能在金融业已有了智能营销、智能客服和投资决策等应用。但在信息科技风险领域应用比较少见。而监管部门特别重视信息科技风险管理，专门制订了《商业银行信息科技风险管理指引》，将信息科技风险独立于其他风险进行单独管理。

银行面临的主要信息科技风险和难点

随着银行业务快速发展，承载业务的信息系统架构愈加复杂，银行所面临的信息科技风险也越来越频繁。对于银行来说，主要面临的信息科技风险有以下三类：一是系统运行风险，如系统性能风险、系统容量风险、系统中断风险等，这些风险会影响银行的业务连续性；二是系统交易风险，如刷单、套现、洗钱等风险，这些会影响银行客户的资金安全；三是系统安全风险，如拖库、撞库、暴力破解、外部黑客攻击等，这些风险可能会导致客户信息泄露。因此我们需要对以上风险进行相关管控，保证我们银行业务的稳定、客户信息和资金安全。

但是在实际的信息科技风险管理工作中我们面临着以下三个难题：一是识别难，信息科技风险本身所具有很强的专业性和隐蔽性，用传统的依靠经验和人工的风险管理方法难以及时有效识别风险，同时我们缺乏专业的科技风险管理人员；二是计量难，信息科技风险具有不确定性，风险的影响难以有效计量，如系统中断造成损失难以用资本进行计量；三是展现难，信息科技风险具有复杂性和变化性，风险的行为和特征往往难以可视化展示。各家银行对提升自身科技风险防控能力的需求日益迫切，进一步创新信息科技风险管理的手段，研究机器学习在银行信息科技风险领域的应用显得极为迫切。

机器学习适用于科技风险领域的研究

针对上述问题，我们需要进一步创新信息科技风险管理的手段，机器学习技术为提升信息科技风险管理水平提供了新的方法。首先风险的本质是一种不确定性。风险的发生存在一定概率。这个概率可以通过机器学习算法进行预测。其次银行有大量高质量高价值的数据，这些数据为开展机器学习提供了基础。因此，机器学习技术用于提升信息科技风险管理具有可行性。

具体来说，机器学习可以应用在信息科技风险识别、风险评估、风险监测和风险控制等整个科技风险管理过程。利用机器学习方法可感知风险，分析风险规律和风险行为，评估风险影响，进行风险量化等。而风险识别是我们风险管理的第一步，只有识别出风险才能有效地进行风险管理，因此我们要先研究机器学习技术在风险识别方面的应用（如图1所示）。

图1 机器学习进行科技风险识别建模过程

1.建模过程。机器学习根据数据是否有标签分为有监督和无监督两大类，其中有监督可分为分类算法和回归算法，分类算法用于离散型数据分布预测，回归算法用于连续型数据分布预测。无监督算法也可分为聚类算法和异常检测算法，聚类算法是把数据根据相似性划分成不同群体，异常检测算法是计算每个数据的离群程度。有监督算法与无监督算法各有优劣，有监督算法因为数据带标签信息，所以精度较高，但适用性相对来说窄。无监督算法不需要数据标签，所以适用性更为广泛，在一定程度上可以解决冷启动的问题，但比有监督算法精度较低。在具体建模时可根据数据特征选择合适的算法。

除了算法外，数据是机器学习解决实际问题的基础。而银行有大规模、多维度的数据，具体有系统、主机、终端等机器运行数据，还有内部员工、外部用户的操作行为数据和关系数据等。机器学习的过程就是用算法从这些数据中学习并建立模型，然后对风险进行预测。

机器学习的建模设计包括以下六个过程：首先是数据导入和数据预处理，如数据清洗、规范化等；第二是数据分析，主要计算数据间相关性，深入了解数据；第三步是特征工程，包括特征选择抽取，过滤、变换等；第四步是模型训练,选择合适的算法并对数据进行模型训练，进行参数调优；第五步是模型评估；最后是模型导出、部署和上线。

通过建模我们建立了系统运行风险识别模型、系统用户风险识别模型、系统交易风险识别模型和系统安全风险识别模型等。

2.风险分析平台建设。我联社在设计好模型基础上基于机器学习技术建设了科技风险分析平台。平台框架如图2所示，由数据采集模块、数据处理模块、数据分析模块、风险展示和交互模块等组成。数据采集模块主要采集和银行信息科技风险相关的数据，包括网络流量数据、业务数据、日志数据等。平台基于Syslog/RSyslog、SNMP、Flume-NG、Kafuka等技术手段，已实现业务、交易、网络、操作行为等数据的采集。截止2018年9月底，平台已采集了生产环境60多套业务系统数据。数据处理主要是数据的实时计算和分布式存储。数据分析是通过机器学习算法发现数据规律并生成模型，识别风险行为，最终进行风险展现。在建模过程用到的主要算法有GBDT、KMeans、孤立森林等。

图2 基于机器学习的科技风险平台框架

信息科技风险分析平台的主要风险分析功能包括：风险类型、风险列表、风险异常度趋势图、风险异常度得分与各统计指标详情、风险报警异常统计指标、风险评分统计排名、风险评分变化曲线、自动识别风险的特征。

信息科技风险分析平台具有以下特点与优势：实时性，平台能够实时获取风险数据，通过训练好的模型快速发现风险行为并进行预警，而传统的风险管理手段往往只有在风险事件发生后才能发现风险；智能化，无需事先设定规则和人为干预，通过机器学习自动发现异常行为特征，并对识别的异常行为提供告警；可视化，能够对生产环境风险进行可视化，将风险的规律、风险状态、风险趋势、风险特征等以直观方式提供给信息科技风险管理人员。

3.风险分析平台应用效果。信息科技风险分析平台在我联社上线后可以自动发现生产系统运行风险、系统用户行为风险、系统交易行为风险和系统安全风险。在用户行为风险识别方面：平台可以自动发现非法控制账户、账户盗用、虚假注册等风险行为，如平台发现某设备大量控制了他人账户，用于进行刷单等风险行为。在交易行为风险识别方面：通过机器学习我们可以发现违规交易、刷单套现、违规操作、洗钱等风险，如平台发现有少量账号存在违规交易行为。在系统攻击风险识别方面：平台可以自动发现违规操作、暴力破解攻击、撞库攻击等外部攻击行为。通过平台建设，提高了我联社在信息科技风险事前识别、事中管控和事后分析的风险管控能力。

声明：本文来自金融电子化，版权归作者所有。文章内容仅代表作者独立观点，不代表士冗科技立场，转载目的在于传递更多信息。如有侵权，请联系 service@expshell.com。