大数据风控新趋势:T-L模型与RandomForest结合构建ScoreNet体系 新蔡seo推广公司
栏目:广告推广 发布时间:2026-01-17
【概括】 随着互联网金融、消费金融的快速发展,央行征信在数据及时性、全面性、层次性等方面的短板日益凸显。深度挖掘互联网大数据信息、开发大数据风控模型、更准确地

【概括】

随着互联网金融、消费金融的快速发展,央行征信在数据及时性、全面性、层次性等方面的短板日益凸显。深度挖掘互联网大数据信息、开发大数据风控模型、更准确地评估风险逐渐成为新一代信用风险模型体系建设的核心课题。

本文在传统风险模型体系的基础上,嫁接逻辑回归和决策树模型,构建了TL模型,并结合模型改进了模型结构。采用TL核模型代替RF模型中传统的决策树模型,将RF模型和TL核模型结合起来建立模型体系。不仅大大提高了风险模型区分能力,而且保证了模型结构的清晰性和评分的广泛应用。

【关键词】大数据风控TL模型

一、选题背景及意义

目前,央行个人征信中心拥有自然人8.6亿多人,但其中有信用记录的仅3亿多人。同时,信用记录主要来自商业银行、农村信用社等金融机构。在数据时效性方面,全面性和层次性方面存在严重缺陷。因此,在互联网金融蓬勃发展的今天,深度挖掘互联网大数据信息,开发大数据风控模型,弥补央行个人信用信息的缺失显得尤为重要。

无论是线上还是线下的用户消费和社交数据,都具有区别于传统信用信息的独特特征:

数据高度稀疏(用户线上线下行为分布广泛,收集和覆盖极其困难;用户的行为偏好也不同,不同类别的行为差异很大,因此数据的稀疏性极其明显。一般来说,用户行为信息的缺失率超过50%);

数据覆盖面广(信息覆盖面广泛,支付宝或微信活跃用户超4亿,用户行为涵盖服装、图书、租赁、休闲、娱乐等,单指标维度超过1000个);

单变量风险辨别能力较弱(与传统风险模型中使用的历史业绩状况和个人资产评估等强变量不同,消费或社会变量一般是弱变量,辨别能力较弱)。

传统的信用风险评估模型利用数据驱动或专家经验在业务逻辑架构下开发模型模板,最终结合统计分析模型(逻辑回归、判别分析等)获得准确的计量结果。然而,在新的数据肖像和业务场景下,不仅原有的业务逻辑框架丢失,传统统计分析模型的应用也受到严重限制。近年来,机器学习技术发展迅速,在信息识别、推荐引擎等领域取得了优异的应用成果。大量实验结果证明机器学习模型具有良好的鲁棒性和泛化性。然而,机器学习模型的模型逻辑极其复杂,难以掌控模型的真实效果,也难以直观地展示和解释变量的风险特征。如何将传统风险评估模型系统与机器学习技术相结合,在保证业务逻辑和评分广泛应用的同时,更准确地评估风险,成为新一代信用风险模型系统建设的核心问题。

2.文献综述

(1941)首先使用信用评分领域的判别分析来预测借款人的贷款偿还状况; 20世纪50年代,他发明了基于回归模型的FICO信用评分系统。得益于清晰的业务逻辑和可解释性,评分系统逐渐成为应用最广泛的风险模型系统。然而,逻辑回归和判别分析模型都主要针对线性问题,无法分析变量的非线性结构。同时,它们对数据的完整性和有效性要求很高,对数据噪声也很敏感,不适合大数据。上下文中的模型开发和集成。

,;(1943)[1]提出了神经网络模型,并得到了广泛的应用,并首次描述了机器学习理论的雏形; (1956)[2]在文章中首次提出机器学习的概念; ,MarkA.;,.;,LevI.(1964)[3]提出了在统计学习领域应用最广泛的机器学习模型,支持向量机(SVM); Leo(1996)[4]、(1988)[5]、Ho(1995)[6]提出了集成学习算法:,,完美解决了问题。传统机器学习算法的过拟合困境,显着提高了算法的稳定性、泛化性和鲁棒性。近年来,机器学习算法在图像识别、语音识别、信息检索、推荐引擎、非结构化数据挖掘等领域取得了突破性进展。推荐算法与风险模型的一致性,以及GBDT[7]在推荐算法上的优异表现,为我们研究金融大数据风险模型提供了新的方向和挑战。然而,单一机器学习算法和集成学习算法都具有复杂的模型结构。这种复杂的结构不仅使模型失去了可解释性,也限制了专业模型分析师控制模型的能力,难以实现真正意义上的大范围应用。

三、研究的理论框架和模型构建

本文在传统风险模型体系的基础上,嫁接逻辑回归和决策树模型,构建TL模型,并结合模型改进模型结构,建立模型。不仅大大提高了风险模型区分能力,还保证了业务逻辑的清晰性和评分的广泛应用。

3.1.TL内核模型

传统的信用风险评估模型分析业务逻辑结构下变量的基本属性和风险区分能力,并利用逻辑回归等统计分析模型进行定量分析,以获得准确的风险计量结果。然而,用户行为数据特有的稀疏性会导致统计模型极不稳定。决策树对于局部数据分析具有很强的稳定性和鲁棒性,能够揭示变量风险判别能力的非线性结构关系。因此,我们嫁接决策树模型和逻辑回归模型建立TL核模型。即在统计建模之前增加一层决策树模型进行单变量分析,利用CHAID决策树生成二元决策树变量,然后将决策树模型的输出结果(单变量、跨变量和二元)决策树变量)导入逻辑回归模型进行统计建模,确定所有风险因素的风险权重。

3.1.1.决策树模型

在各种决策树算法中,CHAID[8](Chi-)既适用于二元变量,也适用于连续变量。对于每个分叉,CHAID 分别对二元响应和连续目标变量使用卡方检验和 F 检验。因此,本文选择CHAID算法作为决策树算法。

CHAID算法以因变量为根节点,对每个自变量(只能是分类变量或序数变量,即离散变量)进行运算,如果是连续变量,例如年龄、收入,则必须被定义为分类变量或序数变量)。分类,生成一系列二维表,然后分别计算生成的二维表的卡方统计量或F统计量。如果因变量(目标变量)是分类变量(如PD模型),则采用卡方检验(Chi--Test);如果因变量是区间变量(如LGD、EAD模型),则进行F检验(F-Test)。如果几个候选变量的分类显着,则比较这些分类的显着性(P值的大小),然后选择最显着的分类变量和划分作为子节点。

3.1.2.逻辑回归模型

逻辑回归模型[9]是一种广义线性模型[10],其中因变量服从二项式分布,自变量的线性预测与因变量的logit变换相联系。具体数学表达式为:

由此我们可以得到

该理论可以证明,如果样本的分布服从多元正态分布,那么样本就完全满足对数回归的假设。对数模型的误差项服从二项式分布。因此,拟合时采用最大似然估计法而不是最小二乘误差法进行参数估计。

3.2.型号

3.2.1.基本原理

随机森林是美国科学家于2001年发表的一种机器学习算法,将1996年提出的集成学习理论[4]与Ho于1998年提出的随机子空间方法[11]相结合。随机森林是一种以决策树为基本分类器的集成学习模型。它包含通过集成学习技术训练的多个决策树。当输入待分类的样本时,通过单个决策树的输出来投票决定最终的分类结果。决定,如下图所示。随机森林克服了决策树的过拟合问题,对噪声和异常值具有良好的容忍度,对于高维数据分类问题具有良好的可扩展性和并行性。另外,随机森林是一种由数据驱动的非参数分类方法。它只需要通过给定样本的学习来训练分类规则,不需要分类的先验知识。

随机森林使用K个决策树作为基本分类器

,集成学习后得到的组合分类器。当输入一个待分类样本时,随机森林输出的分类结果是通过对每棵决策树的分类结果进行简单投票来确定的。这是

是随机变量序列,由随机森林的两大随机化思想决定:

(1)思路:从原始样本集X中放回随机选取K个与原始样本集大小相同的训练样本集(每次大约有37%的样本没有被选取),构建每个训练样本集相应的决策树。

(2)特征子空间思想:在对决策树的每个节点进行分裂时,从所有属性中以中等概率随机选择一个属性子集,然后从这个子集中选择一个最优属性来分裂节点。

由于构建每棵决策树时,随机选择训练样本集和属性子集的过程是独立的,总体总体是相同的,因此

是独立且同分布的随机变量的序列。

训练随机森林的过程就是训练每棵决策树。由于每棵决策树的训练是相互独立的,因此随机森林的训练可以通过并行处理来实现,这将大大提高生成模型的效率。随机森林 2 号

训练流程如下图所示。

将用同样方式训练的K个决策树组合起来,就可以得到随机森林。当输入一个待分类样本时,随机森林输出的分类结果是通过对每棵决策树的输出结果进行简单投票(即取多数)来确定的。

3.2.2.模型的缺陷及改进方向

不难证明随机森林[12]的泛化误差上限为:

3.3.型号

本文引入3.1中建立的TL核模型来替代3.2中RF模型中的传统决策树模型,并将RF模型和TL核模型结合起来建立模型体系。

该模型建立在传统模型的基础上,保留了传统模型的业务可解释性和稳定性。

该模型采用随机森林模型作为基本结构构建随机模型,克服了传统模型对数据噪声也敏感的缺点,进一步提高了模型的泛化性和稳定性。

该模型克服了传统模型一般只能容纳10-15个变量的缺点,模型可以覆盖100+变量。这可以从源头防止用户作弊,提高模型的可信度。

该模型在应用层面的高稳定性和业务可解释性使其比纯机器学习模型拥有更广阔的应用空间。

4. 模型开发与结果分析

本文利用互联网爬虫技术和第三方合作机构,进行跨商家、浏览器、设备、微信的实时互联网数据采集和分析,包括但不限于:商品消费行为采集和挖掘、资讯、社区和视频阅读行为采集与挖掘、O2O消费行为采集与挖掘、高单价商品消费行为采集与挖掘、金融服务行为采集与挖掘等。

通过多渠道的数据采集和挖掘,形*面的用户画像数据(如人口特征标签、用户总体标签、资产价值标签、消费行为偏好、阅读偏好标签、金融服务标签、社交圈标签等),进一步了解全方位的用户属性信息。

本文利用大数据风险模型技术,从身份信息验证、稳定性信息、金融应用信息、资产评估信息、商品消费信息、媒体观看信息六大维度评估用户违约风险。

4.1 数据分析

4.1.1.数据收集

本文收集了身份信息验证、稳定性信息、金融应用信息、重要资产信息、商品消费信息、媒体阅读信息六大维度近千个子项的互联网数据。

从模型表现可以看出,该模型对不同样本具有一定的判别能力,表明其稳定性较高,在未来的应用中可以适应不同人群。

4.3 模型结果对比分析

传统模型与模型对比分析结果:

传统模型与机器学习模型的对比分析结果( ):

模型对比分析结果表明,该模型较传统模型在判别能力上有较大提升(),可将KS/AR值提高约0.05,同时保持传统模型()的稳定性和可解释性;模型比较纯粹 机器学习模型()在稳定性和泛化性方面具有绝对优势,判别能力也更优越。

5.应用分析及解决建议

5.1.信用信息多元化与风险量化

传统金融机构信用信息的主要来源是央行信用报告。然而,央行信用报告中仅有3亿多人有信用记录。信用记录主要来自商业银行、农村信用社等金融机构。随着互联网不断渗透到人们的生活中,互联网行为数据是央行征信的有效补充。能够不断强化征信数据的时效性、全面性和层次性,隐形记录用户行为,去伪存真,还原真实客户。这大大提高了信息的利用率和有效性。

同时,大数据风险模型的应用可以不断提高金融机构的风险识别和计量能力。这将不断完善征信体系结构,为精细化风险定价提供必要的基础和土壤。

5.2.信贷审批决策/自动审批

传统上,金融机构的授信审批决策主要依靠信贷人员的主观经验和判断,缺乏统一的标准,不利于金融机构整体风险政策的实施。通过大数据模型开发技术与内部评级体系建设的深度融合,金融机构可以更广泛、更全面地将评分/评级结果应用于信贷审批,为贷款决策提供参考和支持。

大数据风险模型卓越的风险排序和差异化能力,可以有力推动自动化审批进程和线上产品的改革创新。如果模型评分高于一定水平,且满足其他授信决策条件,则授信申请可自动通过,无需人工审核。对于分数低于一定等级的模型,模型将自动拒绝申请;仅模型得分介于上述两者之间的客户,需要人工干预来审核应用程序。

5.3 风险监测预警

风险监测预警是指利用各种信息源或渠道,对数据和信息进行整合和分析,采用定量与定性相结合的分析方法,发现信贷客户和业务的早期风险迹象,准确识别风险类别,确定信用风险发展变化的程度、原因和趋势,按照规定的权限和程序,采取有针对性的措施处理问题信用风险,及时防范、控制和化解信用风险。

大数据风险模型比传统的内部评级系统更加复杂和敏感。能够快速识别贷后风险,针对不同用户设置不同的监控频率,自动筛选高风险客户,制定有针对性的贷后管理措施。后期管理工作等

6. 参考文献

[1].,;(1943)..(4):115–133.

[2].,,,,第二部分,第56-62页,1957。

[3].,MarkA.;,.;,LevI.(1964)..:821–837。

[4].,利奥(1996)..(2):123–140。

[5].(1988).,t(,)

[6].Ho,(1995)..,,QC,14–.pp.278–282。

[7].,L(1997)..

[8].,.;n,,第 8 卷(1959),第 65–75 页。

[9].,.(1966).:,1775–1953,().

[10].,约翰;,(1972).els..()()135(3):370–384。

[11].何特..,1998,(08):832-844.

[12].;;(2008)...

本文由作者投稿至36大数据,并由36大数据编辑出版。凡不注明作者、36大数据来源及本文链接的均属侵权。

结尾。


# 大数据风控新趋势  # 莆田网站建设的过程  # 宁陵产品推广营销价格  # 百度营销推广费用标准  # 刷僵尸粉网站推广微信  # 茂名网站开发如何做推广  # 巴中手机网站建设策划  # 体系建设  # 这将  # 结合起来  # 所示  # 互联  # 风险评估  # 适用于  # 授信  # 具有良好  # 网大  # 大数据风控新趋势:T-L模型与RandomForest结合构建ScoreNet体系  # T-L模型与RandomForest结合构建ScoreNet体系  # 决策树  # 关键词  # 互联网  # 金融机构  # 是一种  # 征信  # 基础上  # 提出了  # 线上  # 提高了  # 铜仁关键词seo公司  # 商丘建设规划网站  # 什么叫营销好号推广  # 江苏外贸网站推广找哪家  # 滕州推广营销公司有哪些  # seo234极光算法  # 钱塘区品牌网站建设  # 网站建设制作费用  # 江苏网站推广贵不贵  # 西安标题seo优化  # 酒类网站建设方案  # 开封公司网站如何做推广  # seo视界  # 曲阜租房网站建设 


相关文章: 引流之如何利用闲鱼进行引流?  广州百度推广有哪些操作技巧,邢台推广网站建设电话号  在qq群里怎么推广cap联盟上面的广告产品?  app推广过程中最常见的10个微信营销方法,你会吗?  网站运营该如何持续地提升网站权重来获取更多的流量?  广州百度推广费用解析,了解推广开销,精准营销从此开始,创意营销推广方案策划ppt  引流是一个长期的工作,坚持下去才有收获!  广州百度推广方式如何计费详解,模特网站建设需要  目前最火的四个闲鱼淘客引流赚钱方法!  广州百度推广入口都收费吗?,黎城网站建设  广州百度推广方式解析,丰台网络营销推广网站  百度知道引流技巧,简单、粗暴、直接吸粉!  想通过国外广告联盟赚钱?这10个专业术语你必须了解!  广告和cpl广告的主流推广方法解析!  广州百度推广收录找谁?全面解析推广服务选择秘诀,网站推广的具体方法包括  造成网络营销效果不理想的五大误区!  广州百度推广律师,助力企业法律服务的高效选择,汽车网站建设免费分析  想要快速引流获客?qq群营销的这6大主要手段必须掌握!  分享两个不一样联盟赚钱玩法,亲测效果非常棒!  资深站长总结的快速提升网站排名的5个小技巧分享  注册推广月入过万项目玩法介绍,十足的干货!  制作软件全家桶静默安装包日赚1000元的玩法介绍!  教你如何利用app交叉推广来0成本推广自己的app,大量吸粉!  全自动日付广告联盟赚钱项目该怎么做?  想要实现网站变现赚钱,选择一个靠谱的广告联盟非常重要!  引流之如何利用评论来进行引流?  广东百度推广费用解析,企业如何优化推广预算,亳州网站推广行情如何啊  个人站长通过网站营销快速获取大量流量的10个方法!  广州百度推广点击费用到底是多少?,实现自我价值网站建设  广东百度推广管家,助力企业数字化营销新未来,朋友圈的营销推广策划  广州百度推广费用表详解,助力企业营销突破,临汾网站推广品牌有哪些  做国外广告联盟赚钱需要准备什么软件和注意哪些细节?  2020年最快一天挣300500元的4个方法,收好了!  揭露广州百度推广骗局,警惕线上营销中的陷阱,临朐网站建设  app上线之后如何快速地获得大量的关注和粉丝流量?  广告联盟两大巨头之间的“头腾大战”,你看好哪个?  广州百度推广的费用标准是什么?,网站推广常用方法有什么  可以长期兼职写作赚钱的三大平台,搞点副业赚钱轻轻松松!  广东百度推广欺诈事件解析,企业如何规避陷阱?,丰台母婴种草营销推广招聘  广东百度推广高级策略解析,荆州网站建设需要多久  揭秘通过广告联盟年入百万所需要哪些条件!  广州百度推广费用如何取消?,衡阳网站建设路夜市  百度广告联盟怎么加入​?申请条件有哪些?  广州百度推广赔付规则详解,文具店微信营销推广方案  福建百度推广返点一般是多少?解析营销背后的策略,h5网站怎么样推广赚钱  广州百度推广事件,网络营销中的争议与启示,廊坊正规的网站推广平台  引流转化日入1000+的引流思路方法分享!  微信*号引流的五大方法,学会了每日引流100+轻轻松松!  福建百度推广咨询工具哪个好用?,石景山网站建设全网推广  福建百度推广开户渠道公司有哪些?,网站建设推广术 


相关栏目: 【 广告资讯37196 】 【 广告推广143353 】 【 广告优化89630