Python信用评分模型及模型优化实战
Ian Fu 查看讲师
百林哲咨询(北京)有限公司专家团队成员
曾任华为技术专家,五篇技术专利,工作期间获得华为数项奖项,曾在英国、日本、荷兰等国家做项目,对大数据有深入的研究。
浏览:421次
详情 DETAILS

课程简介

数据建模作为连接数据与洞察的桥梁,其核心价值在于能够揭示数据背后的隐藏规律,预测未来趋势,优化决策过程,从而为企业和社会带来显著的竞争优势和经济效益。通过构建精确的数据模型,企业可以更有效地识别市场机会、控制风险、提升运营效率,并在竞争中占据先机。

Python,凭借其强大的数据处理能力、丰富的数据分析库以及灵活易用的特性,成为了数据建模与模型优化的理想选择。这些特性使得Python能够处理大规模数据集,快速迭代模型,并通过调整模型参数、选择最优特征、应用正则化技术等手段,实现模型性能的显著提升。

本课程全面覆盖数据分析基础、业务分析框架搭建、数据建模步骤,深入讲解银行客户信用卡模型及其他分类预测模型。通过实例演练,帮助学员掌握逻辑回归、决策树、神经网络等模型的应用与优化。同时,课程还介绍了模型超参优化、特征工程优化及集成算法优化等高级技巧帮助学员构建系统的数据分析知识体系,提升解决实际业务问题的能力,实现从数据到决策的全方位提升。

课程收益

1、掌握数据分析和数据建模的基本过程和步骤

2、掌握数据分析框架的搭建,及常用分析方法

3、掌握业务的影响因素分析常用的方法

4、掌握常用客户行为预测模型,包括逻辑回归、决策树、神经网络等等

5、掌握模型优化的思路及措施,包括特征优化、超参优化、集成优化等

6、掌握金融行业信用评分卡模型,构建信用评分模型

受众人群

风险控制部、金融科技部、IT系统部、数据分析部等对数据建模有较高要求的相关领域人员

课程周期

  2天(12H)

课程大纲

标题

授课内容

一、数据分析基础

1. 数据决策的三个关键环节

(1) 业务数据化:将业务问题转化为数据问题

(2) 数据信息化:提取数据中的业务规律信息

(3) 信息策略化:基于规律形成业务应对策略

2. 数据分析的六步曲

(1) 步骤1:明确目的--理清思路

(2) 步骤2:数据收集—理清思路

(3) 步骤3:数据预处理—寻找答案

(4) 步骤4:数据分析--寻找答案

(5) 步骤5:数据展示--观点表达

(6) 步骤6:报表撰写--观点表达

二、搭建业务分析框架

1. 数据分析思路来源于业务模型

2. 分析框架来源于业务模型

(1) 商业目标(粗粒度)

(2) 分析维度/关键步骤

(3) 业务问题(细粒度)

(4) 涉及数据/关键指标

案例:搭建精准营销的分析框架(6R)

(5) 如何寻找目标客户群

(6) 如何匹配合适的产品

(7) 如何确定推荐的最佳时机

(8) 如何判断合理的价格

案例:搭建用户购买行为分析框架(5W2H)

3. 信用评估需要采集的数据

(1) 身份信息、认证数据、

(2) 消费数据、行为数据、

(3) 社交数据、设备数据、

(4) 金融数据

三、数据建模步骤

1. 预测建模六步法

2. 选择模型

(1) 基于业务选择恰当的数据模型

(2) 常见模型简介

3. 特征工程

(1) 选择对目标变量有显著影响的属性来建模

(2) 降维的两种方式:特征选择、因子合并

4. 训练模型

(1) 采用合适的算法对模型进行训练,寻找到最优参数

(2) 常用模型原理

5. 评估模型

(1) 进行评估模型的质量,判断模型是否可用

(2) 评估指标、评估方法

6. 优化模型

(1) 如果评估结果不理想,则需要对模型进行优化

7. 应用模型

(1) 如果评估结果满足要求,则可应用模型于业务场景

四、银行客户信用卡模型

1. 信用评分卡模型简介

2. 评分卡的关键问题

3. 信用评分卡建立过程

(1) 筛选重要属性

(2) 数据集转化

(3) 建立分类模型

(4) 计算属性分值

(5) 确定审批阈值

4. 筛选重要属性

(1) 属性分段

(2) 基本概念:WOE、IV

(3) 属性重要性评估

5. 数据集转化

(1) 连续属性最优分段

(2) 计算属性取值的WOE

6. 建立分类模型

(1) 训练逻辑回归模型

(2) 评估模型

(3) 得到字段系数

7. 计算属性分值

(1) 计算补偿与刻度值

(2) 计算各字段得分

(3) 生成评分卡

8. 确定审批阈值

(1) K-S曲线

(2) 计算K-S值

(3) 获取最优阈值

案例:构建银行小额贷款的用户信用模型

9. 信用评分卡的优化方向

(1) 改变属性重要性评估方法

(2) 采用其他更精准的模型,如决策树、神经网络、集成模型等

五、其他分类预测模型

问题:如何评估客户购买产品的可能性?如何预测客户的购买行为?如何提取某类客户的典型特征?如何向客户精准推荐产品或业务?

1. 分类模型概述及其应用场景

2. 常见分类预测模型

3. 逻辑回归(LR)

(1) 逻辑回归的适用场景

(2) 逻辑回归的模型原理

(3) 逻辑回归分类的几何意义

(4) 逻辑回归的种类:二项、多项

(5) 如何解读逻辑回归方程

(6) 逻辑回归算法的实现及优化

① 迭代样本的随机选择

② 变化的学习率

③ 逻辑回归+正则项

④ 求解算法与惩罚项的互斥有关系

(7) 带分类自变量的逻辑回归分析

(8) 多项逻辑回归/多分类逻辑回归

① ovo, ovr

案例:用sklearn库实现银行贷款违约预测

案例:订阅者用户的典型特征(二元逻辑回归)

案例:通信套餐的用户画像(多元逻辑回归)

4. 分类决策树(DT)

问题:如何预测客户行为?如何识别潜在客户?

风控:如何识别欠贷者的特征,以及预测欠贷概率?

客户保有:如何识别流失客户特征,以及预测客户流失概率?

(1) 决策树分类简介

演练:识别银行欠货风险,提取欠贷者的特征

(2) 决策树分类的几何意义

(3) 决策树算法(三个关键问题)

① 如何选择最佳属性来构建节点:熵/基尼系数、信息增益

② 如何分裂变量:多元/二元划分、最优切割点

③ 修剪决策树:剪枝原则、预剪枝与后剪枝

(4) 决策树的解读

(5) 决策树的超参优化

案例:商场用户的典型特征提取

案例:客户流失预警与客户挽留

案例:识别拖欠银行货款者的特征,避免不良货款

(6) 多分类决策树

案例:识别不同理财客户的典型特征,实现精准推荐

5. 人工神经网络(ANN)

(1) 神经网络的结构

(2) 神经网络基本原理

① 加法器,激活函数

(3) 神经网络分类的几何意义

(4) 神经网络的结构

① 隐藏层数量

② 神经元个数

(5) 神经网络实现算法

案例:评估银行用户拖欠货款的概率

六、模型超参优化

1. 模型优化的三大方向

(1) 超参优化

(2) 特征工程

(3) 集成优化

2. 超参优化的方法比较

(1) 交叉验证类(RidgeCV/LassoCV/LogisticRegressionCV/…)

(2) 网格搜索GridSearchCV

(3) 随机搜索RandomizedSearchCV

(4) 贝叶斯搜索BayesSearchCV

3. 超参调优策略

七、特征工程优化

1. 数据清洗技巧

(1) 异常数据的处理方式

(2) 缺失值的填充方式

(3) 不同填充方式对模型效果的影响

2. 降维的两大方式:特征选择和因子合并

3. 特征选择的模式

(1) 基于变量本身的重要性筛选

(2) Filter式(特征选择与模型分离)

(3) Wrapper式(利用模型结果进行特征选择)

(4) Embedded式(模型自带特征重要性评估)

(5) 确定特征选择的变量个数

案例:客户流失预测的特征选择

4. 因子合并(将多数变量合并成少数几个因子)

(1) 因子分析(FactorAnalysis):原理、适用场景、载荷矩阵

(2) 主成份分析PCA:原理、几何含义、扩展KernelCA/ICA/…

案例:汽车油效预测

5. 变量变换

(1) 为何需要变量变换

(2) 因变量变换对模型质量的影响

(3) 特征标准化:作用、不同模型对标准化的要求、不同标准化对模型的影响

(4) 其它变换:正态化、正则化等

6. 变量派生:基于业务经验的派生、多项式派生

7. 特征工程的管道实现

(1) 管道类Pipeline

(2) 列转换类ColumnTransformer

(3) 特征合并类FeatureUnion

八、集成算法优化

1. 模型的优化思路

2. 集成算法基本原理

(1) 单独构建多个弱分类器

(2) 多个弱分类器组合投票,决定预测结果

3. 集成方法的种类:Bagging、Boosting、Stacking

4. Bagging集成:随机森林RF

(1) 数据/属性重抽样

(2) 决策依据:少数服从多数

5. Boosting集成:AdaBoost模型

(1) 基于误分数据建模

(2) 样本选择权重更新公式

(3) 决策依据:加权投票

6. 高级模型介绍与实现

(1) GBDT梯度提升决策树

(2) XGBoost

(3) LightGBM

结束:课程总结与问题答疑。


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1