课程简介
数据建模作为连接数据与洞察的桥梁,其核心价值在于能够揭示数据背后的隐藏规律,预测未来趋势,优化决策过程,从而为企业和社会带来显著的竞争优势和经济效益。通过构建精确的数据模型,企业可以更有效地识别市场机会、控制风险、提升运营效率,并在竞争中占据先机。
Python,凭借其强大的数据处理能力、丰富的数据分析库以及灵活易用的特性,成为了数据建模与模型优化的理想选择。这些特性使得Python能够处理大规模数据集,快速迭代模型,并通过调整模型参数、选择最优特征、应用正则化技术等手段,实现模型性能的显著提升。
本课程全面覆盖数据分析基础、业务分析框架搭建、数据建模步骤,深入讲解银行客户信用卡模型及其他分类预测模型。通过实例演练,帮助学员掌握逻辑回归、决策树、神经网络等模型的应用与优化。同时,课程还介绍了模型超参优化、特征工程优化及集成算法优化等高级技巧,帮助学员构建系统的数据分析知识体系,提升解决实际业务问题的能力,实现从数据到决策的全方位提升。
课程收益
1、掌握数据分析和数据建模的基本过程和步骤
2、掌握数据分析框架的搭建,及常用分析方法
3、掌握业务的影响因素分析常用的方法
4、掌握常用客户行为预测模型,包括逻辑回归、决策树、神经网络等等
5、掌握模型优化的思路及措施,包括特征优化、超参优化、集成优化等
6、掌握金融行业信用评分卡模型,构建信用评分模型
受众人群
风险控制部、金融科技部、IT系统部、数据分析部等对数据建模有较高要求的相关领域人员
课程周期
2天(12H)
课程大纲
标题 | 授课内容 |
一、数据分析基础 | 1. 数据决策的三个关键环节 (1) 业务数据化:将业务问题转化为数据问题 (2) 数据信息化:提取数据中的业务规律信息 (3) 信息策略化:基于规律形成业务应对策略 2. 数据分析的六步曲 (1) 步骤1:明确目的--理清思路 (2) 步骤2:数据收集—理清思路 (3) 步骤3:数据预处理—寻找答案 (4) 步骤4:数据分析--寻找答案 (5) 步骤5:数据展示--观点表达 (6) 步骤6:报表撰写--观点表达 |
二、搭建业务分析框架 | 1. 数据分析思路来源于业务模型 2. 分析框架来源于业务模型 (1) 商业目标(粗粒度) (2) 分析维度/关键步骤 (3) 业务问题(细粒度) (4) 涉及数据/关键指标 案例:搭建精准营销的分析框架(6R) (5) 如何寻找目标客户群 (6) 如何匹配合适的产品 (7) 如何确定推荐的最佳时机 (8) 如何判断合理的价格 案例:搭建用户购买行为分析框架(5W2H) 3. 信用评估需要采集的数据 (1) 身份信息、认证数据、 (2) 消费数据、行为数据、 (3) 社交数据、设备数据、 (4) 金融数据 |
三、数据建模步骤 | 1. 预测建模六步法 2. 选择模型 (1) 基于业务选择恰当的数据模型 (2) 常见模型简介 3. 特征工程 (1) 选择对目标变量有显著影响的属性来建模 (2) 降维的两种方式:特征选择、因子合并 4. 训练模型 (1) 采用合适的算法对模型进行训练,寻找到最优参数 (2) 常用模型原理 5. 评估模型 (1) 进行评估模型的质量,判断模型是否可用 (2) 评估指标、评估方法 6. 优化模型 (1) 如果评估结果不理想,则需要对模型进行优化 7. 应用模型 (1) 如果评估结果满足要求,则可应用模型于业务场景 |
四、银行客户信用卡模型 | 1. 信用评分卡模型简介 2. 评分卡的关键问题 3. 信用评分卡建立过程 (1) 筛选重要属性 (2) 数据集转化 (3) 建立分类模型 (4) 计算属性分值 (5) 确定审批阈值 4. 筛选重要属性 (1) 属性分段 (2) 基本概念:WOE、IV (3) 属性重要性评估 5. 数据集转化 (1) 连续属性最优分段 (2) 计算属性取值的WOE 6. 建立分类模型 (1) 训练逻辑回归模型 (2) 评估模型 (3) 得到字段系数 7. 计算属性分值 (1) 计算补偿与刻度值 (2) 计算各字段得分 (3) 生成评分卡 8. 确定审批阈值 (1) 画K-S曲线 (2) 计算K-S值 (3) 获取最优阈值 案例:构建银行小额贷款的用户信用模型 9. 信用评分卡的优化方向 (1) 改变属性重要性评估方法 (2) 采用其他更精准的模型,如决策树、神经网络、集成模型等 |
五、其他分类预测模型 | 问题:如何评估客户购买产品的可能性?如何预测客户的购买行为?如何提取某类客户的典型特征?如何向客户精准推荐产品或业务? 1. 分类模型概述及其应用场景 2. 常见分类预测模型 3. 逻辑回归(LR) (1) 逻辑回归的适用场景 (2) 逻辑回归的模型原理 (3) 逻辑回归分类的几何意义 (4) 逻辑回归的种类:二项、多项 (5) 如何解读逻辑回归方程 (6) 逻辑回归算法的实现及优化 ① 迭代样本的随机选择 ② 变化的学习率 ③ 逻辑回归+正则项 ④ 求解算法与惩罚项的互斥有关系 (7) 带分类自变量的逻辑回归分析 (8) 多项逻辑回归/多分类逻辑回归 ① ovo, ovr 案例:用sklearn库实现银行贷款违约预测 案例:订阅者用户的典型特征(二元逻辑回归) 案例:通信套餐的用户画像(多元逻辑回归) 4. 分类决策树(DT) 问题:如何预测客户行为?如何识别潜在客户? 风控:如何识别欠贷者的特征,以及预测欠贷概率? 客户保有:如何识别流失客户特征,以及预测客户流失概率? (1) 决策树分类简介 演练:识别银行欠货风险,提取欠贷者的特征 (2) 决策树分类的几何意义 (3) 决策树算法(三个关键问题) ① 如何选择最佳属性来构建节点:熵/基尼系数、信息增益 ② 如何分裂变量:多元/二元划分、最优切割点 ③ 修剪决策树:剪枝原则、预剪枝与后剪枝 (4) 决策树的解读 (5) 决策树的超参优化 案例:商场用户的典型特征提取 案例:客户流失预警与客户挽留 案例:识别拖欠银行货款者的特征,避免不良货款 (6) 多分类决策树 案例:识别不同理财客户的典型特征,实现精准推荐 5. 人工神经网络(ANN) (1) 神经网络的结构 (2) 神经网络基本原理 ① 加法器,激活函数 (3) 神经网络分类的几何意义 (4) 神经网络的结构 ① 隐藏层数量 ② 神经元个数 (5) 神经网络实现算法 案例:评估银行用户拖欠货款的概率 |
六、模型超参优化 | 1. 模型优化的三大方向 (1) 超参优化 (2) 特征工程 (3) 集成优化 2. 超参优化的方法比较 (1) 交叉验证类(RidgeCV/LassoCV/LogisticRegressionCV/…) (2) 网格搜索GridSearchCV (3) 随机搜索RandomizedSearchCV (4) 贝叶斯搜索BayesSearchCV 3. 超参调优策略 |
七、特征工程优化 | 1. 数据清洗技巧 (1) 异常数据的处理方式 (2) 缺失值的填充方式 (3) 不同填充方式对模型效果的影响 2. 降维的两大方式:特征选择和因子合并 3. 特征选择的模式 (1) 基于变量本身的重要性筛选 (2) Filter式(特征选择与模型分离) (3) Wrapper式(利用模型结果进行特征选择) (4) Embedded式(模型自带特征重要性评估) (5) 确定特征选择的变量个数 案例:客户流失预测的特征选择 4. 因子合并(将多数变量合并成少数几个因子) (1) 因子分析(FactorAnalysis):原理、适用场景、载荷矩阵 (2) 主成份分析PCA:原理、几何含义、扩展KernelCA/ICA/… 案例:汽车油效预测 5. 变量变换 (1) 为何需要变量变换 (2) 因变量变换对模型质量的影响 (3) 特征标准化:作用、不同模型对标准化的要求、不同标准化对模型的影响 (4) 其它变换:正态化、正则化等 6. 变量派生:基于业务经验的派生、多项式派生 7. 特征工程的管道实现 (1) 管道类Pipeline (2) 列转换类ColumnTransformer (3) 特征合并类FeatureUnion |
八、集成算法优化 | 1. 模型的优化思路 2. 集成算法基本原理 (1) 单独构建多个弱分类器 (2) 多个弱分类器组合投票,决定预测结果 3. 集成方法的种类:Bagging、Boosting、Stacking 4. Bagging集成:随机森林RF (1) 数据/属性重抽样 (2) 决策依据:少数服从多数 5. Boosting集成:AdaBoost模型 (1) 基于误分数据建模 (2) 样本选择权重更新公式 (3) 决策依据:加权投票 6. 高级模型介绍与实现 (1) GBDT梯度提升决策树 (2) XGBoost (3) LightGBM 结束:课程总结与问题答疑。 |
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员