课程简介
数据建模作为连接数据与洞察的桥梁,其核心价值在于能够揭示数据背后的隐藏规律,预测未来趋势,优化决策过程,从而为企业和社会带来显著的竞争优势和经济效益。通过构建精确的数据模型,企业可以更有效地识别市场机会、控制风险、提升运营效率,并在竞争中占据先机。
Python,凭借其强大的数据处理能力、丰富的数据分析库以及灵活易用的特性,成为了数据建模与模型优化的理想选择。这些特性使得Python能够处理大规模数据集,快速迭代模型,并通过调整模型参数、选择最优特征、应用正则化技术等手段,实现模型性能的显著提升。
本课程旨在全面介绍预测建模的基础理论、分类模型评估方法以及多种经典机器学习算法,并通过案例实战加深理解与应用。课程将覆盖从数据建模的基本步骤到高级集成优化模型的构建,以及模型在实际业务场景中的应用。帮助学员掌握建模流程,全面提升学员的模型优化能力和业务应用能力。
课程收益
1、掌握数据建模的标准流程。
2、掌握各种分类预测模型的原理,以及算法实现。
3、掌握各种分类模型类的重要参数,以及应用。
4、掌握模型的评估指标、评估方法,以及过拟合评估。
5、掌握模型优化的基本方法,学会超参优化。
6、掌握集成优化思想,掌握高级的分类模型。
受众人群
业务支持部、IT系统部、大数据系统开发部、大数据分析中心、网络运维部等相关技术人员。
课程周期
2天(12H)
课程大纲
标题 | 授课内容 |
一、预测建模基础 | 1. 数据建模六步法 (1) 选择模型:基于业务选择恰当的数据模型 (2) 属性筛选:选择对目标变量有显著影响的属性来建模 (3) 训练模型:采用合适的算法,寻找到最合适的模型参数 (4) 评估模型:进行评估模型的质量,判断模型是否可用 (5) 优化模型:如果评估结果不理想,则需要对模型进行优化 (6) 应用模型:如果评估结果满足要求,则可应用模型于业务场景 2. 数据挖掘常用的模型 (1) 数值预测模型:回归预测、时序预测等 (2) 分类预测模型:逻辑回归、决策树、神经网络、支持向量机等 (3) 市场细分:聚类、RFM、PCA等 (4) 产品推荐:关联分析、协同过滤等 (5) 产品优化:回归、随机效用等 (6) 产品定价:定价策略/最优定价等 3. 属性筛选/特征选择/变量降维 (1) 基于变量本身特征 (2) 基于相关性判断 (3) 因子合并(PCA等) (4) IV值筛选(评分卡使用) (5) 基于信息增益判断(决策树使用) 4. 训练模型及实现算法 (1) 模型原理 (2) 算法实现 5. 模型评估 (1) 评估指标 (2) 评估方法 (3) 过拟合评估 6. 模型优化 (1) 优化模型:选择新模型/修改模型 (2) 优化数据:新增显著自变量 (3) 优化公式:采用新的计算公式 7. 模型应用 (1) 模型解读 (2) 模型部署 (3) 模型应用 8. 好模型是优化出来的 |
二、分类模型评估 | 1. 三个方面评估:指标、方法、过拟合 2. 两大矩阵 (1) 混淆矩阵 (2) 代价矩阵 3. 六大指标 (1) 正确率Accuracy (2) 查准率Precision (3) 查全率Recall (4) 特异度Specify (5) F度量值(/) (6) 提升指标lift 4. 三条曲线 (1) ROC曲线和AUC (2) PR曲线和BEP (3) KS曲线和KS值 5. 多分类模型评估指标 (1) 宏指标:macro_P, macro_R (2) 宏指标:micro_P, micro_R 6. 模型评估方法 (1) 原始评估法 (2) 留出法(Hold-Out) (3) 交叉验证法(k-fold cross validation) (4) 自助采样法(Bootstrapping) 7. 其它评估 (1) 过拟合评估:学习曲线 (2) 残差评估:白噪声评估 |
三、逻辑回归 | 问题:如何评估客户购买产品的可能性?如何预测客户行为? 如何预测客户流失?银行如何实现欠贷风险控制? 1. 逻辑回归模型简介 2. 逻辑回归的种类 (1) 二项逻辑回归 (2) 多项逻辑回归 3. 逻辑回归方程解读 4. 带分类自变量的逻辑回归 5. 逻辑回归的算法实现及优化 (1) 迭代样本的随机选择 (2) 变化的学习率 6. 逻辑回归+正则项 7. 求解算法与惩罚项的互斥关系 8. 多元逻辑回归处理 (1) ovo (2) ovr 9. 逻辑回归建模过程 案例:用sklearn库实现银行贷款违约预测 案例:订阅者用户的典型特征(二元逻辑回归) 案例:通信套餐的用户画像(多元逻辑回归) |
四、决策树 | 1. 分类决策树简介 演练:识别银行欠货风险,提取欠贷者的特征 2. 决策树的三个关键问题 (1) 最优属性选择 ① 熵、基尼系数 ② 信息增益、信息增益率 (2) 属性最佳划分 ① 多元划分与二元划分 ② 连续变量最优划分 (3) 决策树修剪 ① 剪枝原则 ② 预剪枝与后剪枝 3. 构建决策树的算法 (1) C5.0、CHAID、CART、QUEST (2) 各种算法的比较 4. 决策树的超参优化 5. 决策树的解读 6. 决策树建模过程 案例:商场酸奶购买用户特征提取 案例:客户流失预警与客户挽留 案例:识别拖欠银行货款者的特征,避免不良货款 案例:识别电信诈骗者嘴脸,让通信更安全 案例:电力窃漏用户自动识别 |
五、人工神经网络 | 1. 神经网络简介(ANN) 2. 神经元基本原理 (1) 加法器 (2) 激活函数 3. 神经网络的结构 (1) 隐藏层数量 (2) 神经元个数 4. 神经网络的建立步骤 5. 神经网络的关键问题 6. BP算法实现 7. MLP多层神经网络 案例:评估银行用户拖欠货款的概率 案例:神经网络预测产品销量 |
六、支持向量机(SVM) | 1. 支持向量机简介 (1) 适用场景 2. 支持向量机原理 (1) 支持向量 (2) 最大边界超平面 3. 线性不可分处理 (1) 松弛系数 4. 非线性SVM分类 5. 常用核函数 (1) 线性核函数 (2) 多项式核 (3) 高斯RBF核 (4) 核函数的选择原则 |
七、模型集成优化篇 | 1. 模型的优化思想 2. 集成模型的框架 (1) Bagging (2) Boosting (3) Stacking 3. 集成算法的关键过程 (1) 弱分类器如何构建 (2) 组合策略:多个弱学习器如何形成强学习器 4. Bagging集成算法 (1) 数据/属性重抽样 (2) 决策依据:少数服从多数 (3) 随机森林RandomForest 5. Boosting集成算法 (1) 基于误分数据建模 (2) 样本选择权重更新 (3) 决策依据:加权投票 (4) AdaBoost模型 6. GBDT模型 7. XGBoost模型 8. LightGBM模型 |
八、案例实战 | 1. 客户流失预测和客户挽留模型 2. 银行欠贷风险预测模型 结束:课程总结与问题答疑。 |
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员