Python数据建模及模型优化(分类模型篇)
Ian Fu 查看讲师
百林哲咨询(北京)有限公司专家团队成员
曾任华为技术专家,五篇技术专利,工作期间获得华为数项奖项,曾在英国、日本、荷兰等国家做项目,对大数据有深入的研究。
浏览:398次
详情 DETAILS

课程简介

数据建模作为连接数据与洞察的桥梁,其核心价值在于能够揭示数据背后的隐藏规律,预测未来趋势,优化决策过程,从而为企业和社会带来显著的竞争优势和经济效益。通过构建精确的数据模型,企业可以更有效地识别市场机会、控制风险、提升运营效率,并在竞争中占据先机。

Python,凭借其强大的数据处理能力、丰富的数据分析库以及灵活易用的特性,成为了数据建模与模型优化的理想选择。这些特性使得Python能够处理大规模数据集,快速迭代模型,并通过调整模型参数、选择最优特征、应用正则化技术等手段,实现模型性能的显著提升。

本课程旨在全面介绍预测建模的基础理论、分类模型评估方法以及多种经典机器学习算法,并通过案例实战加深理解与应用。课程将覆盖从数据建模的基本步骤到高级集成优化模型的构建,以及模型在实际业务场景中的应用。帮助学员掌握建模流程,全面提升学员的模型优化能力和业务应用能力。
课程收益

1、掌握数据建模的标准流程。

2、掌握各种分类预测模型的原理,以及算法实现。

3、掌握各种分类模型类的重要参数,以及应用。

4、掌握模型的评估指标、评估方法,以及过拟合评估。

5、掌握模型优化的基本方法,学会超参优化。

6、掌握集成优化思想,掌握高级的分类模型。

受众人群

业务支持部、IT系统部、大数据系统开发部、大数据分析中心、网络运维部等相关技术人员。

课程周期

  2天(12H)

课程大纲

标题

授课内容

一、预测建模基础

1. 数据建模六步法

(1) 选择模型:基于业务选择恰当的数据模型

(2) 属性筛选:选择对目标变量有显著影响的属性来建模

(3) 训练模型:采用合适的算法,寻找到最合适的模型参数

(4) 评估模型:进行评估模型的质量,判断模型是否可用

(5) 优化模型:如果评估结果不理想,则需要对模型进行优化

(6) 应用模型:如果评估结果满足要求,则可应用模型于业务场景

2. 数据挖掘常用的模型

(1) 数值预测模型:回归预测、时序预测等

(2) 分类预测模型:逻辑回归、决策树、神经网络、支持向量机等

(3) 市场细分:聚类、RFM、PCA等

(4) 产品推荐:关联分析、协同过滤等

(5) 产品优化:回归、随机效用等

(6) 产品定价:定价策略/最优定价等

3. 属性筛选/特征选择/变量降维

(1) 基于变量本身特征

(2) 基于相关性判断

(3) 因子合并(PCA等)

(4) IV值筛选(评分卡使用)

(5) 基于信息增益判断(决策树使用)

4. 训练模型及实现算法

(1) 模型原理

(2) 算法实现

5. 模型评估

(1) 评估指标

(2) 评估方法

(3) 过拟合评估

6. 模型优化

(1) 优化模型:选择新模型/修改模型

(2) 优化数据:新增显著自变量

(3) 优化公式:采用新的计算公式

7. 模型应用

(1) 模型解读

(2) 模型部署

(3) 模型应用

8. 好模型是优化出来的

二、分类模型评估

1. 三个方面评估:指标、方法、过拟合

2. 两大矩阵

(1) 混淆矩阵

(2) 代价矩阵

3. 六大指标

(1) 正确率Accuracy

(2) 查准率Precision

(3) 查全率Recall

(4) 特异度Specify

(5) F度量值(/)

(6) 提升指标lift

4. 三条曲线

(1) ROC曲线和AUC

(2) PR曲线和BEP

(3) KS曲线和KS值

5. 多分类模型评估指标

(1) 宏指标:macro_P, macro_R

(2) 宏指标:micro_P, micro_R

6. 模型评估方法

(1) 原始评估法

(2) 留出法(Hold-Out)

(3) 交叉验证法(k-fold cross validation)

(4) 自助采样法(Bootstrapping)

7. 其它评估

(1) 过拟合评估:学习曲线

(2) 残差评估:白噪声评估

三、逻辑回归

问题:如何评估客户购买产品的可能性?如何预测客户行为?

如何预测客户流失?银行如何实现欠贷风险控制?

1. 逻辑回归模型简介

2. 逻辑回归的种类

(1) 二项逻辑回归

(2) 多项逻辑回归

3. 逻辑回归方程解读

4. 带分类自变量的逻辑回归

5. 逻辑回归的算法实现及优化

(1) 迭代样本的随机选择

(2) 变化的学习率

6. 逻辑回归+正则项

7. 求解算法与惩罚项的互斥关系

8. 多元逻辑回归处理

(1) ovo

(2) ovr

9. 逻辑回归建模过程

案例:用sklearn库实现银行贷款违约预测

案例:订阅者用户的典型特征(二元逻辑回归)

案例:通信套餐的用户画像(多元逻辑回归)

四、决策树

1. 分类决策树简介

演练:识别银行欠货风险,提取欠贷者的特征

2. 决策树的三个关键问题

(1) 最优属性选择

① 熵、基尼系数

② 信息增益、信息增益率

(2) 属性最佳划分

① 多元划分与二元划分

② 连续变量最优划分

(3) 决策树修剪

① 剪枝原则

② 预剪枝与后剪枝

3. 构建决策树的算法

(1) C5.0、CHAID、CART、QUEST

(2) 各种算法的比较

4. 决策树的超参优化

5. 决策树的解读

6. 决策树建模过程

案例:商场酸奶购买用户特征提取

案例:客户流失预警与客户挽留

案例:识别拖欠银行货款者的特征,避免不良货款

案例:识别电信诈骗者嘴脸,让通信更安全

案例:电力窃漏用户自动识别

五、人工神经网络

1. 神经网络简介(ANN)

2. 神经元基本原理

(1) 加法器

(2) 激活函数

3. 神经网络的结构

(1) 隐藏层数量

(2) 神经元个数

4. 神经网络的建立步骤

5. 神经网络的关键问题

6. BP算法实现

7. MLP多层神经网络

案例:评估银行用户拖欠货款的概率

案例:神经网络预测产品销量

六、支持向量机(SVM)

1. 支持向量机简介

(1) 适用场景

2. 支持向量机原理

(1) 支持向量

(2) 最大边界超平面

3. 线性不可分处理

(1) 松弛系数

4. 非线性SVM分类

5. 常用核函数

(1) 线性核函数

(2) 多项式核

(3) 高斯RBF核

(4) 核函数的选择原则

七、模型集成优化篇

1. 模型的优化思想

2. 集成模型的框架

(1) Bagging

(2) Boosting

(3) Stacking

3. 集成算法的关键过程

(1) 弱分类器如何构建

(2) 组合策略:多个弱学习器如何形成强学习器

4. Bagging集成算法

(1) 数据/属性重抽样

(2) 决策依据:少数服从多数

(3) 随机森林RandomForest

5. Boosting集成算法

(1) 基于误分数据建模

(2) 样本选择权重更新

(3) 决策依据:加权投票

(4) AdaBoost模型

6. GBDT模型

7. XGBoost模型

8. LightGBM模型

八、案例实战

1. 客户流失预测和客户挽留模型

2. 银行欠贷风险预测模型

结束:课程总结与问题答疑。


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1