Python数据建模及模型优化(回归篇)
Ian Fu 查看讲师
百林哲咨询(北京)有限公司专家团队成员
曾任华为技术专家,五篇技术专利,工作期间获得华为数项奖项,曾在英国、日本、荷兰等国家做项目,对大数据有深入的研究。
浏览:313次
详情 DETAILS

课程简介

数据建模作为连接数据与洞察的桥梁,其核心价值在于能够揭示数据背后的隐藏规律,预测未来趋势,优化决策过程,从而为企业和社会带来显著的竞争优势和经济效益。通过构建精确的数据模型,企业可以更有效地识别市场机会、控制风险、提升运营效率,并在竞争中占据先机。

Python,凭借其强大的数据处理能力、丰富的数据分析库以及灵活易用的特性,成为了数据建模与模型优化的理想选择。这些特性使得Python能够处理大规模数据集,快速迭代模型,并通过调整模型参数、选择最优特征、应用正则化技术等手段,实现模型性能的显著提升。

本课程主要讲解如何利用Python进行数据建模,建立数学模型,来拟合业务的各个要素之间的关系,模拟业务的未来发展和变化。基于真实的业务问题,在数据建模的标准过程指导下,从模型选择到特征工程,从训练模型到算法实现,从模型评估到模型优化,再到模型解读及模型应用,全方位提升学员在数据科学领域的实战能力,为学员在未来职业生涯中成为数据建模与优化的专家奠定坚实基础。

课程收益

1、掌握数据建模的标准流程。

2、掌握数据预处理常用的方法,包括特征筛选、变量合并等。

3、掌握回归模型的原理,以及算法实现。

4、熟练使用模型的评估指标,评估方法,以及过拟合的评估。

5、掌握模型优化的基本措施,学会欠拟合的解决方法。

6、学会过拟合评估,学会使用有正则项来解决过拟合问题。

7、熟练使用sklearn库的常用回归类。

8、学会超参优化的常用方法,能够设置最优超参。

受众人群

业务支持部、数据分析部、系统设计部、系统开发部、网络运维部等相关技术人员。

课程周期

  2天(12H)

课程大纲

标题

授课内容

一、预测建模基础

1. 数据建模六步法

(1) 选择模型:基于业务选择恰当的数据模型

(2) 属性筛选:选择对目标变量有显著影响的属性来建模

(3) 训练模型:采用合适的算法,寻找到最合适的模型参数

(4) 评估模型:进行评估模型的质量,判断模型是否可用

(5) 优化模型:如果评估结果不理想,则需要对模型进行优化

(6) 应用模型:如果评估结果满足要求,则可应用模型于业务场景

2. 数据挖掘常用的模型

(1) 数值预测模型:回归预测、时序预测等

(2) 分类预测模型:逻辑回归、决策树、神经网络、支持向量机等

(3) 市场细分:聚类、RFM、PCA等

(4) 产品推荐:关联分析、协同过滤等

(5) 产品优化:回归、随机效用等

(6) 产品定价:定价策略/最优定价等

3. 属性筛选/特征选择/变量降维

(1) 基于变量本身特征

(2) 基于相关性判断

(3) 因子合并(PCA等)

(4) IV值筛选(评分卡使用)

(5) 基于信息增益判断(决策树使用)

4. 训练模型及实现算法

(1) 模型原理

(2) 算法实现

5. 模型评估

(1) 评估指标

(2) 评估方法

(3) 过拟合评估

6. 模型优化

(1) 优化模型:选择新模型/修改模型

(2) 优化数据:新增显著自变量

(3) 优化公式:采用新的计算公式

7. 模型应用

(1) 模型解读

(2) 模型部署

(3) 模型应用

8. 好模型是优化出来的

二、回归模型评估

1. 三个基本概念:SST、SSR、SSE

2. 三个方面评估:指标、方法、过拟合

3. 拟合程度指标:/

4. 预测值误差指标:MAE/RMSE/MAPE

5. 信息损失准则指标:AIC/BIC/HQIC

6. 评估方法

(1) 留出法(Hold-Out)

(2) 交叉验证法(k-fold cross validation)

(3) 自助采样法(Bootstrapping)

7. 其它评估

(1) 过拟合评估:学习曲线

(2) 残差评估:白噪声评估

三、影响因素分析

问题:如何选择合适的属性来进行建模预测?如何做特征选择/特征降维?

1. 属性筛选/变量降维的常用方法

2. 影响因素分析常用方法:相关/方差/卡方

3. 相关分析(衡量变量间的线性相关性)

问题:这两个属性是否会相互影响?影响程度大吗?

(1) 相关分析简介

(2) 相关分析的三个种类

① 简单相关分析

② 偏相关分析

(3) 相关系数的三种计算公式

① Pearson相关系数

② Spearman相关系数

③ Kendall相关系数

(4) 相关分析的假设检验

(5) 相关分析的四个基本步骤

演练:体重与腰围的关系

演练:营销费用会影响销售额吗

演练:网龄与消费水平的关系

(6) 偏相关分析

① 偏相关原理:排除不可控因素后的两变量的相关性

② 偏相关系数的计算公式

③ 偏相关分析的适用场景

4. 方差分析(衡量类别变量与数据变量的相关性)

问题:哪些才是影响销量的关键因素?主要因素是哪些?次要因素是哪些?

(1) 方差分析的应用场景

(2) 方差分析原理

(3) 方差分析前提:齐性检验

(4) 方差分析的三个种类:单因素/多因素/协方差

(5) 方差分析的四个步骤

(6) 分析结果解读要点

演练:终端摆放位置与终端销量有关吗

演练:客户学历对消费水平的影响分析

演练:广告形式和价格是影响终端销量的关键因素吗

演练:营业员的性别、技能级别对产品销量有影响吗

演练:寻找影响产品销量的关键因素

(7) 多因素方差分析原理

(8) 多因素方差分析的作用

(9) 多因素方差结果的解读

演练:广告形式、地区对销量的影响因素分析

(10) 协方差分析原理

(11) 协方差分析的适用场景

演练:排除收入后,网龄对消费水平的影响大小分析

5. 列联分析/卡方检验(两类别变量的相关性分析)

(1) 卡方检验应用场景

(2) 交叉表与列联表

(3) 计数值与期望值

(4) 卡方检验的原理

(5) 卡方检验的几个计算公式

(6) 列联表分析的适用场景

案例:套餐类型对客户流失的影响分析

案例:学历对业务套餐偏好的影响分析

案例:银行用户违约的影响因素分析

6. 属性重要程度排序/筛选

四、线性回归模型

问题:如何预测产品的销量/销售金额?

1. 常用数值预测的模型

(1) 通用预测模型:回归模型

2. 线性回归应用场景

3. 线性回归模型种类

(1) 一元线性回归

(2) 多元线性回归

4. 线性回归建模过程

5. 带分类变量的回归建模

6. 回归模型的质量评估

7. 回归方程的解读

五、回归算法实现

1. 基本概念

(1) 损失函数

2. 普通最小二乘法OLS

(1) 数学推导

(2) OLS存在的问题

3. 梯度下降算法

(1) 梯度概念

(2) 梯度下降/上升算法

(3) 批量梯度/随机梯度/小批量梯度

(4) 学习率的影响

(5) 早期停止法

4. 牛顿法/拟牛顿法

(1) 泰勒公式(Taylor)

(2) 牛顿法(Newton)

(3) 拟牛顿法(Quasi-Newton)的优化

(4) DFP/BFGS/L-BFGS

5. 算法比较-优缺点

六、回归模型优化

1. 回归分析的基本原理

(1) 三个基本概念:总变差、回归变差、剩余变差

(2) 方程的显著性检验:是否可以做回归分析?

(3) 因素的显著性检验:自变量是否可用?

(4) 拟合优度检验:回归模型的质量评估?

(5) 理解标准误差的含义:预测的准确性?

2. 欠拟合解决:多项式回归

(1) 剔除离群值

(2) 剔除非显著因素

(3) 非线性关系检验

(4) 相互作用检验

(5) 共线性检验

(6) 检验误差项

案例:销量预测模型优化示例

3. 过拟合解决:正则项

(1) 岭回归(Ridge)

(2) 套索回归(Lasso)

(3) 弹性网络回归(ElasticNet)

4. 超参优化

(1) 手动交叉cross_val_score

(2) 交叉验证RidgeCV/LassCV/ElasticNetCV

(3) 网格搜索GridSearchCV

(4) 随机搜索RandomizedSearchCV

(5) 贝叶斯搜索BayesSearchCV

七、自定义回归模型

1. 自定义回归模型

2. 模型参数最优法方法

(1) 全局优化/暴力破解brute

(2) 局部优化fmin

(3) 有约束优化minimize

3. 好模型都是优化出来的

案例:餐厅客流量进行建模及模型优化

4. 基于回归季节模型

(1) 季节性回归模型的参数

(2) 相加模型

(3) 相乘模型

(4) 模型解读/模型含义

案例:美国航空旅客里程的季节性趋势分析

5. 新产品预测与S曲线

(1) 产品累计销量的S曲线模型

(2) 如何评估销量增长的上限以及拐点

(3) 珀尔曲线

(4) 龚铂兹曲线

案例:预测IPAD的销售增长拐点,以及销量上限

八、案例实战

1. 客户消费金额预测模型

2. 房价预测模型及优化

3. 结束:课程总结与问题答疑。


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1