Python机器学习算法实战
Ian Fu 查看讲师
百林哲咨询(北京)有限公司专家团队成员
曾任华为技术专家,五篇技术专利,工作期间获得华为数项奖项,曾在英国、日本、荷兰等国家做项目,对大数据有深入的研究。
浏览:333次
详情 DETAILS

课程简介

随着大数据时代的到来,机器学习作为数据分析和人工智能领域的核心技术,其重要性日益凸显。通过让计算机系统从数据中自动学习并改进其性能,无需进行明确的编程,便能解决复杂的模式识别、预测和决策问题。在金融、医疗、电商、自动驾驶等众多领域,机器学习正引领着一场技术革命,极大地提升了业务效率和决策精准度。

在机器学习算法的实现过程中,Python语言凭借其简洁的语法、丰富的库资源以及强大的社区支持,成为了众多开发者和数据科学家的首选。Python不仅极大地简化了机器学习模型的构建、训练和评估过程。使得用Python编写的机器学习算法能够轻松部署到各种环境中,实现真正的业务价值。

本课程全面覆盖了机器学习的基础概念与常用算法原理,并进一步指导学员学会利用Python及其相关库来实现、优化以及评估机器学习模型。同时介绍了经典的线性回归、决策树、支持向量机,到前沿的深度学习网络等算法,结合大量真实案例和动手实践,帮助学员在实战环境中逐步积累解决复杂问题的经验,从而培养出数据驱动的思维方式,并有效提升解决实际问题的能力。

课程收益

1、熟悉常见的机器学习的算法。

2、掌握机器学习的算法原理,以及数据推导。

3、学会使用Python来实现机器学习算法,以及优化算法。

4、掌握scikit-learn扩展库来实现机器学习算法。

受众人群

IT系统部、大数据系统开发部、大数据建模等IT技术人员

课程周期

 3天(18H

课程大纲

标题

授课内容

一、机器学习基础

1. 机器学习简介

2. 机器学习的种类

(1) 监督学习/无监督学习/半监督学习/强化学习

(2) 批量学习和在线学习

(3) 基于实例与基于模型

3. 机器学习的主要战挑

(1) 数据量不足

(2) 数据质量差

(3) 无关特征

(4) 过拟合/拟合不足

4. 机器学习任务

(1) 监督:分类、回归

(2) 无监督:聚类、降维、关联规则

5. 机器学习基本过程

6. 机器学习常用库

二、预测建模基础

1. 数据建模六步法

(1) 选择模型:基于业务选择恰当的数据模型

(2) 属性筛选:选择对目标变量有显著影响的属性来建模

(3) 训练模型:采用合适的算法,寻找到最合适的模型参数

(4) 评估模型:进行评估模型的质量,判断模型是否可用

(5) 优化模型:如果评估结果不理想,则需要对模型进行优化

(6) 应用模型:如果评估结果满足要求,则可应用模型于业务场景

2. 数据挖掘常用的模型

(1) 数值预测模型:回归预测、时序预测等

(2) 分类预测模型:逻辑回归、决策树、神经网络、支持向量机等

(3) 市场细分:聚类、RFM、PCA等

(4) 产品推荐:关联分析、协同过滤等

(5) 产品优化:回归、随机效用等

(6) 产品定价:定价策略/最优定价等

3. 属性筛选/特征选择/变量降维

(1) 基于变量本身特征

(2) 基于相关性判断

(3) 因子合并(PCA等)

(4) IV值筛选(评分卡使用)

(5) 基于信息增益判断(决策树使用)

4. 训练模型及实现算法

(1) 模型原理

(2) 算法实现

5. 模型评估

(1) 评估指标

(2) 评估方法

(3) 过拟合评估

6. 模型优化

(1) 优化模型:选择新模型/修改模型

(2) 优化数据:新增显著自变量

(3) 优化公式:采用新的计算公式

7. 模型应用

(1) 模型解读

(2) 模型部署

(3) 模型应用

8. 好模型是优化出来的

三、特征工程处理

1. 数据预处理的主要任务

(1) 数据集成:多个数据集的合并

(2) 数据清洗:异常值的处理

(3) 数据处理:数据筛选、数据精简、数据平衡

(4) 变量处理:变量变换、变量派生、变量精简

(5) 数据归约:实现降维,避免维灾难

2. 数据集成

(1) 数据追加(添加数据)

(2) 变量合并(添加变量)

3. 数据清洗(异常数据处理)

(1) 取值范围限定

(2) 重复值处理

(3) 无效值/错误值处理

(4) 缺失值处理

(5) 离群值/极端值处理

4. 特征工程

(1) 变量变换:原变量取值更新,比如标准化

(2) 变量派生:根据旧变量生成新的变量

(3) 类型转换:数值型与类别型相互转换

(4) 特征选择:选择合适的自变量来建模

(5) 变量合并:多个变量合并,减少变量个数

5. 变量变换

(1) 为什么要做变量变换?

(2) 函数转换:中心化、对数变换、平方根变换

(3) 标准化转换:min-max、mean、max absolution、Z-score…

(4) 正则化转换:将数据缩放到单位范式(L1/L2变换)

(5) 正态化转换:将变量转换成正态分布(Box-Cox、Yeo-Johnson)

6. 类型转换

(1) 数字化:将字符串转换成数字

(2) 离散化:将数值型转换成类别型

(3) 哑变量化:将类别型转换成数值型

7. 特征选择

(1) 特征选择模式:Filter/Wrapper/Embedded

(2) Filter特征选择:选择重要变量,剔除不重要的变量

① 从变量本身考虑:方差阈值法

② 从输入变量与目标变量的相关性考虑

8. 变量合并

(1) 因子分析(FA)

① 因子分析的原理

② 因子个数如何选择

③ 如何解读因子含义

(2) 主成分分析(PCA)

案例:提取影响电信客户流失的主成分分析

四、回归算法实现

1. 建模的本质,其实是一个最优化问题

2. 回归模型的基础

3. 基本概念:损失函数

4. 线性回归常用算法

(1) 普通最小二乘法OLS

(2) 梯度下降算法

(3) 牛顿法/拟牛顿法

5. 最小二乘法

(1) 数学推导

(2) OLS存在的问题

6. 过拟合解决方法:正则化

(1) 岭回归(Ridge)

(2) 套索回归Lasso

(3) ElasticNet回归

(4) 各种算法的适用场景

7. 超大规模数据集的回归模型:迭代算法

(1) 梯度概念

(2) 梯度下降/上升算法

(3) 批量梯度BGD/随机梯度SGD/小批量梯度MBGD

(4) 学习率的影响

(5) 早期停止法

8. 梯度算法的关键问题

9. 牛顿法/拟牛顿法

(1) 泰勒公式(Taylor)

(2) 牛顿法(Newton)

(3) 拟牛顿法(Quasi-Newton)的优化

(4) DFP/BFGS/L-BFGS

10. 算法比较

五、逻辑回归算法

1. 逻辑回归基础

2. LR的常用算法

(1) 最大似然估计法

(2) 梯度算法

(3) 牛顿法

3. 最大似然估计法

(1) 似然函数/损失函数

(2) 数学推导

4. 模型优化

(1) 迭代样本的随机选择

(2) 变化的学习率

5. 逻辑回归+正则项

6. 求解算法与惩罚项的关系

7. 多元逻辑回归处理

(1) ovo

(2) ovr

(3) 优缺点比较

8. 逻辑回归建模实战

案例:用sklearn库实现银行贷款违约预测

案例:订阅者用户的典型特征(二元逻辑回归)

案例:通信套餐的用户画像(多元逻辑回归)

六、决策树算法

1. 决策树简介

演练:识别银行欠货风险,提取欠贷者的特征

2. 决策树的三个关键问题

(1) 最优属性选择

① 熵、基尼系数

② 信息增益、信息增益率

(2) 属性最佳划分

① 多元划分与二元划分

② 连续变量最优划分

(3) 决策树修剪

① 剪枝原则

② 预剪枝与后剪枝

3. 构建决策树的算法

(1) ID3、C4.5、C5.0

(2) CART

4. 决策树的超参优化

5. 决策树的解读

6. 决策树建模过程

案例:商场酸奶购买用户特征提取

案例:客户流失预警与客户挽留

案例:识别拖欠银行货款者的特征,避免不良货款

案例:识别电信诈骗者嘴脸,让通信更安全

案例:电力窃漏用户自动识别

七、神经网络算法

1. 神经网络简介(ANN)

2. 神经元基本原理

(1) 加法器

(2) 激活函数

3. 神经网络的结构

(1) 隐藏层数量

(2) 神经元个数

4. 神经网络的建立步骤

5. 神经网络的关键问题

6. BP算法实现

7. MLP多层神经网络

8. 学习率的设置

案例:评估银行用户拖欠货款的概率

案例:神经网络预测产品销量


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1