Python机器学习算法实战

Ian Fu 查看讲师

百林哲咨询（北京）有限公司专家团队成员

曾任华为技术专家，五篇技术专利，工作期间获得华为数项奖项，曾在英国、日本、荷兰等国家做项目，对大数据有深入的研究。

浏览：1119次

详情 DETAILS

课程简介

随着大数据时代的到来，机器学习作为数据分析和人工智能领域的核心技术，其重要性日益凸显。通过让计算机系统从数据中自动学习并改进其性能，无需进行明确的编程，便能解决复杂的模式识别、预测和决策问题。在金融、医疗、电商、自动驾驶等众多领域，机器学习正引领着一场技术革命，极大地提升了业务效率和决策精准度。

在机器学习算法的实现过程中，Python语言凭借其简洁的语法、丰富的库资源以及强大的社区支持，成为了众多开发者和数据科学家的首选。Python不仅极大地简化了机器学习模型的构建、训练和评估过程。还使得用Python编写的机器学习算法能够轻松部署到各种环境中，实现真正的业务价值。

本课程全面覆盖了机器学习的基础概念与常用算法原理，并进一步指导学员学会利用Python及其相关库来实现、优化以及评估机器学习模型。同时介绍了经典的线性回归、决策树、支持向量机，到前沿的深度学习网络等算法，结合大量真实案例和动手实践，帮助学员在实战环境中逐步积累解决复杂问题的经验，从而培养出数据驱动的思维方式，并有效提升解决实际问题的能力。

课程收益

1、熟悉常见的机器学习的算法。

2、掌握机器学习的算法原理，以及数据推导。

3、学会使用Python来实现机器学习算法，以及优化算法。

4、掌握scikit-learn扩展库来实现机器学习算法。

受众人群

IT系统部、大数据系统开发部、大数据建模等IT技术人员

课程周期

3天（18H）

课程大纲

标题	授课内容
一、机器学习基础	1. 机器学习简介 2. 机器学习的种类 (1) 监督学习/无监督学习/半监督学习/强化学习 (2) 批量学习和在线学习 (3) 基于实例与基于模型 3. 机器学习的主要战挑 (1) 数据量不足 (2) 数据质量差 (3) 无关特征 (4) 过拟合/拟合不足 4. 机器学习任务 (1) 监督：分类、回归 (2) 无监督：聚类、降维、关联规则 5. 机器学习基本过程 6. 机器学习常用库
二、预测建模基础	1. 数据建模六步法 (1) 选择模型：基于业务选择恰当的数据模型 (2) 属性筛选：选择对目标变量有显著影响的属性来建模 (3) 训练模型：采用合适的算法，寻找到最合适的模型参数 (4) 评估模型：进行评估模型的质量，判断模型是否可用 (5) 优化模型：如果评估结果不理想，则需要对模型进行优化 (6) 应用模型：如果评估结果满足要求，则可应用模型于业务场景 2. 数据挖掘常用的模型 (1) 数值预测模型：回归预测、时序预测等 (2) 分类预测模型：逻辑回归、决策树、神经网络、支持向量机等 (3) 市场细分：聚类、RFM、PCA等 (4) 产品推荐：关联分析、协同过滤等 (5) 产品优化：回归、随机效用等 (6) 产品定价：定价策略/最优定价等 3. 属性筛选/特征选择/变量降维 (1) 基于变量本身特征 (2) 基于相关性判断 (3) 因子合并（PCA等） (4) IV值筛选（评分卡使用） (5) 基于信息增益判断（决策树使用） 4. 训练模型及实现算法 (1) 模型原理 (2) 算法实现 5. 模型评估 (1) 评估指标 (2) 评估方法 (3) 过拟合评估 6. 模型优化 (1) 优化模型：选择新模型/修改模型 (2) 优化数据：新增显著自变量 (3) 优化公式：采用新的计算公式 7. 模型应用 (1) 模型解读 (2) 模型部署 (3) 模型应用 8. 好模型是优化出来的
三、特征工程处理	1. 数据预处理的主要任务 (1) 数据集成：多个数据集的合并 (2) 数据清洗：异常值的处理 (3) 数据处理：数据筛选、数据精简、数据平衡 (4) 变量处理：变量变换、变量派生、变量精简 (5) 数据归约：实现降维，避免维灾难 2. 数据集成 (1) 数据追加（添加数据） (2) 变量合并（添加变量） 3. 数据清洗（异常数据处理） (1) 取值范围限定 (2) 重复值处理 (3) 无效值/错误值处理 (4) 缺失值处理 (5) 离群值/极端值处理 4. 特征工程 (1) 变量变换：原变量取值更新，比如标准化 (2) 变量派生：根据旧变量生成新的变量 (3) 类型转换：数值型与类别型相互转换 (4) 特征选择：选择合适的自变量来建模 (5) 变量合并：多个变量合并，减少变量个数 5. 变量变换 (1) 为什么要做变量变换？ (2) 函数转换：中心化、对数变换、平方根变换… (3) 标准化转换：min-max、mean、max absolution、Z-score… (4) 正则化转换：将数据缩放到单位范式(L1/L2变换) (5) 正态化转换：将变量转换成正态分布(Box-Cox、Yeo-Johnson) 6. 类型转换 (1) 数字化：将字符串转换成数字 (2) 离散化：将数值型转换成类别型 (3) 哑变量化：将类别型转换成数值型 7. 特征选择 (1) 特征选择模式：Filter/Wrapper/Embedded (2) Filter特征选择：选择重要变量，剔除不重要的变量 ① 从变量本身考虑：方差阈值法 ② 从输入变量与目标变量的相关性考虑 8. 变量合并 (1) 因子分析（FA） ① 因子分析的原理 ② 因子个数如何选择 ③ 如何解读因子含义 (2) 主成分分析（PCA）案例：提取影响电信客户流失的主成分分析

四、回归算法实现	1. 建模的本质，其实是一个最优化问题 2. 回归模型的基础 3. 基本概念：损失函数 4. 线性回归常用算法 (1) 普通最小二乘法OLS (2) 梯度下降算法 (3) 牛顿法/拟牛顿法 5. 最小二乘法 (1) 数学推导 (2) OLS存在的问题 6. 过拟合解决方法：正则化 (1) 岭回归（Ridge） (2) 套索回归Lasso (3) ElasticNet回归 (4) 各种算法的适用场景 7. 超大规模数据集的回归模型：迭代算法 (1) 梯度概念 (2) 梯度下降/上升算法 (3) 批量梯度BGD/随机梯度SGD/小批量梯度MBGD (4) 学习率的影响 (5) 早期停止法 8. 梯度算法的关键问题 9. 牛顿法/拟牛顿法 (1) 泰勒公式(Taylor) (2) 牛顿法(Newton) (3) 拟牛顿法(Quasi-Newton)的优化 (4) DFP/BFGS/L-BFGS 10. 算法比较
五、逻辑回归算法	1. 逻辑回归基础 2. LR的常用算法 (1) 最大似然估计法 (2) 梯度算法 (3) 牛顿法 3. 最大似然估计法 (1) 似然函数/损失函数 (2) 数学推导 4. 模型优化 (1) 迭代样本的随机选择 (2) 变化的学习率 5. 逻辑回归+正则项 6. 求解算法与惩罚项的关系 7. 多元逻辑回归处理 (1) ovo (2) ovr (3) 优缺点比较 8. 逻辑回归建模实战案例：用sklearn库实现银行贷款违约预测案例：订阅者用户的典型特征（二元逻辑回归）案例：通信套餐的用户画像（多元逻辑回归）
六、决策树算法	1. 决策树简介演练：识别银行欠货风险，提取欠贷者的特征 2. 决策树的三个关键问题 (1) 最优属性选择 ① 熵、基尼系数 ② 信息增益、信息增益率 (2) 属性最佳划分 ① 多元划分与二元划分 ② 连续变量最优划分 (3) 决策树修剪 ① 剪枝原则 ② 预剪枝与后剪枝 3. 构建决策树的算法 (1) ID3、C4.5、C5.0 (2) CART 4. 决策树的超参优化 5. 决策树的解读 6. 决策树建模过程案例：商场酸奶购买用户特征提取案例：客户流失预警与客户挽留案例：识别拖欠银行货款者的特征，避免不良货款案例：识别电信诈骗者嘴脸，让通信更安全案例：电力窃漏用户自动识别
七、神经网络算法	1. 神经网络简介（ANN） 2. 神经元基本原理 (1) 加法器 (2) 激活函数 3. 神经网络的结构 (1) 隐藏层数量 (2) 神经元个数 4. 神经网络的建立步骤 5. 神经网络的关键问题 6. BP算法实现 7. MLP多层神经网络 8. 学习率的设置案例：评估银行用户拖欠货款的概率案例：神经网络预测产品销量