课程简介
随着大数据时代的到来,机器学习作为数据分析和人工智能领域的核心技术,其重要性日益凸显。通过让计算机系统从数据中自动学习并改进其性能,无需进行明确的编程,便能解决复杂的模式识别、预测和决策问题。在金融、医疗、电商、自动驾驶等众多领域,机器学习正引领着一场技术革命,极大地提升了业务效率和决策精准度。
在机器学习算法的实现过程中,Python语言凭借其简洁的语法、丰富的库资源以及强大的社区支持,成为了众多开发者和数据科学家的首选。Python不仅极大地简化了机器学习模型的构建、训练和评估过程。还使得用Python编写的机器学习算法能够轻松部署到各种环境中,实现真正的业务价值。
本课程全面覆盖了机器学习的基础概念与常用算法原理,并进一步指导学员学会利用Python及其相关库来实现、优化以及评估机器学习模型。同时介绍了经典的线性回归、决策树、支持向量机,到前沿的深度学习网络等算法,结合大量真实案例和动手实践,帮助学员在实战环境中逐步积累解决复杂问题的经验,从而培养出数据驱动的思维方式,并有效提升解决实际问题的能力。
课程收益
1、熟悉常见的机器学习的算法。
2、掌握机器学习的算法原理,以及数据推导。
3、学会使用Python来实现机器学习算法,以及优化算法。
4、掌握scikit-learn扩展库来实现机器学习算法。
受众人群
IT系统部、大数据系统开发部、大数据建模等IT技术人员
课程周期
3天(18H)
课程大纲
标题 | 授课内容 |
一、机器学习基础 | 1. 机器学习简介 2. 机器学习的种类 (1) 监督学习/无监督学习/半监督学习/强化学习 (2) 批量学习和在线学习 (3) 基于实例与基于模型 3. 机器学习的主要战挑 (1) 数据量不足 (2) 数据质量差 (3) 无关特征 (4) 过拟合/拟合不足 4. 机器学习任务 (1) 监督:分类、回归 (2) 无监督:聚类、降维、关联规则 5. 机器学习基本过程 6. 机器学习常用库 |
二、预测建模基础 | 1. 数据建模六步法 (1) 选择模型:基于业务选择恰当的数据模型 (2) 属性筛选:选择对目标变量有显著影响的属性来建模 (3) 训练模型:采用合适的算法,寻找到最合适的模型参数 (4) 评估模型:进行评估模型的质量,判断模型是否可用 (5) 优化模型:如果评估结果不理想,则需要对模型进行优化 (6) 应用模型:如果评估结果满足要求,则可应用模型于业务场景 2. 数据挖掘常用的模型 (1) 数值预测模型:回归预测、时序预测等 (2) 分类预测模型:逻辑回归、决策树、神经网络、支持向量机等 (3) 市场细分:聚类、RFM、PCA等 (4) 产品推荐:关联分析、协同过滤等 (5) 产品优化:回归、随机效用等 (6) 产品定价:定价策略/最优定价等 3. 属性筛选/特征选择/变量降维 (1) 基于变量本身特征 (2) 基于相关性判断 (3) 因子合并(PCA等) (4) IV值筛选(评分卡使用) (5) 基于信息增益判断(决策树使用) 4. 训练模型及实现算法 (1) 模型原理 (2) 算法实现 5. 模型评估 (1) 评估指标 (2) 评估方法 (3) 过拟合评估 6. 模型优化 (1) 优化模型:选择新模型/修改模型 (2) 优化数据:新增显著自变量 (3) 优化公式:采用新的计算公式 7. 模型应用 (1) 模型解读 (2) 模型部署 (3) 模型应用 8. 好模型是优化出来的 |
三、特征工程处理 | 1. 数据预处理的主要任务 (1) 数据集成:多个数据集的合并 (2) 数据清洗:异常值的处理 (3) 数据处理:数据筛选、数据精简、数据平衡 (4) 变量处理:变量变换、变量派生、变量精简 (5) 数据归约:实现降维,避免维灾难 2. 数据集成 (1) 数据追加(添加数据) (2) 变量合并(添加变量) 3. 数据清洗(异常数据处理) (1) 取值范围限定 (2) 重复值处理 (3) 无效值/错误值处理 (4) 缺失值处理 (5) 离群值/极端值处理 4. 特征工程 (1) 变量变换:原变量取值更新,比如标准化 (2) 变量派生:根据旧变量生成新的变量 (3) 类型转换:数值型与类别型相互转换 (4) 特征选择:选择合适的自变量来建模 (5) 变量合并:多个变量合并,减少变量个数 5. 变量变换 (1) 为什么要做变量变换? (2) 函数转换:中心化、对数变换、平方根变换… (3) 标准化转换:min-max、mean、max absolution、Z-score… (4) 正则化转换:将数据缩放到单位范式(L1/L2变换) (5) 正态化转换:将变量转换成正态分布(Box-Cox、Yeo-Johnson) 6. 类型转换 (1) 数字化:将字符串转换成数字 (2) 离散化:将数值型转换成类别型 (3) 哑变量化:将类别型转换成数值型 7. 特征选择 (1) 特征选择模式:Filter/Wrapper/Embedded (2) Filter特征选择:选择重要变量,剔除不重要的变量 ① 从变量本身考虑:方差阈值法 ② 从输入变量与目标变量的相关性考虑 8. 变量合并 (1) 因子分析(FA) ① 因子分析的原理 ② 因子个数如何选择 ③ 如何解读因子含义 (2) 主成分分析(PCA) 案例:提取影响电信客户流失的主成分分析 |
四、回归算法实现 | 1. 建模的本质,其实是一个最优化问题 2. 回归模型的基础 3. 基本概念:损失函数 4. 线性回归常用算法 (1) 普通最小二乘法OLS (2) 梯度下降算法 (3) 牛顿法/拟牛顿法 5. 最小二乘法 (1) 数学推导 (2) OLS存在的问题 6. 过拟合解决方法:正则化 (1) 岭回归(Ridge) (2) 套索回归Lasso (3) ElasticNet回归 (4) 各种算法的适用场景 7. 超大规模数据集的回归模型:迭代算法 (1) 梯度概念 (2) 梯度下降/上升算法 (3) 批量梯度BGD/随机梯度SGD/小批量梯度MBGD (4) 学习率的影响 (5) 早期停止法 8. 梯度算法的关键问题 9. 牛顿法/拟牛顿法 (1) 泰勒公式(Taylor) (2) 牛顿法(Newton) (3) 拟牛顿法(Quasi-Newton)的优化 (4) DFP/BFGS/L-BFGS 10. 算法比较 |
五、逻辑回归算法 | 1. 逻辑回归基础 2. LR的常用算法 (1) 最大似然估计法 (2) 梯度算法 (3) 牛顿法 3. 最大似然估计法 (1) 似然函数/损失函数 (2) 数学推导 4. 模型优化 (1) 迭代样本的随机选择 (2) 变化的学习率 5. 逻辑回归+正则项 6. 求解算法与惩罚项的关系 7. 多元逻辑回归处理 (1) ovo (2) ovr (3) 优缺点比较 8. 逻辑回归建模实战 案例:用sklearn库实现银行贷款违约预测 案例:订阅者用户的典型特征(二元逻辑回归) 案例:通信套餐的用户画像(多元逻辑回归) |
六、决策树算法 | 1. 决策树简介 演练:识别银行欠货风险,提取欠贷者的特征 2. 决策树的三个关键问题 (1) 最优属性选择 ① 熵、基尼系数 ② 信息增益、信息增益率 (2) 属性最佳划分 ① 多元划分与二元划分 ② 连续变量最优划分 (3) 决策树修剪 ① 剪枝原则 ② 预剪枝与后剪枝 3. 构建决策树的算法 (1) ID3、C4.5、C5.0 (2) CART 4. 决策树的超参优化 5. 决策树的解读 6. 决策树建模过程 案例:商场酸奶购买用户特征提取 案例:客户流失预警与客户挽留 案例:识别拖欠银行货款者的特征,避免不良货款 案例:识别电信诈骗者嘴脸,让通信更安全 案例:电力窃漏用户自动识别 |
七、神经网络算法 | 1. 神经网络简介(ANN) 2. 神经元基本原理 (1) 加法器 (2) 激活函数 3. 神经网络的结构 (1) 隐藏层数量 (2) 神经元个数 4. 神经网络的建立步骤 5. 神经网络的关键问题 6. BP算法实现 7. MLP多层神经网络 8. 学习率的设置 案例:评估银行用户拖欠货款的概率 案例:神经网络预测产品销量 |
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员