课程简介
针对数据分析产出遇到瓶颈的分析师,分享如何使用预测来指导业务,并且给出可解释性,这是保证数据分析师个人价值提升的必学内容,可同时保证分析师技能成长和业务产出提高。讲课清晰有条理/善于发现课程难点/培训经验丰富(五年以上)
课程收益
1. 学会python常用机器学习包sklearn和数据处理sql/pandas的应用
2. 学会如何使用机器学习做预测有全链路的理解
3. 如何在保证模型准确性的前提下保证可解释性
彩蛋:本人对机器学习的特征处理的一点小心得
培训对象
对于互联网企业:有2年工作经验的数据分析师;
对于所有企业:对预测和模型可解释性有需求的数据分析师
学员基础
(若对学员有前提技能要求,需在此处注明)
学员需要有python基础语法知识/熟练掌握sql/了解基础机器学习算法
课程周期
2天(12H)
课程大纲
时程 | 大纲内容 |
第一天 | 主题: 高阶hive-sql讲解 |
企业使用范围: 说明企业数据分析师在进行数据分析预处理过程中有哪些hive高阶函数可用,可以生成目标特征,并且节省数据处理时间 | |
理论介绍 1 开窗函数简介 2 常见分析函数 3 其他常用高阶函数 | |
主题: 数据挖掘标准流程 | |
企业使用范围: 说明企业在做数据挖掘项目的时候该如何进行,在任何一个节点都可以判断接下来的最优路径 | |
理论介绍 1 crisp-dm跨行业数据挖掘标准流程 2 各流程特点简介 3 数据挖掘失败原因盘点 | |
第一天/第二天 | 主题: python与分类算法概述 |
企业使用范围: 该项目为分类预测,故大概讲述一下分类算法原理和评估标准 | |
理论介绍 1 python常见包讲解 2 常见分类算法及实现 3 分类算法的评估 4 不均衡数据集的处理方法总结 | |
第二天 | 主题: 项目成果总结和业务输出 |
企业使用范围 介绍该项目对企业的贡献 | |
理论介绍 1 精准营销对业务的提升 2 模型产出的业务知识 3 项目重点总结和复盘 |