您当前的位置:首页>课程>Python+Spark数据挖掘实战培训

Python+Spark数据挖掘实战培训

浏览:1268
分享

Gavin Read more

百林哲咨询(北京)有限公司专家团队成员

现就职于Teradata任大数据架构师,先后服务于北京大学软件研究所、高德软件、阿里巴巴等企业,《Hadoop 应用开发技术详解》的作者,《海量数据基于记录级别的容错》专利,擅长 MR 开发,基于 MR 的算法开发。

简介

本课程是关于Python+Spark与深度学习实战的一门课程。本课程讲解Python+Spark中各种概念、操作和使用方法,针对Python+Spark的基础知识,在传统数据分析中应用、CNN和RNN都进行详细讲解,并且给出了丰富的深度学习模型实战

目标

1.学员们能够在短时间内掌握深度学习原理;

2.学会使用Python+Spark构建深度学习网络的技巧和方法;

3.能够在图像识别、序列预测等深度学习项目上迅速入手。

课程时长

3天(18H)

受众人群

本课程适合从事数据分析、数据挖掘、大数据分析师和算法工程师等相关方面工作的学员。

分享提纲

第一天

一、数据挖掘入门介绍

1.1人工智能概述

1.2什么是机器学习

1.3机器学习算法分类

1.4机器学习开发流程

1.5学习框架和资料介绍

1.6可用数据集

1.7sklearn数据集使用

二、数据挖掘介绍

2.1数据挖掘技术介绍

2.2数据挖掘应用场景介绍

2.3数据挖掘常用的算法介绍

2.4数据挖掘应用架构

2.5数据挖掘流程CRISP-DM模型介绍

2.6数据挖掘流程方法论介绍

三、数据特征工程构建

3.1 数据特征工程构建方法论

3.2字典特征抽取

3.3文本特征抽取CountVectorizer

3.4中文文本特征抽取

3.5文本特征抽取TfidfVevtorizer

3.6数据预处理-归一化

3.7数据预处理-标准化

3.8什么是降维

3.9删除低方差特征与相关系数

3.10instacart降维案例

3.11主成分分析

四、核心数据挖掘算法详解和实战

4.1转换器与预估器

4.2KNN算法

4.3模型选择与调优

4.4朴素贝叶斯算法对文本分类

4.5朴素贝叶斯算法原理

4.6认识决策树

4.7决策树算法对鸢尾花分类

4.8泰坦尼克号乘客分类案例流程分析

4.9泰坦尼克号案例代码实现

4.10随机森林算法原理和调优

第二天

五、模型优化实战

5.1损失函数

5.2线性模型

5.3优化方法1-正规方程

5.4梯度下降优化器

5.5正规方程与梯度下降对比

5.6优化方法2-梯度下降

5.7逻辑回归原理

5.8岭回归

5.9过拟合与欠拟合

5.10模型保存与加载

5.11ROC曲线与AUC指标

5.12精确率、召回率、F1-score

5.13逻辑回归分类案例实战

5.14聚类的模型评估

5.15KMeans算法原理

六、Spark使用实战 

6.1Spark的编程模型

6.2Spark编程模型解析

6.3Partition实现机制

6.4RDD的特点、操作、依赖关系

6.5Transformation RDD详解

6.6Action RDD详解

6.7Spark的累加器详解

6.8Spark的广播变量详解

6.9Spark容错机制

6.10lineage和checkpoint详解

6.11Spark的运行方式

6.12Spark的Shuffle原理详解

      —Sort-Based原理

      —Hash-Based原理

6.13Spark3.0的新特性

6.14Spark DataFrame和DateSet介绍

第三天

七、Spark SQL原理和实践

7.1Spark SQL原理

7.2Spark SQL的Catalyst优化器

7.3Spark SQL内核

7.4Spark SQL和Hive

7.4DataFrame和DataSet架构

7.5Fataframe、DataSet和Spark SQL的比较

7.6SparkSQL parquet格式实战

7.7Spark SQL的实例和编程

7.8Spark SQL的实例操作demo

7.9Spark SQL的编程

八、 Python+Spark数据挖掘实战 

8.1PySpark的原理和安装

8.2PySpark特征工程构建

8.3基于PySpark实战决策树、贝叶斯、随机森林、聚类等

8.4PySpark的优化


我要参加

可同时提交您的需求,我们会及时与您联系

预约内训

将课程带入到您的团队,为您的团队进行一对一辅导。

相关课程