基于SparkML构建数据挖掘应用技能培训

Pierson Song 查看讲师

百林哲咨询（北京）有限公司专家团队成员

大型工业集团大数据技术专家，15年资深的大数据技术管理工作经验，擅长数据仓库和数据挖掘、深度学习研发经验。

浏览：1590次

详情 DETAILS

课程简介

随着大数据概念的火热兴起，分布式框架和并行化计算方法得到迅猛的发展。大数据带来的是数据量的增长和计算复杂度的增加，传统的数据挖掘处理方式已经捉襟见肘。如何快速、准确的实现大数据挖掘任务，成为当下研究的热点。相对于传统流程不能解决海量数据的挖掘和近年来流行的 Hadoop 平台处理数据挖掘任务效率低下的状况，大数据平台 Spark基于内存计算、灵活性高、通用性强，对数据挖掘算法的实现有着无与伦比的优势。本课程围绕大数据平台 Spark 和数据挖掘两个概念，对 Spark 上的数据挖掘算法进行了研究、优化、增加，同时在实际应用中做出了准确性、吞吐量、处理速度的测试，证明了工作的有效性。

课程收益

为企业培训优秀的大数据开发人才，使每一位接受培训的学员都能学习到数据挖掘的深厚理论和技能，掌握大数据、特别是spark ml/mllib的基本原理和内在机制以及面向企业应用的开发实战经验。

受众人群

数据科学家、数据库管理员、分析师、高级工程师、系统架构师、项目经理，以及企业的CIO和CTO

课程周期

1天（6H）

课程大纲

主题	授课内容
一、Spark ml/mllib开发技能基础	1. Spark技术特点和应用场景 2. 数据结构rdd和dataframe 3. Spark算子 4. Spark程序执行机制
二、Spark ml/mllib算法与架构的设计、应用	1. 回归、分类 1.1 数值型计算，主要回归算法 LinearRegression DecisionTreeRegression RandomForestRegression GBTRegression 主要分类算法 LogisticRegression DecisionTreeClassification RandomForestClassification GBTClassification NaiveBayes 文本型计算，主要分类算法： MultilayerPerceptronClassifier 1.2 聚类 1.2.1 数值型计算主要算法：Means 1.2.2 文本型计算主要算法：LDA
三、Spark ml/mllib应用实例	1. 推荐系统构建 2. 新闻智能分类系统构建