课程简介
随着大数据概念的火热兴起,分布式框架和并行化计算方法得到迅猛的发展。大数据带来的是数据量的增长和计算复杂度的增加,传统的数据挖掘处理方式已经捉襟见肘。如何快速、准确的实现大数据挖掘任务,成为当下研究的热点。相对于传统流程不能解决海量数据的挖掘和近年来流行的 Hadoop 平台处理数据挖掘任务效率低下的状况,大数据平台 Spark基于内存计算、灵活性高、通用性强,对数据挖掘算法的实现有着无与伦比的优势。本课程围绕大数据平台 Spark 和数据挖掘两个概念,对 Spark 上的数据挖掘算法进行了研究、优化、增加,同时在实际应用中做出了准确性、吞吐量、处理速度的测试,证明了工作的有效性。
课程收益
为企业培训优秀的大数据开发人才,使每一位接受培训的学员都能学习到数据挖掘的深厚理论和技能,掌握大数据、特别是spark ml/mllib的基本原理和内在机制以及面向企业应用的开发实战经验。
受众人群
数据科学家、数据库管理员、分析师、高级工程师、系统架构师、项目经理,以及企业的CIO和CTO
课程周期
1天(6H)
课程大纲
主题 | 授课内容 |
一、Spark ml/mllib开发技能基础 | 1. Spark技术特点和应用场景 2. 数据结构rdd和dataframe 3. Spark算子 4. Spark程序执行机制 |
二、Spark ml/mllib算法与架构的设计、应用 | 1. 回归、分类 1.1 数值型计算,主要回归算法 LinearRegression DecisionTreeRegression RandomForestRegression GBTRegression 主要分类算法 LogisticRegression DecisionTreeClassification RandomForestClassification GBTClassification NaiveBayes 文本型计算,主要分类算法: MultilayerPerceptronClassifier 1.2 聚类 1.2.1 数值型计算主要算法:Means 1.2.2 文本型计算主要算法:LDA |
三、Spark ml/mllib应用实例 | 1. 推荐系统构建 2. 新闻智能分类系统构建 |