基于SparkML构建数据挖掘应用技能培训
Pierson Song 查看讲师
百林哲咨询(北京)有限公司专家团队成员
大型工业集团大数据技术专家,15年资深的大数据技术管理工作经验,擅长数据仓库和数据挖掘 、深度学习研发经验。
浏览:1118次
详情 DETAILS

课程简介

随着大数据概念的火热兴起,分布式框架和并行化计算方法得到迅猛的发展。大数据带来的是数据量的增长和计算复杂度的增加,传统的数据挖掘处理方式已经捉襟见肘。如何快速、准确的实现大数据挖掘任务,成为当下研究的热点。相对于传统流程不能解决海量数据的挖掘和近年来流行的 Hadoop 平台处理数据挖掘任务效率低下的状况,大数据平台 Spark基于内存计算、灵活性高、通用性强,对数据挖掘算法的实现有着无与伦比的优势。本课程围绕大数据平台 Spark 和数据挖掘两个概念,对 Spark 上的数据挖掘算法进行了研究、优化、增加,同时在实际应用中做出了准确性、吞吐量、处理速度的测试,证明了工作的有效性。

课程收益

为企业培训优秀的大数据开发人才,使每一位接受培训的学员都能学习到数据挖掘的深厚理论和技能,掌握大数据、特别是spark ml/mllib的基本原理和内在机制以及面向企业应用的开发实战经验。

受众人群

数据科学家、数据库管理员、分析师、高级工程师、系统架构师、项目经理,以及企业的CIO和CTO

课程周期

1天(6H)

课程大纲

主题

授课内容

一、Spark ml/mllib开发技能基础

1. Spark技术特点和应用场景

2. 数据结构rdd和dataframe

3. Spark算子

4. Spark程序执行机制

二、Spark ml/mllib算法与架构的设计、应用

1. 回归、分类

1.1 数值型计算,主要回归算法

LinearRegression

DecisionTreeRegression

RandomForestRegression

GBTRegression

主要分类算法

LogisticRegression

DecisionTreeClassification

RandomForestClassification

GBTClassification

NaiveBayes

文本型计算,主要分类算法:

MultilayerPerceptronClassifier

1.2 聚类

1.2.1 数值型计算主要算法:Means

1.2.2 文本型计算主要算法:LDA

三、Spark ml/mllib应用实例

1. 推荐系统构建

2. 新闻智能分类系统构建


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1