Python大数据实战-大规模爬取分析与可视化

成喆查看讲师

百林哲咨询（北京）有限公司专家团队成员

从业超过10年，长期任职于大数据平台DevSecOps、AIOps的构建相关领域，曾任大数据公司顶级公司Splunk高级架构师等，在大数据处理与安全领域拥有6项美国专利。善于实战经验与技能知识结合，深入浅出的讲解分享。

浏览：6820次

详情 DETAILS

简介

内容涵盖三个大的方面：

1. 核心语法与设计模式

2. 并发技术包括多线程多进程与并发同步模式

3. 测试、调试与排错技术

目标

1. 掌握Python核心语法并灵活使用

2. 掌握Python3核心变化并灵活使用

3. 掌握Python设计的常见模式并灵活应用

4. 掌握Python并发技术与模式，并灵活应用

5. 掌握测试、调试与排错技巧和场景，并灵活应用

受众人群

大数据分析师、大数据挖掘工程师；大数据高级开发工程师、项目经理、技术总监；T运维人员；

课程时长

2天（12H）

课程亮点

1、顶级大数据平台公司的资深架构师、最权威Python大会PyCon首席讲师讲授，实战与10年+经验与技巧结合，掌握数据分析与可视化以及在Python中应用的最佳捷径。

2、全真案例，借助案例与数据分析的知识与原理，借助最佳实践，帮助您提高数据爬取、处理分析与可视化能力，从而获取大数据带来的价值。

3、关注业界流行工具包与最佳实践，以实战训练驱动对数据获取、处理、分析与可视化进行理解与运用。

在课程中要逐一解决的问题：

1、爬虫难以编写，执行效率低下

2、爬虫不够灵活，过于简单，容易被识别,容易出错，自适应差

3、数据规整耗时耗力，效果不佳

4、分析方法缺乏，难以快速有效地提取信息与要素

5、可视化效率低下，无法满足需求

6、分析可视化架构不够健全，适应性差

实施方法

讲原理（不玩理论）、讲方法、讲技巧、讲干货；经验分享；教训总结。

目的

原理清晰，打牢地基，保证上层建筑质量。

分享提纲

模块	主题	内容
第一单元：Python大数据爬取与处理基础	以爬取某网站数据为例,讲解实际爬虫与数据处理用到的Python核心技巧	（1）从几个爬虫与数据分析的实际案例开始讲起，如何构建一个健壮的大数据爬取、整理、分析与可视化系统覆盖知识：生态、概念与挑战（2）从一个网络爬虫与数据分析的例子中，讲解更健壮的爬虫文本处理覆盖技术：IO、Http、字符串编码、正则表达式（3）继续上例子，讲解更有效的数据处理与解析覆盖技术：切片、列表推导式、内置数据结构、迭代器、生成器等
第二单元：Python高级数据爬取与数据清洗实战	进一步提升爬虫稳定性、并发性与分布式扩展能力，并着手数据清洗工作	(1) 以实际爬虫为例，改造并发提升稳定性覆盖技术：错误处理、状态保存、任务发现等 (2) 继续之前爬虫的例子，改造并发提升性能覆盖技术：GIL、线程池、进程池、异步IO (3) 进一步改造提升爬虫的分布式能力覆盖技术：队列服务、数据状态服务、调度服务 (4) 以实际数据为例，对数据进行规整、清洗与验证覆盖技术：Pandas、DataFrame等
第三单元：Python高级数据分析实战	通过某网站数据，使用Pandas、SeaBorn进行多维与高阶数据分析	(1) DataFrame数据操作案例分析：多维度数据的操作与分析。 (2) IO操作与数据预清洗案例分析：杂乱数据的加载与预处理。 (3) 高级数据清洗案例分析：高级数据清洗 (4) 数据展示案例分析：可视化直观的展示客户分布与规律（1）数据转换与丰富案例分析：丰富数据内容与格式转换成需要的样子。（2）高阶数据统计与展示案例分析：使用高级接口进行快速分析与展示。（3）多维数据分析案例分析：使用SeaBorn进行高级统计回归分析。
第四单元：Python时间序列数据分析实战	通过某网站数据，使用Pandas进行基于时间序列的分析	（1）时间序列的格式案例分析：基于时间的数据进行统计分析（2）高级时间格式案例分析：时间格式的调整与转换（3）时间块数据分析案例分析：基于时间块的数据分析。
第五单元：Python可视化扩展实战	通过某网站数据，使用Jupyter、Flask/Django、Grafana、Dash构建可视化服务	（1）以实际网站数据，简单数据可视化与分享服务构建覆盖技术：使用Jupyter作为数据分享平台（2）以实际网站数据，构建更加灵活的数据可视化服务（3）覆盖技术：使用Flask/Django作为数据底层欧宁泰（4）扩展可视化性能，进一步提升更大数据可视化能力（5）覆盖技术：使用Grafana作为数据展示平台（6）扩展可视化能力，增加更多交互性（7）覆盖技术：使用Dash构建交互式可视化服务