课程简介
在当今这个数据驱动的时代,企业要想在激烈的市场竞争中立于不败之地,就必须拥有强大的数据处理和分析能力。而爬虫技术,正是企业获取数据的重要途径之一。通过爬虫技术,企业可以快速地收集到竞争对手的信息、行业趋势、消费者行为等关键数据,从而为企业的决策制定提供有力的支持。
本课程全面覆盖爬虫技术,从基础到精通,助力学员掌握网络数据采集与分析的核心技能。基础篇涵盖Python基础、数据清洗与可视化、数据结构化存储及多线程/多进程加速技巧。提高篇深入应对反爬机制,精通篇则聚焦Scrapy框架使用,并通过当当网、豆瓣网、舆情监控等案例,让学员能够独立完成复杂爬虫项目,构建高效数据采集与分析系统。
课程收益
1、帮助学员了解Python基础、网页源代码获取与解析方法,掌握爬虫技术的实际应用;
2、帮助学员掌握如何使用pandas库进行数据结构化,以及MySQL数据库存储数据的方法;
3、帮助学员深入了解IP反爬、Cookie池模拟登陆、验证码识别、Ajax动态渲染等反爬手段,并掌握相应的应对策略,提高爬虫的稳定性与安全性;
4、帮助学员深入了解Scrapy框架的安装、基础使用及数据解析方法,掌握Scrapy框架在爬虫项目中的实际应用
5、帮助学员掌握如何简单部署爬虫项目,以及如何进行分布式部署
受众人群
大数据分析师、大数据挖掘工程师;大数据高级开发工程师、项目经理、技术总监;IT运维人员
课程周期
2天(12H)
课程大纲
标题 | 授课内容 |
一、基础篇(爬虫基础) | 1. Python基础 2. 爬虫第一步:如何获取网页源代码 (1) requests库使用:获取新浪热点新闻源码 (2) Selenium库使用:获取上海证券交易所公开信息 (3) 网页结构初步认识 3. 爬虫最后一步:如何解析网页源代码 (1) 正则表达式详解 (2) BeautifulSoup解析 (3) 数据清洗优化常用方法(含数据乱码处理方法) (4) 案例实战 ① 百度新闻 ② 新浪财经 ③ 四大证券报:中国证券报 ④ 四大证券报:上海证券报 ⑤ 四大证券报:证券日报 ⑥ 四大证券报:证券时报 4. 爬虫神器:Selenium库深度讲解 (1) Selenium基础(和上本书类似的基础内容) (2) 案例实战 ① 和讯资讯网爬取 ② 巨潮资讯网爬取 ③ 上交所/深交所爬取 ④ 同程机票爬取 (3) Selenium进阶(Selenium高阶操作和常见使用问题) (4) 案例实战 ① 新浪财经 股票数据 深度挖掘 ② 百度企信宝爬取 5. 数据清洗优化与可视化呈现 (1) 新浪财经API (2) schedule函数 (3) 数据分析主流技巧 (4) 其他一些数据分析的技巧 (5) 爬取多页内容 6. 爬虫数据结构化与数据存储 (1) 表格类数据快速获取 - 天天基金网基金表格爬取 (2) 数据结构化利器:pandas库讲解及案例实战 ① 百度新闻数据结构化 ② 天天基金网表格清洗技巧 (3) 数据存储 - MySQL数据库快速入门 (4) 案例实战 ① 百度新闻数据存储 ② 天天基金网表格数据存储 7. 提高爬虫速度:多线程与多进程爬虫 (1) 多线程与多进程基础知识 (2) 快速爬取新闻 ① 多线程爬新浪或百度新闻 (3) 快速下载百度图片 ① 快速下载百度图片 ② 快速下载今日头条美图 (4) 快速下载PDF文件 ① 快速下载上交所PDF ② 快速下载深交所PDF |
二、提高篇(应对反爬) | 1. IP反爬 (1) 案例:微信推文(搜狗微信)爬取 2. Cookie池模拟登陆反爬 (1) user-agent等 (2) 案例:华为云社区模拟登陆 3. 验证码识别反爬 4. Ajax动态渲染反爬 5. 其他反爬手段应对方案 6. 手机APP爬虫 |
三、精通篇(爬虫框架) | 1. Scrapy框架基础 (1) Scrapy框架安装与基础使用 (2) Xpath数据解析 (3) 案例实战 ① 当当网数据爬取 ② 和讯博客项目开发 2. Scrapy反爬与进阶 (1) 分布式爬虫原理 (2) 案例实战 ① Scrapy豆瓣网反爬 ② Scrapy豆瓣网反爬 3. 爬虫云端部署 (1) 简单爬虫部署 (2) 分布式部署 (3) 案例实战 ① 舆情监控网站搭建 ② 初步搜索引擎搭建 |
Zivvs Wang
百林哲咨询(北京)有限公司专家团队成员
Zivvs Wang
百林哲咨询(北京)有限公司专家团队成员
Zivvs Wang
百林哲咨询(北京)有限公司专家团队成员
Zivvs Wang
百林哲咨询(北京)有限公司专家团队成员
Zivvs Wang
百林哲咨询(北京)有限公司专家团队成员
Zivvs Wang
百林哲咨询(北京)有限公司专家团队成员
Zivvs Wang
百林哲咨询(北京)有限公司专家团队成员