Python零基础爬虫入门到精通案例实战

Zivvs Wang 查看讲师

百林哲咨询（北京）有限公司专家团队成员

华小智金融科技实验室创始人

浏览：1506次

详情 DETAILS

课程简介

在当今这个数据驱动的时代，企业要想在激烈的市场竞争中立于不败之地，就必须拥有强大的数据处理和分析能力。而爬虫技术，正是企业获取数据的重要途径之一。通过爬虫技术，企业可以快速地收集到竞争对手的信息、行业趋势、消费者行为等关键数据，从而为企业的决策制定提供有力的支持。

本课程全面覆盖爬虫技术，从基础到精通，助力学员掌握网络数据采集与分析的核心技能。基础篇涵盖Python基础、数据清洗与可视化、数据结构化存储及多线程/多进程加速技巧。提高篇深入应对反爬机制，精通篇则聚焦Scrapy框架使用，并通过当当网、豆瓣网、舆情监控等案例，让学员能够独立完成复杂爬虫项目，构建高效数据采集与分析系统。

课程收益

1、帮助学员了解Python基础、网页源代码获取与解析方法，掌握爬虫技术的实际应用；

2、帮助学员掌握如何使用pandas库进行数据结构化，以及MySQL数据库存储数据的方法；

3、帮助学员深入了解IP反爬、Cookie池模拟登陆、验证码识别、Ajax动态渲染等反爬手段，并掌握相应的应对策略，提高爬虫的稳定性与安全性；

4、帮助学员深入了解Scrapy框架的安装、基础使用及数据解析方法，掌握Scrapy框架在爬虫项目中的实际应用

5、帮助学员掌握如何简单部署爬虫项目，以及如何进行分布式部署

受众人群

大数据分析师、大数据挖掘工程师；大数据高级开发工程师、项目经理、技术总监；IT运维人员

课程周期

2天（12H）

课程大纲

标题	授课内容
一、基础篇（爬虫基础）	1. Python基础 2. 爬虫第一步：如何获取网页源代码 (1) requests库使用：获取新浪热点新闻源码 (2) Selenium库使用：获取上海证券交易所公开信息 (3) 网页结构初步认识 3. 爬虫最后一步：如何解析网页源代码 (1) 正则表达式详解 (2) BeautifulSoup解析 (3) 数据清洗优化常用方法（含数据乱码处理方法） (4) 案例实战 ① 百度新闻 ② 新浪财经 ③ 四大证券报：中国证券报 ④ 四大证券报：上海证券报 ⑤ 四大证券报：证券日报 ⑥ 四大证券报：证券时报 4. 爬虫神器：Selenium库深度讲解 (1) Selenium基础（和上本书类似的基础内容） (2) 案例实战 ① 和讯资讯网爬取 ② 巨潮资讯网爬取 ③ 上交所/深交所爬取 ④ 同程机票爬取 (3) Selenium进阶（Selenium高阶操作和常见使用问题） (4) 案例实战 ① 新浪财经股票数据深度挖掘 ② 百度企信宝爬取 5. 数据清洗优化与可视化呈现 (1) 新浪财经API (2) schedule函数 (3) 数据分析主流技巧 (4) 其他一些数据分析的技巧 (5) 爬取多页内容 6. 爬虫数据结构化与数据存储 (1) 表格类数据快速获取 - 天天基金网基金表格爬取 (2) 数据结构化利器：pandas库讲解及案例实战 ① 百度新闻数据结构化 ② 天天基金网表格清洗技巧 (3) 数据存储 - MySQL数据库快速入门 (4) 案例实战 ① 百度新闻数据存储 ② 天天基金网表格数据存储 7. 提高爬虫速度：多线程与多进程爬虫 (1) 多线程与多进程基础知识 (2) 快速爬取新闻 ① 多线程爬新浪或百度新闻 (3) 快速下载百度图片 ① 快速下载百度图片 ② 快速下载今日头条美图 (4) 快速下载PDF文件 ① 快速下载上交所PDF ② 快速下载深交所PDF
二、提高篇（应对反爬）	1. IP反爬 (1) 案例：微信推文（搜狗微信）爬取 2. Cookie池模拟登陆反爬 (1) user-agent等 (2) 案例：华为云社区模拟登陆 3. 验证码识别反爬 4. Ajax动态渲染反爬 5. 其他反爬手段应对方案 6. 手机APP爬虫
三、精通篇（爬虫框架）	1. Scrapy框架基础 (1) Scrapy框架安装与基础使用 (2) Xpath数据解析 (3) 案例实战 ① 当当网数据爬取 ② 和讯博客项目开发 2. Scrapy反爬与进阶 (1) 分布式爬虫原理 (2) 案例实战 ① Scrapy豆瓣网反爬 ② Scrapy豆瓣网反爬 3. 爬虫云端部署 (1) 简单爬虫部署 (2) 分布式部署 (3) 案例实战 ① 舆情监控网站搭建 ② 初步搜索引擎搭建