-
网络爬虫基础
- 爬虫概述
- 爬虫协议
- 爬虫流程
- 防爬策略
- 抓包工具
-
爬取静态数据
- urllib库概述
- urllib库语法
- urllib库对象
- urllib库请求
- urllib库高级
- requests库
-
提取爬虫数据
- 正则表达式
- BeautifulSoup
- PyQuery
- XPath
- JSON
- JsonPath
-
爬取动态数据
- Selenium基本概述
- Selenium控制浏览器
- Selenium元素定位
- Selenium元素操作
- Selenium多层窗口
- Selenium处理下拉框
- Selenium处理弹窗
- Selenium处理脚本
- Selenium等待机制
- Selenium参数设置
- Selenium实战例子
-
提升爬虫速度
- 提升速度概述
- 爬虫队列模块
- 多线程的爬虫
- 多进程的爬虫
- 使用协程爬虫
-
存储爬虫数据
- 数据存储概述
- 存储至MongoDB
- 存储至Redis
-
验证码的识别
- 验证码概述
- 图片验证码
- 滑块验证码
- 点选验证码
-
网络爬虫框架
- Scrapy概述
- Scrapy框架使用
- Scrapy提取数据
- Scrapy保存数据
- Scrapy Pipeline
- Scrapy图片管道
- Scrapy配置文件
- Scrapy CrawlSpider
- Scrapy请求与响应
- Scrapy下载中间件
- Scrapy分布式概述
- Scrapy分布式环境
- Scrapy分布式部署
- Scrapy分布式使用
1 爬虫简介
爬虫就是一个模拟真人浏览万维网行为的程序,这个程序可以代替真人自动请求万维网,并接收从万维网返回的数据。

2 爬虫作用
爬虫可以批量采集数据,降低人工成本,提高有效数据量,给予运营/销售数据支撑,加快产品发展。

3 爬虫应用
(1) 批量采集某个领域的招聘数据,对某个行业的招聘情况进行分析;
(2) 批量采集某个行业的电商数据,以分析出具体热销商品,进行商业决策 • 采集目标客户数据,以进行后续营销;
(3) 批量爬取腾讯动漫的漫画,以实现脱网本地集中浏览;
(4) 开发一款火车票抢票程序,以实现自动抢票;
(5) 爬取评论,舆情监控;
(6) 爬取说说信息,分析上线时间。