爬虫-智享文档

网络爬虫基础
- 爬虫概述
- 爬虫协议
- 爬虫流程
- 防爬策略
- 抓包工具
爬取静态数据
- urllib库概述
- urllib库语法
- urllib库对象
- urllib库请求
- urllib库高级
- requests库
提取爬虫数据
- 正则表达式
- BeautifulSoup
- PyQuery
- XPath
- JSON
- JsonPath
爬取动态数据
- Selenium基本概述
- Selenium控制浏览器
- Selenium元素定位
- Selenium元素操作
- Selenium多层窗口
- Selenium处理下拉框
- Selenium处理弹窗
- Selenium处理脚本
- Selenium等待机制
- Selenium参数设置
- Selenium实战例子
提升爬虫速度
- 提升速度概述
- 爬虫队列模块
- 多线程的爬虫
- 多进程的爬虫
- 使用协程爬虫
存储爬虫数据
- 数据存储概述
- 存储至MongoDB
- 存储至Redis
验证码的识别
- 验证码概述
- 图片验证码
- 滑块验证码
- 点选验证码
网络爬虫框架
- Scrapy概述
- Scrapy框架使用
- Scrapy提取数据
- Scrapy保存数据
- Scrapy Pipeline
- Scrapy图片管道
- Scrapy配置文件
- Scrapy CrawlSpider
- Scrapy请求与响应
- Scrapy下载中间件
- Scrapy分布式概述
- Scrapy分布式环境
- Scrapy分布式部署
- Scrapy分布式使用

1 爬虫简介

爬虫就是一个模拟真人浏览万维网行为的程序，这个程序可以代替真人自动请求万维网，并接收从万维网返回的数据。

2 爬虫作用

爬虫可以批量采集数据，降低人工成本，提高有效数据量，给予运营/销售数据支撑，加快产品发展。

3 爬虫应用

(1) 批量采集某个领域的招聘数据，对某个行业的招聘情况进行分析；
(2) 批量采集某个行业的电商数据，以分析出具体热销商品，进行商业决策 • 采集目标客户数据，以进行后续营销；
(3) 批量爬取腾讯动漫的漫画，以实现脱网本地集中浏览；
(4) 开发一款火车票抢票程序，以实现自动抢票；
(5) 爬取评论,舆情监控；
(6) 爬取说说信息,分析上线时间。