-
网络爬虫基础
- 爬虫概述
- 爬虫协议
- 爬虫流程
- 防爬策略
- 抓包工具
-
爬取静态数据
- urllib库概述
- urllib库语法
- urllib库对象
- urllib库请求
- urllib库高级
- requests库
-
提取爬虫数据
- 正则表达式
- BeautifulSoup
- PyQuery
- XPath
- JSON
- JsonPath
-
爬取动态数据
-
提升爬虫速度
-
存储爬虫数据
-
验证码的识别
-
网络爬虫框架
1 爬虫简介
爬虫就是一个模拟真人浏览万维网行为的程序,这个程序可以代替真人自动请求万维网,并接收从万维网返回的数据。
2 爬虫作用
爬虫可以批量采集数据,降低人工成本,提高有效数据量,给予运营/销售数据支撑,加快产品发展。
3 爬虫应用
(1) 批量采集某个领域的招聘数据,对某个行业的招聘情况进行分析;
(2) 批量采集某个行业的电商数据,以分析出具体热销商品,进行商业决策 • 采集目标客户数据,以进行后续营销;
(3) 批量爬取腾讯动漫的漫画,以实现脱网本地集中浏览;
(4) 开发一款火车票抢票程序,以实现自动抢票;
(5) 爬取评论,舆情监控;
(6) 爬取说说信息,分析上线时间。