爬虫

  • 网络爬虫基础
    • 爬虫概述
    • 爬虫协议
    • 爬虫流程
    • 防爬策略
    • 抓包工具
  • 爬取静态数据
    • urllib库概述
    • urllib库语法
    • urllib库对象
    • urllib库请求
    • urllib库高级
    • requests库
  • 提取爬虫数据
    • 正则表达式
    • BeautifulSoup
    • PyQuery
    • XPath
    • JSON
    • JsonPath
  • 爬取动态数据
    • Selenium基本概述
    • Selenium控制浏览器
    • Selenium元素定位
    • Selenium元素操作
    • Selenium多层窗口
    • Selenium处理下拉框
    • Selenium处理弹窗
    • Selenium处理脚本
    • Selenium等待机制
    • Selenium参数设置
    • Selenium实战例子
  • 提升爬虫速度
    • 提升速度概述
    • 爬虫队列模块
    • 多线程的爬虫
    • 多进程的爬虫
    • 使用协程爬虫
  • 存储爬虫数据
    • 数据存储概述
    • 存储至MongoDB
    • 存储至Redis
  • 验证码的识别
    • 验证码概述
    • 图片验证码
    • 滑块验证码
    • 点选验证码
  • 网络爬虫框架
    • Scrapy概述
    • Scrapy框架使用
    • Scrapy提取数据
    • Scrapy保存数据
    • Scrapy Pipeline
    • Scrapy图片管道
    • Scrapy配置文件
    • Scrapy CrawlSpider
    • Scrapy请求与响应
    • Scrapy下载中间件
    • Scrapy分布式概述
    • Scrapy分布式环境
    • Scrapy分布式部署
    • Scrapy分布式使用

1 爬虫简介

爬虫就是一个模拟真人浏览万维网行为的程序,这个程序可以代替真人自动请求万维网,并接收从万维网返回的数据。



2 爬虫作用

爬虫可以批量采集数据,降低人工成本,提高有效数据量,给予运营/销售数据支撑,加快产品发展。 



3 爬虫应用

(1) 批量采集某个领域的招聘数据,对某个行业的招聘情况进行分析;
(2) 批量采集某个行业的电商数据,以分析出具体热销商品,进行商业决策 • 采集目标客户数据,以进行后续营销;
(3) 批量爬取腾讯动漫的漫画,以实现脱网本地集中浏览;
(4) 开发一款火车票抢票程序,以实现自动抢票;
(5) 爬取评论,舆情监控;
(6) 爬取说说信息,分析上线时间。