爬虫(未)

  • 网络爬虫基础
    • 爬虫概述
    • 爬虫协议
    • 爬虫流程
    • 防爬策略
    • 抓包工具
  • 爬取静态数据
    • urllib库概述
    • urllib库语法
    • urllib库对象
    • urllib库请求
    • urllib库高级
    • requests库
  • 提取爬虫数据
    • 正则表达式
    • BeautifulSoup
    • PyQuery
    • XPath
    • JSON
    • JsonPath
  • 爬取动态数据
  • 提升爬虫速度
  • 存储爬虫数据
  • 验证码的识别
  • 网络爬虫框架

1 爬虫简介

爬虫就是一个模拟真人浏览万维网行为的程序,这个程序可以代替真人自动请求万维网,并接收从万维网返回的数据。



2 爬虫作用

爬虫可以批量采集数据,降低人工成本,提高有效数据量,给予运营/销售数据支撑,加快产品发展。 



3 爬虫应用

(1) 批量采集某个领域的招聘数据,对某个行业的招聘情况进行分析;
(2) 批量采集某个行业的电商数据,以分析出具体热销商品,进行商业决策 • 采集目标客户数据,以进行后续营销;
(3) 批量爬取腾讯动漫的漫画,以实现脱网本地集中浏览;
(4) 开发一款火车票抢票程序,以实现自动抢票;
(5) 爬取评论,舆情监控;
(6) 爬取说说信息,分析上线时间。