Scrapy爬虫框架之爬取ajax动态数据(三)

Scrapy爬虫框架之爬取ajax动态数据(三)因此建议采用crawl模板来创建spider解析器配置简书下载格式获取简书文章数据文章目录简书URL地址分析获取简书文章数据根据业务需求创建模型

大家好,欢迎来到IT知识分享网。

Scrapy爬虫框架之爬取ajax动态数据(三)

简书业务分析

文章目录

  • 简书结构分析
  • 创建简书爬虫项目
  • 创建crawl解析器
  • 配置简书下载格式

简书结构分析

Scrapy爬虫框架之爬取ajax动态数据(三)

创建简书爬虫项目

Scrapy爬虫框架之爬取ajax动态数据(三)

创建crawl解析器

之前创建的spider解析器采用都是basic模板,这次爬虫是要下载简书文章,需要支持正则表达式匹配,因此建议采用crawl模板来创建spider解析器

Scrapy爬虫框架之爬取ajax动态数据(三)

配置简书下载格式

Scrapy爬虫框架之爬取ajax动态数据(三)

获取简书文章数据

文章目录

简书URL地址分析

获取简书文章数据

根据业务需求创建模型

测试parse_item解析函数

简书URL地址分析

可以指定爬虫抓取的规则,支持正则表达式,目前简书

https://www.jianshu.com/p/df7cad4eb8d8

https://www.jianshu.com/p/07b0456cbadb?*****

https://www.jianshu.com/p/.*

Scrapy爬虫框架之爬取ajax动态数据(三)

获取简书文章数据

Scrapy爬虫框架之爬取ajax动态数据(三)

根据业务需求创建模型

Scrapy爬虫框架之爬取ajax动态数据(三)

测试parse_item解析函数

Scrapy爬虫框架之爬取ajax动态数据(三)

获取ajax数据

文章目录

ChromeDriver介绍

重构下载器增加ajax功能

重写process_request方法

ChromeDriver介绍

chromeDriver 是 google 为网站开发人员提供的自动化测试接口,WebDriver是一个开源工具,用于在许多浏览器上自动测试webapps。它提供了导航到网页,用户输入,JavaScript执行等功能

ChromeDriver的安装一定要与Chrome的版本一致,不然就不起作用,查看chrom的版本则在浏览器地址栏输入:chrome://version/

chromedriver下载地址: http://chromedriver.storage.googleapis.com/index.html

重构下载器增加ajax功能

首先要在setting.py中开启下载器中间件:JianshuDownloaderMiddleware

Scrapy爬虫框架之爬取ajax动态数据(三)

重写process_request方法

Scrapy爬虫框架之爬取ajax动态数据(三)

Scrapy爬虫框架之爬取ajax动态数据(三)

Scrapy爬虫框架之爬取ajax动态数据(三)

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/47244.html

(0)
上一篇 2024-04-20 12:00
下一篇 2024-04-28 10:33

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

关注微信