Python——网络爬虫

这一节介绍webbrowser模块浏览网页import webbrowserpython提供webbrowser模块,可以调用这个模块的open()方法打开指定网页!

这一节介绍webbrowser模块浏览网页

import webbrowser

python提供webbrowser模块,可以调用这个模块的open()方法打开指定网页!

Python——网络爬虫

下载网页信息使用requests模块

requests模块属于第三方模块,因此需要安装此模块才可以使用:

pip install requests

requests.get()方法内需放置欲下载网页信息的网址当参数,这个方法可以传回网页的HTML源文件。

Python——网络爬虫

由上述可知requests.get()方法传回的数据类型是Response对象!!!!!那什么是Response对象呢??

Response对象

Response对象有几个重要属性:

status_code如果值是requests.codes.ok,表示获得的网页内容成功。

Python——网络爬虫

text:网页内容。

Python——网络爬虫

Python——网络爬虫

下载网页失败的异常处理

有些网页由反爬虫机制,会造成网页下载失败。使用抛出异常可以处理类似问题。Response对象有raise_for_status()方法,可以针对网址正确但是后续文件名错误的状况产生异常处理。也可以预防错误网址!!!

Python——网络爬虫

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/91815.html

(0)
上一篇 2024-10-21 06:42
下一篇 2024-10-21 06:50

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信