什么是python爬虫?你的爬虫违法吗?

什么是python爬虫?你的爬虫违法吗?爬虫是一个程序,是一个能够模拟人去请求网站并获取网页数据的一段代码。爬虫分类主要分为以下三类:1、小规模,数据量小,爬取速度不敏感。

大家好,欢迎来到IT知识分享网。

什么是python爬虫?你的爬虫违法吗?

pythohn

爬虫是什么?

什么是python爬虫?你的爬虫违法吗?

爬虫

爬虫不是如上图所示的昆虫,更不是动物。爬虫是一个程序,是一个能够模拟人去请求网站并获取网页数据的一段代码。

欢迎点击右上角关注小编。私信学习资料不仅获取学习资料,在学习中遇到的问题也可以咨询我。

爬虫分类

主要分为以下三类:

1、小规模,数据量小,爬取速度不敏感;对于这类网络爬虫我们可以使用Requests库来实现,主要用于爬取网页;

2、中规模,数据规模较大,爬取速度敏感;对于这类网络爬虫我们可以使用Scrapy库来实现,主要用于爬取网站或系列网站;

3、大规模,搜索引擎,爬取速度关键;此时需要定制开发,主要用于爬取全网,一般是建立全网搜索引擎,如百度、Google搜索等。

在这三种中,我们最为常见的是第一种,大多数均是小规模的爬取网页的爬虫。

爬虫引发的问题

1、性能骚扰:web服务器默认接受人类访问,受限于编写水平和目的,网络爬虫将会为web服务器带来巨大的资源的开销。

2、法律风险:服务器上的数据有产权归属,网络爬虫获取数据后牟利将会带来法律的风险。

3、隐私泄露: 网络爬虫可能具备突破简单访问的控制能力,获取被保护的数据,从而泄露个人隐私。

爬虫的限制

如果你问我那种途径最容易暴富,我建议你去看一下刑法。同样的道理,网络爬虫的限制方法,也就成了我们平常突破反爬措施的突破入口。

1、来源审查:判断User-Agent进行限制,检查来访者HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问

2、发布公告: Robots协议, 告知所有的爬虫网站的爬虫策略,要求爬虫遵守。

Robots协议

从爬虫的限制中,可以看到Robots协议是防止爬虫的一种手段。那么先来看一下Robots协议的解释

robots.txt是一个协议,是搜索引擎中访问网站的时候要查看的第一个文件。它告诉蜘蛛程序在服务器上什么文件是可以被查看的。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些房间因为存放贵重物品,或可能涉及住户及访客的隐私而不对搜索引擎开放。但robots.txt不是命令,也不是防火墙,如同守门人无法阻止窃贼等恶意闯入者。

什么是python爬虫?你的爬虫违法吗?

robots.txt

也就是说如果一个搜索引擎不尊重robots.txt的“君子协议”,那么无论robots.txt文件写的多严密多好也是没用的。

查看工具

有时候,需要查看一下该网站是否发布robots协议,可以在百度的搜索资源平台查看。网址:https://ziyuan.baidu.com/robots/index

例如:查看百度

什么是python爬虫?你的爬虫违法吗?

百度robts.txt

从百度的robots.txt中可以看到哪些是允许爬虫爬取的,哪些是禁止的。并且对User-agent也有要求。

风险

爬虫所带来的风险主要有以下几点:

1、违反网站意愿,例如网站采取反爬措施后,强行突破其反爬措施;

2、爬虫干扰了被访问网站的正常运营;

3、爬虫抓取了受到法律保护的特定类型的数据或信息。

4、其中,第3类风险主要来自于通过规避反爬虫措施抓取到了互联网上未被公开的信息。

规避方法

因此,爬虫开发者在使用爬虫时应注意:

1、严格遵守网站设置的robots协议;

2、在规避反爬措施的同时优化自己的代码,避免给被访问网站造成干扰;

3、在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/49314.html

(0)
上一篇 2024-04-24 18:45
下一篇 2024-04-25 12:00

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信