大家好,欢迎来到IT知识分享网。
搜索引擎就是运行一些策略和算法,从互联网上获取网页信息,并将这些信息进行一些处理后保存,供用户检索的程序和系统。
搜索引擎的主要组成是通用爬虫。
通用爬虫:是指将网页整体从网络上爬取下来的程序。
搜索引擎能够获取所有网页的原因:搜索引擎将所有互联网上的网页从网络上爬取下来存储在了本地!
网页网址的来源主要有三种:(1)新网站的主动向搜索引擎提交网址
(2)网站上面的链接
(3)和DNS域名解析商合作,每当有新网站注册,搜索引擎就可以获得网址
搜索引擎的步骤:(1)抓取网页:抓取网页的过程中会有一个去重操作,网页中重复内容过多,搜索引擎可能不会保存
(2)预处理:提取出文字,中文分词,去除噪音(广告栏、导航栏、版权等文字),建立索引
(3)排版:设置排名,根据用户索引提供服务
通用爬虫的缺点:(1)只能整页整页的抓取,九成以上的数据是无用数据
(2)无法满足不同职业不同人员的需求
(3)无法爬取视频图片等数据
(4)无法根据释义判断,只能根据关键字索引
聚焦爬虫:在爬取数据时会根据需求进行筛选,尽量保证抓取相关的数据。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/34176.html