什么是搜索引擎?

什么是搜索引擎?搜索引擎就是运行一些策略和算法,从互联网上获取网页信息,并将这些信息进行一些处理后保存,供用户检索的程序和系统。搜索引擎的主要组成是通用爬虫。通用爬虫:是指将网页整体从网络上爬取下来的程序。搜索引擎能够获取所有网页的原因:搜索引擎将所有互联网上的网页从网络上爬取下来存储在了本地!网页网址的来

大家好,欢迎来到IT知识分享网。什么是搜索引擎?

  搜索引擎就是运行一些策略和算法,从互联网上获取网页信息,并将这些信息进行一些处理后保存,供用户检索的程序和系统。

  搜索引擎的主要组成是通用爬虫。

  通用爬虫:是指将网页整体从网络上爬取下来的程序。

  搜索引擎能够获取所有网页的原因:搜索引擎将所有互联网上的网页从网络上爬取下来存储在了本地!

  网页网址的来源主要有三种:(1)新网站的主动向搜索引擎提交网址

             (2)网站上面的链接

             (3)和DNS域名解析商合作,每当有新网站注册,搜索引擎就可以获得网址

  搜索引擎的步骤:(1)抓取网页:抓取网页的过程中会有一个去重操作,网页中重复内容过多,搜索引擎可能不会保存

          (2)预处理:提取出文字,中文分词,去除噪音(广告栏、导航栏、版权等文字),建立索引

          (3)排版:设置排名,根据用户索引提供服务

  通用爬虫的缺点:(1)只能整页整页的抓取,九成以上的数据是无用数据

          (2)无法满足不同职业不同人员的需求

          (3)无法爬取视频图片等数据

          (4)无法根据释义判断,只能根据关键字索引

  聚焦爬虫:在爬取数据时会根据需求进行筛选,尽量保证抓取相关的数据。    

  

  

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/34176.html

(0)

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

关注微信