什么是搜索引擎？_IT分享知识网

什么是搜索引擎？

老牧童 • 2024-01-01 11:45 • 未分类 • 阅读 129

大家好，欢迎来到IT知识分享网。什么是搜索引擎？

　　搜索引擎就是运行一些策略和算法，从互联网上获取网页信息，并将这些信息进行一些处理后保存，供用户检索的程序和系统。

　　搜索引擎的主要组成是通用爬虫。

　　通用爬虫：是指将网页整体从网络上爬取下来的程序。

　　搜索引擎能够获取所有网页的原因：搜索引擎将所有互联网上的网页从网络上爬取下来存储在了本地！

　　网页网址的来源主要有三种：（1）新网站的主动向搜索引擎提交网址

　　　　　　　　　　　　　（2）网站上面的链接

　　　　　　　　　　　　　（3）和DNS域名解析商合作，每当有新网站注册，搜索引擎就可以获得网址

　　搜索引擎的步骤：（1）抓取网页：抓取网页的过程中会有一个去重操作，网页中重复内容过多，搜索引擎可能不会保存

　　　　　　　　　　（2）预处理：提取出文字，中文分词，去除噪音（广告栏、导航栏、版权等文字），建立索引

　　　　　　　　　　（3）排版：设置排名，根据用户索引提供服务

　　通用爬虫的缺点：（1）只能整页整页的抓取，九成以上的数据是无用数据

　　　　　　　　　　（2）无法满足不同职业不同人员的需求

　　　　　　　　　　（3）无法爬取视频图片等数据

　　　　　　　　　　（4）无法根据释义判断，只能根据关键字索引

　　聚焦爬虫：在爬取数据时会根据需求进行筛选，尽量保证抓取相关的数据。　　　　

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/34176.html

什么是搜索引擎？

相关推荐

发表回复