大家好,欢迎来到IT知识分享网。
一、数据搜索
搜索是个古老的话题,从互联网诞生起,对于网络信息和数据的搜索需求就与日俱增,从谷歌,到百度,必应,搜索巨头都已成为行业标杆,现在谁上网都离不开搜索引擎。
大数据的新的应用场景和特点,对于数据搜索的需求更加迫切,也提出了新的需求。
迫切性体现在大数据时代数据量非常的大,已经不能用海量来形容,在这样大量的数据中想要找到想要的东西,想要分析有效的数据,就需要更高效率的搜索引擎,相比于网络上的搜索,大数据的搜索数据更加组织紧密,对于搜索的效果和精度也更高。
创新性体现在大数据的存储特点,不再能是传统的集中式或者集群式存储,关系式数据库就能负担的,必然的必须采取分布式的方式,这样使得数据存取的一致性,兼容性和鲁棒性都提出新的要求,所以出现了创新性的分布式的文件存储和分布式数据库系统,基于此分布式架构之下,搜索引擎必然需要高效的适应分布式的数据组织形式。
大数据技术栈里,Elasticsearch搜索引擎是较广泛的应用引擎,也应该是我们学习的重点。Elasticsearch是一个分布式的高实时性搜索引擎,能够在各种结构化甚至非结构化数据上实现近乎实时的搜索和分析,是Elastic Stack集成方案中最成功的一个。另两个成为日志搜集和分析引擎Logstash,和可视化分析平台Kibana,有兴趣的同学可以搜索了解。
我们先来重点学习Elasticsearch:
1. Elasticsearch权威指南
2. Elasticsearch搜索引擎构建入门与实战
3. Elasticsearch实战(异步图书出品)
二、数据分析
数据分析是大数据框架实施的重要目的,把大量数据搜集存储的结果,就是需要用来分析出有用的东西,可以进行各种维度的数据统计,以便于更好的指导运营和产品优化,甚至商业模式优化,另外通过AI模型和机器学习算法,训练用户行为模型,给用户推荐最符合他需求的内容,即所谓推荐系统也是当前互联网平台应用的标配,更有甚者,通过数据分析,数据模型深度学习,可以实现更加智能的人工智能,机器人,自动驾驶,无人飞机等都是终极应用。
Kylin是apache基金会下的开源大数据分析引擎,能够实现Hadoop之上的SQL查询和多维分析(OLAP),支持超大数据查询,实现亚秒级的巨型Hive表查询,功能十分强大。
其他知名的查询分析引擎有:Impala,presto等,大家可以感兴趣自行搜索了解,这里主要介绍几本Kylin的经典书籍,供大家学习:
1. Apache Kylin权威指南(第2版)
官网核心团队撰写的技术教程。
2. 基于Apache Kylin构建大数据分析平台
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/59422.html