大家好,欢迎来到IT知识分享网。
-
Hdfs:Hadoop分布式文件系统被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。
特点:HDFS是一个高度容错性的系统,适合部署在廉价的机器上。
HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。 -
Hive:基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能
特点:Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。
Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
良好的容错性,节点出现问题SQL仍可完成执行。 -
Hbase:HBase是一个分布式的、非关系型开源数据库。
特点:HBase是No-SQL的一个典型实现,提升了系统的可扩展性;
HBase支持线性水平扩展,极大提升了系统的可伸缩性和运算能力;
HBase和Google的BigTable有异曲同工之妙,底层也是建立在HDFS(Hadoop分布式文件系统)之上,可以搭建在廉价的PC机集群上。 -
Zookeeper
官方:Zookeeper 是一个分布式的,开放源码的应用协调服务。是以Fast paxos 算法为基础,实现同步服务,配置维护和命名服务等分布式应用。
特点:zookeeper实现了高性能、高可靠性、和有序的访问、高性能保证了其能应用在大型的分布式文件系统中。 -
Yarn
在Hadoop生态当中,作为通用的资源管理系统与调度平台,去实现CPU、内存、磁盘、网络等资源进行统一管理与拆分,以容器的形式,为上层应用提供统一的资源服务。
Yarn主要包含四大组件:分别为ResourceManager、NodeManager、ApplicationMaster、Container。 -
Spark
特点:高级 API 剥离了对集群本身的关注,Spark 应用开发者可以专注于应用所要做的计算本身。
Spark 很快,支持交互式计算和复杂算法。
Spark 是一个通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等,而在 Spark 出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。 -
Oozie
特点:Oozie是一个管理Apache Hadoop作业的工作流调度程序系统。
Oozie工作流作业是操作的直接非周期图(DAGs)。
Oozie协调器作业是由时间(频率)和数据可用性触发的周期性Oozie工作流作业。
Oozie与Hadoop堆栈的其他部分集成在一起,支持几种类型的Hadoop开箱即用作业(如Java map-reduce、流映射-reduce、Pig、Hive、Sqoop和Distcp),以及系统特定的作业(如Java程序和shell脚本)。
Oozie是一个可伸缩、可靠和可扩展的系统。 -
Cloudera Manager
核心是Cloudera Manager Server。Server托管Admin Console Web Server和应用程序逻辑。它负责安装软件、配置、启动和停止服务以及管理运行服务的群集。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/29791.html