大数据之常见组件_开源数据「建议收藏」

大家好，欢迎来到IT知识分享网。

Hdfs：Hadoop分布式文件系统被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。
特点：

HDFS是一个高度容错性的系统，适合部署在廉价的机器上。
HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。
HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。
Hive：基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能
特点：

Hive可以自由的扩展集群的规模，一般情况下不需要重启服务。
Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。
良好的容错性，节点出现问题SQL仍可完成执行。
Hbase：HBase是一个分布式的、非关系型开源数据库。
特点：

HBase是No-SQL的一个典型实现，提升了系统的可扩展性；
HBase支持线性水平扩展，极大提升了系统的可伸缩性和运算能力；
HBase和Google的BigTable有异曲同工之妙，底层也是建立在HDFS(Hadoop分布式文件系统)之上，可以搭建在廉价的PC机集群上。
Zookeeper
官方：Zookeeper 是一个分布式的，开放源码的应用协调服务。是以Fast paxos 算法为基础，实现同步服务，配置维护和命名服务等分布式应用。
特点：zookeeper实现了高性能、高可靠性、和有序的访问、高性能保证了其能应用在大型的分布式文件系统中。
Yarn

在Hadoop生态当中，作为通用的资源管理系统与调度平台，去实现CPU、内存、磁盘、网络等资源进行统一管理与拆分，以容器的形式，为上层应用提供统一的资源服务。
Yarn主要包含四大组件：分别为ResourceManager、NodeManager、ApplicationMaster、Container。
Spark
特点：

高级 API 剥离了对集群本身的关注，Spark 应用开发者可以专注于应用所要做的计算本身。
Spark 很快，支持交互式计算和复杂算法。
Spark 是一个通用引擎，可用它来完成各种各样的运算，包括 SQL 查询、文本处理、机器学习等，而在 Spark 出现之前，我们一般需要学习各种各样的引擎来分别处理这些需求。
Oozie
特点：

Oozie是一个管理Apache Hadoop作业的工作流调度程序系统。
Oozie工作流作业是操作的直接非周期图(DAGs)。
Oozie协调器作业是由时间(频率)和数据可用性触发的周期性Oozie工作流作业。
Oozie与Hadoop堆栈的其他部分集成在一起，支持几种类型的Hadoop开箱即用作业(如Java map-reduce、流映射-reduce、Pig、Hive、Sqoop和Distcp)，以及系统特定的作业(如Java程序和shell脚本)。
Oozie是一个可伸缩、可靠和可扩展的系统。
Cloudera Manager
核心是Cloudera Manager Server。Server托管Admin Console Web Server和应用程序逻辑。它负责安装软件、配置、启动和停止服务以及管理运行服务的群集。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/29791.html

大数据之常见组件_开源数据「建议收藏」

相关推荐

发表回复