大数据之常见组件_开源数据「建议收藏」

大数据之常见组件_开源数据「建议收藏」Hdfs:Hadoop分布式文件系统被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。特点:HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取

大家好,欢迎来到IT知识分享网。

  1. Hdfs:Hadoop分布式文件系统被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。
    特点:

    HDFS是一个高度容错性的系统,适合部署在廉价的机器上。
    HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
    HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。

  2. Hive:基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能
    特点:

    Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。
    Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
    良好的容错性,节点出现问题SQL仍可完成执行。

  3. Hbase:HBase是一个分布式的、非关系型开源数据库。
    特点:

    HBase是No-SQL的一个典型实现,提升了系统的可扩展性; 
    HBase支持线性水平扩展,极大提升了系统的可伸缩性和运算能力; 
    HBase和Google的BigTable有异曲同工之妙,底层也是建立在HDFS(Hadoop分布式文件系统)之上,可以搭建在廉价的PC机集群上。

  4. Zookeeper
    官方:Zookeeper 是一个分布式的,开放源码的应用协调服务。是以Fast paxos 算法为基础,实现同步服务,配置维护和命名服务等分布式应用。
    特点:zookeeper实现了高性能、高可靠性、和有序的访问、高性能保证了其能应用在大型的分布式文件系统中。

  5. Yarn

    在Hadoop生态当中,作为通用的资源管理系统与调度平台,去实现CPU、内存、磁盘、网络等资源进行统一管理与拆分,以容器的形式,为上层应用提供统一的资源服务。
    Yarn主要包含四大组件:分别为ResourceManager、NodeManager、ApplicationMaster、Container。

  6. Spark
    特点:

    高级 API 剥离了对集群本身的关注,Spark 应用开发者可以专注于应用所要做的计算本身。
    Spark 很快,支持交互式计算和复杂算法。
    Spark 是一个通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等,而在 Spark 出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。

  7. Oozie
    特点:

    Oozie是一个管理Apache Hadoop作业的工作流调度程序系统。
    Oozie工作流作业是操作的直接非周期图(DAGs)。
    Oozie协调器作业是由时间(频率)和数据可用性触发的周期性Oozie工作流作业。
    Oozie与Hadoop堆栈的其他部分集成在一起,支持几种类型的Hadoop开箱即用作业(如Java map-reduce、流映射-reduce、Pig、Hive、Sqoop和Distcp),以及系统特定的作业(如Java程序和shell脚本)。
    Oozie是一个可伸缩、可靠和可扩展的系统。

  8. Cloudera Manager
    核心是Cloudera Manager Server。Server托管Admin Console Web Server和应用程序逻辑。它负责安装软件、配置、启动和停止服务以及管理运行服务的群集。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/29791.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信