HDFS概述

HDFS概述一:HDFS是什么?HDFS是分布式文件管理系统的一种,可以通过它管理多台机器上的文件。简单地说,它是一个文件系统,通过目录树来定位文件,其次,它是分布式的,它把数据存储在多台机器上,实现大量数据的存储。二:它的优点(1)高容错性:每台机器上的数据都有多个备份,正在使用的数据出问题,可以由备

大家好,欢迎来到IT知识分享网。HDFS概述

一:HDFS是什么?

  HDFS是分布式文件管理系统的一种,可以通过它管理多台机器上的文件。

  简单地说,它是一个文件系统,通过目录树来定位文件,其次,它是分布式的,它把数据存储在多台机器上,实现大量数据的存储。

 

二:它的优点

  (1)高容错性:每台机器上的数据都有多个备份,正在使用的数据出问题,可以由备份恢复。

  (2)适合处理大数据:1、能够处理GB,TB,甚至PB级别的数据

  (3)可以构建在廉价机器上,由于所有数据都有多个备份,所以很可靠。

 

三:它的缺点

  (1)不适合低延时数据访问,比如毫秒级的存储数据它是做不到的

  (2)无法高效的对大量小文件进行存储

    原因  1:因为HDFS用NameNOde来管理数据,如果数据小但是数量多,那么NameNode会存储非常多的文件目录和块信息,会耗费大量NameNode的内存。

          它比较适合大文件,少数量式的存储

        2:HDFS的设计目标之一是数据读取时间为寻址时间的100/1左右最好。而小文件寻找起来慢,读取起来快,所以不符合HDFS的设计目标。

 

四:HDFS的组成架构

  HDFS由NameNode、DataNode、Secondary NameNode构成

  NameNode作用:(1)管理HDFS的名称空间

          (2)配置副本策略

          (3)管理数据块的映射信息

          (4)处理客户端的读写请求(存取)

  DataNode:DataNode就是存储数据的机器,HDFS把所有数据分开存储到每台DataNode上

  Secondary NameNode作用:(1)辅助NameNode,分担其工作量

               (2)由于它上面有NameNode的信息备份,所以在NameNode出问题时,可以恢复NameNode

 

五:HDFS文件块的大小

  HDFS的数据存储是分块存储的,块的大小可以通过配置参数来设定。Hadoop2.x版本的数据块大小默认是128M,1.x则是64M。

  注意:HDFS的块设置太小,会增加寻址时间,块设置的太大,会导致程序在处理这块数据的时候会比较慢。块大小的设置主要取决于磁盘传输速率

 

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/33003.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信