浅语:我们学习一门心得技术,肯定好奇它为什么应运而生,因此了解它的背景十分重要。它能解决什么才是它的优势。技术都有过时的时候,不过时的是我们使用手中的技术创造新的技术
1、现状:新时代的数据格式多样化,视频,音频,图像等非结构化的数据,传统数据库无法存储,多样化的数据格式,关系型数据库无法建表
如何解决传统数据库的存储问题?答案是文件存储。把网站的TB级以上数据量保存在一个文件里,通过对文件读操作,实现对大数据的分析,方案是不是很完美,NO,面临一个很实际的问题,读取效率低!
那如何解决文件存储慢的问题,答案是分而治之,采取分布式文件存储!!!
分布式文件系统HDFS的原理就是这样的。Hadoop的核心
采用分布式文件系统HDFS已经解决了大数据的存储问题和读取效率问题,试问,如果存储文件的一个服务器出现了故障,文件被损坏,造成数据的丢失,该如何避免这种情况?答案是备份,至少做3个备份,如下图:
HDFS优点总结:
1、支持任意超大文件存储;硬件节点可不断扩展,低成本存储(真实案例为:4000节点,目前最大5000节点);
2 、对上层应用屏蔽分布式部署结构,提供统一的文件系统访问接口,感觉就是一个大硬盘;应用无需知道文件具体存放位置,使用简单;
3、文件分块存储(1块缺省64MB),不同块可分布在不同机器节点上,通过元数据记录文件块位置;应用顺序读取各个块;
4 、系统设计为高容错性,允许廉价PC故障;每块文件数据在不同机器节点上保存3份;这种备份的另一个好处是可方便不同应用就近读取,提高访问效率。
HDFS缺点总结:
1、适合大数据文件保存和分析,不适合小文件,由于分布存储需要从不同节点读取数据,效率反而没有集中存储高;一次写入多次读取,不支持文件修改;
2、是最基础的大数据技术,基于文件系统层面提供文件访问能力,不如数据库技术强大,但也是海量数据库技术的底层依托;
3、文件系统接口完全不同于传统文件系统,应用需要重新开发。
疑问:看到这里优点跟缺点还是很明显的。优点在于解决了数据的存储,数据还是需要写入到节点中才能被访问,感觉要不断的爬取数据存储起来便于分析。这只是初见。作为一个新手的疑问。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/5497.html