大家好,欢迎来到IT知识分享网。
假设我们有一张student数据表:
name |
gender |
age |
score |
张三 |
男 |
16 |
67 |
李四 |
女 |
18 |
98 |
王五 |
男 |
17 |
85 |
假设我们有一个磁盘,那么在经典的行式存储中,数据是怎么存储的呢,数据是按照一行一行的方式存储到数据库当中的,如下图:
列式存储则是:
存储结束后,接下来,我们查询一下数据
select age from t1 where age = ‘男’;
橙色的箭头是磁盘指针第一次指向处,白色箭头则代表磁盘指针取数的第二次指向处;
对于行式存储的数据库,磁盘指针如图所示:
此时,指针会跳过不符合条件的记录,”李四“ 的这条数据,指针会扫描全部区域
那么,对于列式存储来说,则应该是这样取数的:
可以看到如图中所示,磁盘指针只会在存储 “性别” 的这块磁盘片区取数,指针所需要扫描的区域很小。
针对这两种存储方式,我们分别从写入和查询这两个方面进行对比:
行存储 | 列存储 | |
写入 | 写入一次性完成,保证数据完整性 |
把一行记录拆成单列保存,写入次数一般会比行存储多 |
数据修改写入方便 | 不轻易做数据修改写入操作 | |
适用于关系型数据库 | 适用于分析型数据库 | |
读取 | 将一整行的数据全部读出,如果只需要其中的一列或者某几列数据,就会存在冗余列,会有消除冗余列的操作 |
读取的时候只读需要的列, 不存在冗余性问题 |
同一行数据,数据类型一般是不同的,数据解析时需要在多种不同数据类型之间频繁转换,比较消耗CPU,增加解析的时间 |
针对某列数据,数据类型是相同的, 所以在读取的时候一般不需要在各种不同 的数据类型之间频繁切换 |
|
按行压缩,当一行有多个字段,每个字段对应的数据类型可能不一致,压缩性能压缩比就比较差 |
按列压缩,由于每一列对应的相同 数据类型的数据 |
那么我们可以看到,对于行式数据库来讲,更适合处理OLTP类型的数据, 一般用于关系型数据库当中,比如mysql,oracle等等,存储的一般是业务数据。对于列式数据库来讲,更适用于OLAP的数据,如GreenPlum,Treadata等,另外hadoop组件当中就提供的hdfs模块+hive模块就提供了列式存储的功能。
所以,总结来讲,行式存储更适用于传统的关系型数据库,通常用于业务数据存储;而列式存储则更适用于需要进行数据分析的分析型数据库,通常用于分析数据存储。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/15620.html