Spark
-
spark面试题整理
rdd是分布式弹性数据集,所有的算子都是基于rdd来执行的,rdd执行过程中会形成dag图,然后形成后lineage,如果某个节点上的rdd分区因为节点故障,导致数据丢失,那么rdd可以根据自己的数据来源重新计算该分区,保证容错性,rdd存储是block和node之间的映射,逻辑上是一个hdfs文件,他是被分区的,每个分区分布在集群中不同节点上,从而让rdd的数据可以并行计算.rdd的数据默认存放在内存中,但是内存资源不足时,spark会自动将rdd数据写入磁盘。场景:表关联查询或者处理重复的key….
-
spark面试题总结
spark面试基础篇
-
spark 面试题汇总
大数据面试题汇总大数据面试题汇总-简书spark资源调优1、列式存储和行式存储的区别行存储,数据行存储,一个文件可表达一个二维表。适用于一般的业务场景如CSV文件,文本文件因为这里的行结构是固定的,每一行都一样,即使你不用,也必须空到那里,而不能没有,而这样的空行也是需要占用一定的存储空间的,如果这样的空行占比较大,势必带来较大的存储空间的浪费,那么是否有什么好的解决办法么?相当于将每一行的每一列拆开,然后通过rowkey(行唯一键)关联起来,rowkey…
-
Spark常见20个面试题(含大部分答案)
1、什么是宽依赖,什么是窄依赖?哪些算子是宽依赖,哪些是窄依赖?窄依赖就是一个父RDD分区对应一个子RDD分区,如map,filter或者多个父RDD分区对应一个子RDD分区,如co-partionedjoin宽依赖是一个父RDD分区对应非全部的子RDD分区,如groupByKey,ruduceByKey或者一个父RDD分区对应全部的子RDD分区,如未经协同划分的joinhttps:/……
-
消息中间件MQ与RabbitMQ面试题(2020最新版)
文章目录为什么使用MQ?MQ的优点消息队列有什么优缺点?RabbitMQ有什么优缺点?你们公司生产环境用的是什么消息中间件?Kafka、ActiveMQ、RabbitMQ、RocketMQ有什么优缺点?MQ有哪些常见问题?如何解决这些问题?什么是RabbitMQ?rabbitmq的使用场景RabbitMQ基本概念RabbitMQ的工作模式如何保证RabbitMQ消息的顺序性?消息如何分发?消…
-
史上最全的spark面试题——持续更新中
1.spark中的RDD是什么,有哪些特性?答:RDD(ResilientDistributedDataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合Dataset:就是一个集合,用于存放数据的Destributed:分布式,可以并行在集群计算Resilient:表示弹性的,弹性表示1.RDD中的数据可以存储…