Spark
-
spark 面试题汇总
大数据面试题汇总大数据面试题汇总-简书spark资源调优1、列式存储和行式存储的区别行存储,数据行存储,一个文件可表达一个二维表。适用于一般的业务场景如CSV文件,文本文件因为这里的行结构是固定的,每一行都一样,即使你不用,也必须空到那里,而不能没有,而这样的空行也是需要占用一定的存储空间的,如果这样的空行占比较大,势必带来较大的存储空间的浪费,那么是否有什么好的解决办法么?相当于将每一行的每一列拆开,然后通过rowkey(行唯一键)关联起来,rowkey…
-
Spark常见20个面试题(含大部分答案)
1、什么是宽依赖,什么是窄依赖?哪些算子是宽依赖,哪些是窄依赖?窄依赖就是一个父RDD分区对应一个子RDD分区,如map,filter或者多个父RDD分区对应一个子RDD分区,如co-partionedjoin宽依赖是一个父RDD分区对应非全部的子RDD分区,如groupByKey,ruduceByKey或者一个父RDD分区对应全部的子RDD分区,如未经协同划分的joinhttps:/……
-
消息中间件MQ与RabbitMQ面试题(2020最新版)
文章目录为什么使用MQ?MQ的优点消息队列有什么优缺点?RabbitMQ有什么优缺点?你们公司生产环境用的是什么消息中间件?Kafka、ActiveMQ、RabbitMQ、RocketMQ有什么优缺点?MQ有哪些常见问题?如何解决这些问题?什么是RabbitMQ?rabbitmq的使用场景RabbitMQ基本概念RabbitMQ的工作模式如何保证RabbitMQ消息的顺序性?消息如何分发?消…
-
史上最全的spark面试题——持续更新中
1.spark中的RDD是什么,有哪些特性?答:RDD(ResilientDistributedDataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合Dataset:就是一个集合,用于存放数据的Destributed:分布式,可以并行在集群计算Resilient:表示弹性的,弹性表示1.RDD中的数据可以存储…