Spark_第3页_IT分享知识网

Spark

spark面试题整理

rdd是分布式弹性数据集，所有的算子都是基于rdd来执行的，rdd执行过程中会形成dag图，然后形成后lineage,如果某个节点上的rdd分区因为节点故障，导致数据丢失，那么rdd可以根据自己的数据来源重新计算该分区，保证容错性，rdd存储是block和node之间的映射，逻辑上是一个hdfs文件，他是被分区的，每个分区分布在集群中不同节点上，从而让rdd的数据可以并行计算.rdd的数据默认存放在内存中，但是内存资源不足时，spark会自动将rdd数据写入磁盘。场景：表关联查询或者处理重复的key….

2022-12-08

261

Spark

spark面试题总结

spark面试基础篇

2022-12-08

277

Spark

spark 面试题汇总

大数据面试题汇总大数据面试题汇总-简书spark资源调优1、列式存储和行式存储的区别行存储，数据行存储，一个文件可表达一个二维表。适用于一般的业务场景如CSV文件，文本文件因为这里的行结构是固定的，每一行都一样，即使你不用，也必须空到那里，而不能没有，而这样的空行也是需要占用一定的存储空间的，如果这样的空行占比较大，势必带来较大的存储空间的浪费，那么是否有什么好的解决办法么？相当于将每一行的每一列拆开，然后通过rowkey（行唯一键）关联起来，rowkey…

2022-12-08

263

Spark

Spark常见20个面试题（含大部分答案）

1、什么是宽依赖，什么是窄依赖？哪些算子是宽依赖，哪些是窄依赖？窄依赖就是一个父RDD分区对应一个子RDD分区，如map，filter或者多个父RDD分区对应一个子RDD分区，如co-partionedjoin宽依赖是一个父RDD分区对应非全部的子RDD分区，如groupByKey，ruduceByKey或者一个父RDD分区对应全部的子RDD分区，如未经协同划分的joinhttps:/……

2022-12-08

393

Spark

消息中间件MQ与RabbitMQ面试题（2020最新版）

文章目录为什么使用MQ？MQ的优点消息队列有什么优缺点？RabbitMQ有什么优缺点？你们公司生产环境用的是什么消息中间件？Kafka、ActiveMQ、RabbitMQ、RocketMQ有什么优缺点？MQ有哪些常见问题？如何解决这些问题？什么是RabbitMQ？rabbitmq的使用场景RabbitMQ基本概念RabbitMQ的工作模式如何保证RabbitMQ消息的顺序性？消息如何分发？消…

2022-12-08

280

Spark

史上最全的spark面试题——持续更新中

1.spark中的RDD是什么，有哪些特性？答：RDD（ResilientDistributedDataset）叫做分布式数据集，是spark中最基本的数据抽象，它代表一个不可变，可分区，里面的元素可以并行计算的集合Dataset：就是一个集合，用于存放数据的Destributed：分布式，可以并行在集群计算Resilient：表示弹性的，弹性表示1.RDD中的数据可以存储…

2022-12-08

779

类别:

Spark

spark面试题整理

spark面试题总结

spark 面试题汇总

Spark常见20个面试题（含大部分答案）

消息中间件MQ与RabbitMQ面试题（2020最新版）

史上最全的spark面试题——持续更新中