Spark_IT分享知识网

【Spark】Shuffle详解一、概要1、Shuffle调优概述Spark作业性能主要消耗在Shuffle环境，因为其中包含大量磁盘IO、序列化、网络数据传输等操作，如果想提升作业性能，有必要对Shuffle过程进行调优。但也要注意，影响Spark作业性能因素主要还是代码开发、资源参数以及数据倾斜，Shuffle调优只占一小部分，不要舍本逐末。2、Shuffle发生阶段3、触发Shuffle操作的算子分类操作Repartition相关repartition、coalesce、repartitionA

2024-03-26

166

Spark

Spark面试，Spark面试题，Spark面试汇总

Spark面试，Spark面试题，Spark面试汇总1、你觉得spark可以完全替代hadoop么?Spark会替代MR，Spark存储依赖HDFS，资源调度依赖YARN，集群管理依赖Zookeeper。2、Spark消费Kafka，分布式的情况下，如何保证消息的顺序?Kafka分布式的单位是Partition。如何保证消息有序，需要分几个情况讨论。同一个Partition用一个writeahead…

2024-03-22

312

Spark

大数据学习之 Spark 概述

大数据学习之 Spark 概述Spark简介Spark是一种由Scala语言开发的快速、通用、可扩展的大数据分析引擎。Spark主要由五部分组成：SparkCoreSparkCore中提供了Spark最基础与最核心的功能，Spark其他的功能如：SparkSQL，SparkStreaming，GraphX,MLlib都是在SparkCore的基础上进行扩展的SparkSQLSparkSQL是Spark用来操作结构化数据的组件。通过SparkSQL，用户可以使用SQL或者

2024-03-02

213

Spark

sparkStreaming实践

sparkStreaming实践sparkStreaming实践：案例一：objectScala_List{ defmain(args:Array[String]):Unit={ Logger.getLogger(“org.apache.hadoop”).setLevel(Level.WARN) Logger.getLogger(“org.apache.spark”).setLevel(Level.WARN) Logger.getLogger(“org.spark-project”).setLevel(

2024-02-24

151

Spark

Spark基本概念

Spark基本概念Spark核心组件Driver将用户程序转化为作业（job）在Executor之间调度任务(task) 跟踪Executor的执行情况通过UI展示查询运行情况ExecutorSparkExecutor是集群中工作节点（Worker）中的一个JVM进程，负责在Spark作业中运行具体任务（Task），任务彼此之间相互独立。负责运行组成Spark应用的任务，并将结果返回给驱动器进程它们通过自身的块管理器（BlockManager）为用户程序中要求缓存的RDD提供…

2024-02-16

177

Spark

Spark排序之SortBy

Spark排序之SortBy1、例子1：按照value进行降序排序defsortBy[K](f:(T)=>K,ascending:Boolean=true,//默认为正序排列，从小到大,false:倒序numPartitions:Int=this.partitions.length)(i

2023-12-20

228

Spark

spark-RDD缓存,checkpoint机制,有向无环图,stage

spark-RDD缓存,checkpoint机制,有向无环图,stagespark-RDD缓存,checkpoint机制,有向无环图,stage1.RDD依赖关系RDD依赖关系有2种不同类型，窄依赖和宽依赖。窄依赖(narrowdependency)：是指每个父RDD的Partition最多被子RDD一个Partition使用。就好像独生子女一样。窄依赖的算子包

2023-11-09

323

Spark

spark精华面试题

spark精华面试题spark精华面试题1、driver的功能是什么？1）一个Spark作业运行时包括一个Driver进程，也是作业的主进程，具有main函数，并且有SparkContext的实例，是程序的人口点；2）功能：负责向集群申请资源，向master注册信息，负责了作业的调度，负责作业的解析、生成Stag

2023-10-31

236

Spark

Apache Spark学习

Apache Spark学习关于ApacheSpark1.2003-2006年，谷歌发表了Googlefilesystem、MapReduce、bigtable三篇重量级系统论文，分别讨论了大规模数据如何存储、处理及结构化组织。之后ApacheHadoop社区对这些论文进行了开源实现，开发了hdf分布式文件系统、Ha

2023-10-05

295

Spark

SparkStreaming的介绍及原理

SparkStreaming的介绍及原理一、SparkStreaming的介绍1.离线和流处理的区别1）离线处理是针对一个批次，这个批次一般情况下都比较大流处理对应的数据是连续不断产生，处理时间间隔非常短的数据2）离线处理程序，因为数据是有限的（bounded），所以会终止流数据因为是连续不断的产生，所以数据是无限的（unbounded）由于数据的特征，一般离线处理比较缓慢，流数据处理相对较快流处理：…

2023-09-11

337

Spark

Spark Streaming 对比 Structured Streaming[亲测有效]

Spark Streaming 对比 Structured Streaming[亲测有效]SparkStreamingSparkStreaming是spark最初的流处理框架，使用了微批的形式来进行流处理。提供了基于RDDs的DstreamAPI，每个时间间隔内的数据为一个RDD，源源不断对RDD进行处理来实现流计算。StructuredStreamingSpark2.X出来的流框架，采用了无界表的概念，流数据相当于往一个表上不断追加行。基于SparkSQL引擎实现，可以使用大多数SparkSQL的function。区别1、流模型Spark..

2023-04-15

316

Hadoop

Spark写入es：EsHadoopRemoteException: version_conflict_engine_exception[亲测有效]

Spark写入es：EsHadoopRemoteException: version_conflict_engine_exception[亲测有效]es客户端在写入es时，数据现有的版本号与它所持有的版本号不一致，即有别的client已经修改过数据。 1）首先思考：确保了_id全局唯一，正常情况下同一个_id的数据，仅会被一个spark task执行一次。而es基于乐观锁进行控制，只有其他client在当前client读写…

2023-03-20

396

类别:

Spark