类别:

Spark

  • Spark实战(1)——词频统计

    Spark实战(1)——词频统计题目要求对文本文件内的每个单词都统计出其出现的次数 按照每个单词出现次数的数量 降序排序

    2024-11-08
    17
  • Spark 开窗函数中order By的作用

    Spark 开窗函数中order By的作用最近几天,受到打击了,总是被人问到 开窗函数中加入 order by 和 不加 order by 有什么区别。| 5| 2| 8|。

    2024-08-18
    48
  • 一文秒懂大数据流实时处理框架Flink与Spark的异同点

    一文秒懂大数据流实时处理框架Flink与Spark的异同点阅读本文约需要10分钟,您可以先关注我们,避免下次无法找到。

    2024-05-17
    137
  • Spark VS Flink 大数据该怎么选?

    Spark VS Flink:功能比较。Spark和Flink中的功能集在很多方面都不同,如下表所示:添加图片注释,不超过 140 字。

    2024-05-17
    118
  • PySpark源码解析,用Python调用高效Scala接口,搞定大规模数据分析

    机器之心专栏作者:汇量科技-陈绪相较于Scala语言而言,Python具有其独有的优势及广泛应用性,因此Spark也推出了PySpark,在框架

    2024-05-03
    126
  • 像原设计者一样深入理解 Spark

    像原设计者一样深入理解 Spark显然,该框架已经成为一个赢家,特别是在数据工程方面。本文是对 Spark 组件的一个非常简单的介绍,其主要目的是提供对 Spark 架构的一般理

    2024-04-23
    127
  • 【Spark】Shuffle详解

    【Spark】Shuffle详解一、概要1、Shuffle调优概述Spark作业性能主要消耗在Shuffle环境,因为其中包含大量磁盘IO、序列化、网络数据传输等操作,如果想提升作业性能,有必要对Shuffle过程进行调优。但也要注意,影响Spark作业性能因素主要还是代码开发、资源参数以及数据倾斜,Shuffle调优只占一小部分,不要舍本逐末。2、Shuffle发生阶段3、触发Shuffle操作的算子分类操作Repartition相关repartition、coalesce、repartitionA

    2024-03-26
    147
  • Spark面试,Spark面试题,Spark面试汇总

    Spark面试,Spark面试题,Spark面试汇总1、你觉得spark可以完全替代hadoop么?Spark会替代MR,Spark存储依赖HDFS,资源调度依赖YARN,集群管理依赖Zookeeper。2、Spark消费Kafka,分布式的情况下,如何保证消息的顺序?Kafka分布式的单位是Partition。如何保证消息有序,需要分几个情况讨论。 同一个Partition用一个writeahead…

    2024-03-22
    298
  • 大数据学习 之 Spark 概述

    大数据学习 之 Spark 概述Spark简介Spark是一种由Scala语言开发的快速、通用、可扩展的大数据分析引擎。Spark主要由五部分组成:SparkCoreSparkCore中提供了Spark最基础与最核心的功能,Spark其他的功能如:SparkSQL,SparkStreaming,GraphX,MLlib都是在SparkCore的基础上进行扩展的SparkSQLSparkSQL是Spark用来操作结构化数据的组件。通过SparkSQL,用户可以使用SQL或者

    2024-03-02
    198
  • sparkStreaming实践

    sparkStreaming实践sparkStreaming实践:案例一:objectScala_List{ defmain(args:Array[String]):Unit={ Logger.getLogger(“org.apache.hadoop”).setLevel(Level.WARN) Logger.getLogger(“org.apache.spark”).setLevel(Level.WARN) Logger.getLogger(“org.spark-project”).setLevel(

    2024-02-24
    136
  • Spark基本概念

    Spark基本概念Spark核心组件Driver将用户程序转化为作业(job) 在Executor之间调度任务(task) 跟踪Executor的执行情况 通过UI展示查询运行情况ExecutorSparkExecutor是集群中工作节点(Worker)中的一个JVM进程,负责在Spark作业中运行具体任务(Task),任务彼此之间相互独立。 负责运行组成Spark应用的任务,并将结果返回给驱动器进程 它们通过自身的块管理器(BlockManager)为用户程序中要求缓存的RDD提供…

    2024-02-16
    156
  • Spark排序之SortBy

    Spark排序之SortBy1、例子1:按照value进行降序排序defsortBy[K](f:(T)=>K,ascending:Boolean=true,//默认为正序排列,从小到大,false:倒序numPartitions:Int=this.partitions.length)(i

    2023-12-20
    198
  • spark-RDD缓存,checkpoint机制,有向无环图,stage

    spark-RDD缓存,checkpoint机制,有向无环图,stagespark-RDD缓存,checkpoint机制,有向无环图,stage1.RDD依赖关系RDD依赖关系有2种不同类型,窄依赖和宽依赖。窄依赖(narrowdependency):是指每个父RDD的Partition最多被子RDD一个Partition使用。就好像独生子女一样。窄依赖的算子包

    2023-11-09
    301
  • spark精华面试题

    spark精华面试题spark精华面试题1、driver的功能是什么?1)一个Spark作业运行时包括一个Driver进程,也是作业的主进程,具有main函数,并且有SparkContext的实例,是程序的人口点;2)功能:负责向集群申请资源,向master注册信息,负责了作业的调度,负责作业的解析、生成Stag

    2023-10-31
    222
  • Apache Spark学习

    Apache Spark学习关于ApacheSpark1.2003-2006年,谷歌发表了Googlefilesystem、MapReduce、bigtable三篇重量级系统论文,分别讨论了大规模数据如何存储、处理及结构化组织。之后ApacheHadoop社区对这些论文进行了开源实现,开发了hdf分布式文件系统、Ha

    2023-10-05
    266
  • SparkStreaming的介绍及原理

    SparkStreaming的介绍及原理一、SparkStreaming的介绍1.离线和流处理的区别1)离线处理是针对一个批次,这个批次一般情况下都比较大流处理对应的数据是连续不断产生,处理时间间隔非常短的数据2)离线处理程序,因为数据是有限的(bounded),所以会终止流数据因为是连续不断的产生,所以数据是无限的(unbounded)由于数据的特征,一般离线处理比较缓慢,流数据处理相对较快流处理:…

    2023-09-11
    320
  • Spark Streaming 对比 Structured Streaming[亲测有效]

    Spark Streaming 对比 Structured Streaming[亲测有效]SparkStreamingSparkStreaming是spark最初的流处理框架,使用了微批的形式来进行流处理。提供了基于RDDs的DstreamAPI,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算。StructuredStreamingSpark2.X出来的流框架,采用了无界表的概念,流数据相当于往一个表上不断追加行。基于SparkSQL引擎实现,可以使用大多数SparkSQL的function。区别1、流模型Spark..

    2023-04-15
    295
  • Spark写入es:EsHadoopRemoteException: version_conflict_engine_exception[亲测有效]

    Spark写入es:EsHadoopRemoteException: version_conflict_engine_exception[亲测有效]es客户端在写入es时,数据现有的版本号与它所持有的版本号不一致,即有别的client已经修改过数据。 1)首先思考:确保了_id全局唯一,正常情况下同一个_id的数据,仅会被一个spark task执行一次。而es基于乐观锁进行控制,只有其他client在当前client读写…

    2023-03-20
    379
  • Spark项目实战-Hive安装[通俗易懂]

    Spark项目实战-Hive安装[通俗易懂]Hive官网地址:https://hive.apache.org/cdh版Hive下载地址:http://archive.cloudera.com/cdh5/cdh/5/Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简…

    2022-12-17
    416
  • Hive On Spark伪分布式开发环境搭建[通俗易懂]

    Hive On Spark伪分布式开发环境搭建[通俗易懂]因为工作中需要用到Hive On Spark的模式,做数据仓库,但是由于开发环境的服务器资源较为紧张,目前不能将CDH部署到开发环境,毕竟CDH

    2022-12-17
    314
关注微信