类别:

Spark

  • Hadoop与Spark等大数据框架介绍

    海量数据的存储问题很早就已经出现了,一些行业或者部门因为历史的积累,数据量也达到了一定的级别。很早以前,当一台电脑无法存储这么庞大的数据时,采用的解决方案是使用NFS(网络文件系统)将数据分开存储。但是这种方法无法充分利用多台计算机同时进行分析数据。一个实际的需求场景:日志分析日志分析是对日志中的每一个用户的流量进行汇总求和。对于一个日志文件,如果只有这么几行数据,我们一般会采用这…

    2022-12-13
    382
  • 【Spark】Spark安装详解

    Spark安装详解Spark的详情Spark的安装详解SparkLocal的安装SparkStandalone模式SparkOnYARN模式SparkHA模式Spark的详情Spark的简绍Spark是一种通用的大数据计算框架,是基于RDD(弹性分布式数据集)的一种计算模型。那到底是什么呢?可能很多人还不是太理解,通俗讲就是可以分布式处理大量集数据的,将大量集数据先拆分,分别进行计算,然后再将计算后的结果进行合并。为什么使用SparkSpark在存储器内运行程序的运算速度能做到比Had

    2022-12-08
    248
  • Spark安装部署

    Spark是UC BerkeleyAMPLab开发的类MapRed计算框架。MapRed框架适用于batchjob,但是由于它自身的框架限制,第一,pull-basedheartbeat作业调度。第二,shuffle中间结果全部落地disk,导致了高延迟,启动开销很大。而Spark是为迭代式,交互式计算所生的。第一,它采用了actormodel的akka作为通讯框架。第二,它使用了RDD分

    2022-12-08
    309
  • Spark安装出错问题

    Spark安装出错问题1.环境1.centos7.0版本2.jdk1.83.hadoop2.9.34.spark2.4.3spark-2.4.3-bin-without-hadoop.tgz2.出现的问题1.Spark-shell终端出错报错Exceptioninthread”main”java.lang.NoSuchMethodError:jline.console.completer.CandidateListCompletionHandler.setPrintS

    2022-12-08
    299
  • Spark安装及配置详细步骤

    1、解压scala、spark:tar-zxvfscala-2.11.8.tgztar-zxvfspark-2.4.4-bin-hadoop2.6.tgz2、配置环境变量(master、slave1、slave2分别执行):exportSCALA_HOME=/usr/local/src/scala-2.11.8exportSPARK_HOME=/usr/local/src/…

    2022-12-08
    266
  • spark 安装详细步骤

    1.下载spark安装包,下面是官网连接地址http://spark.apache.org/downloads.html2.进入官网,点击红色框子3.找自己对应的Hadoop版本的安装包4.当前下的是spark-2.3.1-bin-hadoop2.7.tgz5.进入分布式j进入xftp,找自己下载的目录的安装包双击就上传到分布式自己习惯使用的目录下6.cd到自己的安装包路径,看到spark-2.3.1-bin-hadoop2.7.tgz…

    2022-12-08
    319
  • spark安装教程

    spark安装

    2022-12-08
    238
  • spark踩坑记——windows环境下spark安装和运行

    本文主要记录windows系统上安装spark,scala,和inteljIDEA,并实现本地spark运行。同时介绍了利用maven构建工具对spark工程构建的方法。本地运行需要本地安装scala,spark,hadoop。而如果利用maven构建工具则只需要再maven的pom.xml配置好需要的scala,spark,hadoop版本信息,构建时自动导入相应依赖,常用于企业级的项目开发中……

    2022-12-08
    268
  • SparkSQL 概述

    一、SparkSQL是什么SparkSQL是Spark用于结构化数据(structureddata)处理的Spark模块。二、HiveandSparkSQL  SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具。  Hive是早期唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效率,大量的SQL-o

    2022-12-08
    195
  • SparkSQL 总结

    SparkSQL是Spark用于结构化数据(structureddata)处理的Spark模块。

    2022-12-08
    212
  • sparkSQL rdd

    ApacheHive是Hadoop上的SQL引擎,SparkSQL编译时可以包含Hive支持,也可以不包含。包含Hive支持的SparkSQL可以支持Hive表访问、UDF(用户自定义函数)、SerDe(序列化格式和反序列化格式),以及Hive查询语言(HiveQL/HQL)带有Hive支持的SparkSQL的Maven索引groupId…

    2022-12-08
    268
  • sparksql报错

    Exceptioninthread”main”org.apache.spark.sql.catalyst.errors.package$TreeNodeException:execute,tree:Exchangehashpartitioning(subject#6,200)+-*HashAggregate(keys=[subject#6,name#7],functions=[count(1)],output=[subject#6,name#7,c#12L])+-E..

    2022-12-08
    330
  • SparkSQL ETL

    记一次SparkSqlETL过程需求:1)input:json日志2)ETL:根据IP解析出省份,城市3)stat:地区分布指标计算,满足条件的才算,满足条件的赋值为1,不满足的赋值为0(如下图)将统计结果写入MySQL中。(就比如说这个广告请求要满足requestmode=1和processnode=3这两个条件)valspark=SparkSessi…

    2022-12-08
    306
  • sparksql 简单使用

    第一种:通过caseclasspackagecn.lijieimportorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.sql.SQLContext/***Createdbyjieon2017/7/31.*/objectSparkSql01{defmain(args:

    2022-12-08
    377
  • 漫谈大数据 – 基于SparkSQL的离线数仓

    数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

    2022-12-08
    329
  • SparkSql

    目录(SparkSql)本质(是什么)(我在试着讲明白)作用(干什么)(我在试着讲明白)架构(有什么)(我在试着讲明白)SparkSQL由core,catalyst,hive和hive-thriftserver4个部分组成。1.Catalyst执行优化器UDFUDAF开窗函数优缺点(我在试着讲明白)优点缺点流程(怎么运作)(我在试着讲明白)Sql运行流程sparkSql运行原理分析1.使用Se…

    2022-12-08
    385
  • 00后程序员摸爬滚打近一年,为学弟学妹们总结出了以下 7 条人生建议(建议收藏)

    作为一名“00后”,带你分享一下我内心的世界…..

    2022-12-08
    231
  • spark面试题整理

    rdd是分布式弹性数据集,所有的算子都是基于rdd来执行的,rdd执行过程中会形成dag图,然后形成后lineage,如果某个节点上的rdd分区因为节点故障,导致数据丢失,那么rdd可以根据自己的数据来源重新计算该分区,保证容错性,rdd存储是block和node之间的映射,逻辑上是一个hdfs文件,他是被分区的,每个分区分布在集群中不同节点上,从而让rdd的数据可以并行计算.rdd的数据默认存放在内存中,但是内存资源不足时,spark会自动将rdd数据写入磁盘。场景:表关联查询或者处理重复的key….

    2022-12-08
    230
  • spark面试题总结

    spark面试基础篇

    2022-12-08
    232
  • spark 面试题汇总

    大数据面试题汇总大数据面试题汇总-简书spark资源调优1、列式存储和行式存储的区别行存储,数据行存储,一个文件可表达一个二维表。适用于一般的业务场景如CSV文件,文本文件因为这里的行结构是固定的,每一行都一样,即使你不用,也必须空到那里,而不能没有,而这样的空行也是需要占用一定的存储空间的,如果这样的空行占比较大,势必带来较大的存储空间的浪费,那么是否有什么好的解决办法么?相当于将每一行的每一列拆开,然后通过rowkey(行唯一键)关联起来,rowkey…

    2022-12-08
    221
关注微信