当前位置：首页 > 维修中心 > 电脑网络维修

大数据基础 Spark上班原理及基础概念

电脑网络维修
2024-11-15

一、Spark 引见及生态

Spark是UC Berkeley AMP Lab开源的通用散布式并行计算框架，目前已成为Apache软件基金会的顶级开源名目。至于为什么咱们要学习Spark，可以总结为上方三点：

1. Spark相关于hadoop的好处

（1）高性能

Spark具备hadoop MR一切的好处，hadoop MR每次计算的两边结果都会存储到HDFS的磁盘上，而Spark的两边结果可以保留在内存，在内存中启动数据处置。

（2）高容错

（3）spark的通用性

spark 是一个通用的大数据计算框架，相关于hadoop它提供了更丰盛的经常使用场景。

spark相关于hadoop map reduce两种操作还提供了更为丰盛的操作，分为action(collect,reduce,save…)和transformations（map,union,join,filter…）,同时在各节点的通讯模型中相关于hadoop的shuffle操作还有分区，控制两边结果存储，物化视图等。

2. spark 生态引见

Spark允许多种编程言语，包括Java、Python、R和Scala。在计算资源调度层允许local形式，standalone形式，yarn形式以及k8s等。

同时spark有多组件的允许运行场景，在spark core的基础上提供了spark Streaming，spark SQL，spark Mllib，spark R，GraphX等组件。

spark Streaming用于实时流计算，spark SQL旨在将相熟的SQL数据库查问与更复杂的基于算法的剖析相联合，GraphX用于图计算，spark Mllib用于机器学习，spark R用于对R言语的数据计算。

spark 允许多种的存储介质，在存储层spark允许从hdfs，hive，aws等读入和写出数据，也允许从hbase，es等大数据库中读入和写出数据，同时也允许从mysql，pg等相关型数据库中读入写出数据，在实时流计算在可以从flume，kafka等多种数据源失掉数据并口头流式计算。

在数据格局上spark也允许的十分丰盛，比如经常出现的txt，json，csv等格局。同时也允许parquet，orc，avro等格局，这几种格局在数据紧缩和海量数据查问上好处也较为显著。

二、spark 原理及特点

1. spark core

Spark Core是Spark的外围，其蕴含如下几个局部：

（1）spark 基础性能

sparkContext是spark运行程序的入口，spark运行程序的提交和口头离不开sparkContext，它暗藏了网络通讯，散布式部署，信息通讯，存储体系，计算存储等，开发人员只有要经过sparkContext等api启动开发即可。

sparkRpc 基于netty成功，分为异步和同步两种方式。事情总线关键用于sparkContext组件间的替换，它属于监听者形式，驳回异步伐用。度量系统关键用于系统的运转监控。

（2）spark 存储系统

它用于治理spark运转中依赖的数据存储方式和存储位置，spark的存储系统优先思考在各节点以内存的方式存储数据，内存无余时将数据写入磁盘中，这也是spark计算性能高的关键要素。

咱们可以灵敏的控制数据存储在内存还是磁盘中，同时可以经过远程网络调用将结果输入到远程存储中，比如hdfs，hbase等。

（3）spark 调度系统

spark 调度系统关键由DAGScheduler和TaskScheduler组成。

DAGScheduler 关键是把一个Job依据RDD间的依赖相关，划分为多个Stage，关于划分后的每个Stage都形象为一个或多个Task组成的义务集，并交给TaskScheduler来进后退一步的义务调度。而TaskScheduler 担任对每个详细的Task启动调度。

详细调度算法有FIFO，FAIR：

2. spark sql

spark sql提供了基于sql的数据处置方法，使得散布式的数据集处置变的愈加繁难，这也是spark 宽泛经常使用的关键要素。

目前大数据相关计算引擎一个关键的评估目的就是：能否允许sql，这样才会降落经常使用者的门槛。spark sql提供了两种形象的数据汇合DataFrame和DataSet。

DataFrame 是spark Sql 对结构化数据的形象，可以繁难的了解为spark中的表，相比拟于RDD多了数据的表结构信息(schema).DataFrame => 3. spark streaming

这个模块关键是对流数据的处置，允许流数据的可伸缩和容错处置，可以与Flume和Kafka等已树立的数据源集成。Spark Streaming的成功，也经常使用RDD形象的概念，使得在为流数据编写运行程序时更为繁难。

4. spark特点

（1）spark 计算速度快

spark将每个义务构建成DAG启动计算，外部的计算环节经过弹性式散布式数据集RDD在内存在启动计算，相比于hadoop的mapreduce效率优化了100倍。

（2）易于经常使用

spark 提供了少量的算子，开发只有调用相关api启动成功不可关注底层的成功原理。通用的大数据处置打算

相较于以前离线义务驳回mapreduce成功，实时义务驳回storm成功，目前这些都可以经过spark来成功，降落来开发的老本。同时spark 经过spark SQL降落了用户的学习经常使用门槛，还提供了机器学习，图计算引擎等。

（3）允许多种的资源治理形式

学习经常使用中可以驳回local 模型启动义务的调试，在正式环境中又提供了standalone，yarn等形式，繁难用户选用适宜的资源治理形式启动适配。

（4）社区允许

spark 生态圈丰盛，迭代降级快，成为大数据畛域必备的计算引擎。

三、spark 运转形式及集群角色

1. spark运转形式

2. spark集群角色

下图是spark的集群角色图，关键有集群治理节点cluster manager，上班节点worker，口头器executor，驱动器driver和运行程序application 五局部组成，上方详细说明每局部的特点。

（1）Cluster Manager

集群治理器，它存在于Master进程中，关键用来对运行程序放开的资源启动治理，依据其部署形式的不同，可以分为local，standalone，yarn，mesos等形式。

worker是spark的上班节点，用于口头义务的提交，关键上班职责有上方四点：

在yarn 形式下运转worker节点普通指的是NodeManager节点，standalone形式下运转普通指的是slave节点。

（3）executor

executor 是真正口头计算义务的组件，它是application运转在worker上的一个进程。这个进程担任Task的运转，它能够将数据保留在内存或磁盘存储中，也能够将结果数据前往给Driver。

（4）Application

application是Spark API 编程的运行程序，它包括成功Driver性能的代码和在程序中各个executor上要口头的代码，一个application由多个job组成。其中运行程序的入口为用户所定义的main方法。

驱动器节点，它是一个运转Application中main函数并创立SparkContext的进程。application经过Driver 和Cluster Manager及executor启动通讯。它可以运转在application节点上，也可以由application提交给Cluster Manager，再由Cluster Manager布置worker启动运转。

Driver节点也担任提交Job，并将Job转化为Task，在各个Executor进程间协调Task的调度。

（6）sparkContext

sparkContext是整个spark运行程序最关键的一个对象，是Spark一切性能的关键入口点。外围作用是初始化spark运行程序所须要的组件，同时还担任向master程序启动注册等。

3. spark其它外围概念

它是Spark中最关键的一个概念，是弹性散布式数据集，是一种容错的、可以被并行操作的元素汇合，是Spark对一切数据处置的一种基本形象。可以经过一系列的算子对rdd启动操作，关键分为Transformation和Action两种操作。

DAG是一个有向无环图，在Spark中，经常使用 DAG 来形容咱们的计算逻辑。关键分为DAG Scheduler 和Task Scheduler。

图片出自：

（3）DAG Scheduler

DAG Scheduler 是面向stage的上层级的调度器，DAG Scheduler把DAG拆分为多个Task，每组Task都是一个stage，解析时是以shuffle为边界启动反向构建的，每当遇见一个shuffle，spark就会发生一个新的stage，接着以TaskSet的方式提交给底层的调度器（task scheduler），每个stage封装成一个TaskSet。DAG Scheduler须要记载RDD被存入磁盘物化等举措，同时会须要Task寻觅最优等调度逻辑，以及监控因shuffle跨节点输入造成的失败。

（4）Task Scheduler

Task Scheduler 担任每一个详细义务的口头。它的关键职责包括

job是有多个stage构建的并行的计算义务，job是由spark的action操作来触发的，在spark中一个job蕴含多个RDD以及作用在RDD的各种操作算子。

DAG Scheduler会把DAG切割成多个相互依赖的Stage，划分Stage的一个依据是RDD间的宽窄依赖。

在对Job中的一切操作划分Stage时，普通会依照倒序启动，即从Action开局，遇到窄依赖操作，则划分到同一个口头阶段，遇到宽依赖操作，则划分一个新的口头阶段，且新的阶段为之前阶段的parent，而后依次类推递归口头。

child Stage须要期待一切的parent Stage口头完之后才可以口头，这时Stage之间依据依赖相关形成了一个大粒度的DAG。在一个Stage内，一切的操作以串行的Pipeline的方式，由一组Task成功计算。

（7）TaskSet Task

TaskSet 可以了解为一种义务，对应一个stage，是Task组成的义务集。一个TaskSet中的一切Task没有shuffle依赖可以并行计算。

Task是spark中最独立的计算单元，由Driver Manager发送到executer口头，通常状况一个task处置spark RDD一个partition。Task分为ShuffleMapTask和ResultTask两种，位于最后一个Stage的Task为ResultTask，其余阶段的属于ShuffleMapTask。

四、spark作业运转流程

1. spark作业运转流程

spark运行程序以进程汇合为单位在散布式集群上运转，经过driver程序的main方法创立sparkContext的对象与集群启动交互。详细运转流程如下：

2. spark RDD迭代环节

3. yarn资源治理器引见

spark 程序普通是运转在集群上的，spark on yarn是上班或消费上用的十分多的一种运转形式。

没有yarn形式前，每个散布式框架都要跑在一个集群上方，比如说Hadoop要跑在一个集群上，Spark用集群的时刻跑在standalone上。这样的话整个集群的资源的应用率低，且治理起来比拟费事。

yarn是散布式资源治理和义务治理治理，关键由ResourceManager，NodeManager和ApplicationMaster三个模块组成。

ResourceManager 关键担任集群的资源治理，监控和调配。关于一切的运行它有相对的控制权和资源治理权限。

NodeManager 担任节点的保养，口头和监控task运转状况。会经过心跳的方式向ResourceManager汇报自己的资源经常使用状况。

yarn资源治理器的每个节点都运转着一个NodeManager，是ResourceManager的代理。假设主节点的ResourceManager宕机后，会衔接ResourceManager的备用节点。

ApplicationMaster 担任详细运行程序的调度和资源的协调，它会与ResourceManager协商启动资源放开。ResourceManager以container容器的方式将资源调配给application启动运转。同时担任义务的启停。

container 是资源的形象，它封装着每个节点上的资源信息(cpu,内存，磁盘，网络等)，yarn将义务调配到container上运转，同时该义务只能经常使用container形容的资源，到达各个义务间资源的隔离。

4. spark程序在yarn上口头流程

spark on yarn分为两种形式yarn-client形式，和yarn—cluster形式，普通线上驳回的是yarn-cluster形式。

（1）yarn-client形式

driver在客户端本地口头，这种形式可以使得spark application和客户端启动交互，由于driver在客户端可以经过webUI访问driver的形态。同时Driver会与yarn集群中的Executor启动少量的通讯，会形成客户机网卡流量的少量参与。

（2）yarn-cluster形式

Yarn-Cluster关键用于消费环境中，由于Driver运转在Yarn集群中某一台NodeManager中，每次提交义务的Driver所在的机器都是随机的，不会发生某一台机器网卡流量激增的现象，缺陷是义务提交后不能看到日志。只能经过yarn检查日志。

下图是yarn-cluster运转形式：

client 向yarn提交运行程序，蕴含ApplicationMaster程序、启动ApplicationMaster的命令、须要在Executor中运转的程序等。

ApplicationMaster程序启动ApplicationMaster的命令、须要在Executor中运转的程序等。

ApplicationMaster向ResourceManager注册，这样用户可以间接经过ResourceManage检查运行程序的运转形态。

ApplicationMaster放开到资源（也就是Container）后，便与对应的NodeManager通讯，启动Task。

Task向ApplicationMaster汇报运转的形态和进展，以让ApplicationMaster随时把握各个义务的运转形态，从而可以在义务失败时从新启动义务。

运行程序运转成功后，ApplicationMaster向ResourceManager放开注销并封锁自己。

关注微信

上一篇：ON Spark Yarn的资源调配图解

下一篇：百万周下载量 node

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：https://duobeib.com/diannaowangluoweixiu/8344.html

大数据基础 Spark上班原理及基础概念

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

如何优雅地封锁线程池

为什么Python开发人员应该经常使用Pipenv

思科打造下一代安保移动接入打算

清点2021丨三大运营商的高光时辰

须要新的运行开发逻辑 Thoughtworks肖然大模型走向群众

关注我们

大数据基础 Spark上班原理及基础概念

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号