你会吗 性能调优外围原理 Spark

  • 电脑网络维修
  • 2024-11-15

用了这么久spark了,当天总结下他的一些优化方面的外围原理,当天咱们分这么几个方面来谈:

一.RDD

RDD是弹性散布式数据集的简称,他是其余起初者,比如DataFrame,DataSet等的基础。他有四大外围属性,如下所示。

这4 大属性又可以划分为两类,横向属性和纵向属性。其中,横向属性锚定数据分片实体,并规则了数据分片在散布式集群中如何散布。

纵向属性用于在纵深方向构建 DAG,经过提供重构 RDD 的容错才干保证内存计算的稳固性。

其实RDD还有个个性:优先位置列表.算上他总共有5大个性。文言文总结就是:3个列表,2个函数。3个列表是分区列表,依赖列表和优先位置列表;2个函数就是:计算函数和分区函数。

二.内存计算

在 Spark 中,内存计算有两层含意:第一层含意就是妇孺皆知的散布式数据缓存,第二层含意是 Stage 内的流水线式计算形式。

流水线计算形式指的是:在同一 Stage 外部,一切算子融合为一个函数,Stage 的输入结果由这个函数一次性性作用在输入数据集而发生。

所谓内存计算,不只仅是指数据可以缓存在内存中,更关键的是,经过计算的融合来大幅优化数据在内存中的转换效率,进而从全体上优化运行的口头性能。

比如这个栗子:

如图所示,在上方的计算流程中,假设你把流水线看作是内存,每一步操作事先都会生成暂时数据,如图中的 clean 和slice,这些暂时数据都会缓存在内存里。但在上方的内存计算中,一切操作步骤如clean、slice、bake,都会被捏合在一同导致一个函数。这个函数一次性性地作用在“带泥土豆”上,间接生成“即食薯片”,在内存中不发生任何两边数据外形。

补充下:从程序员的视角登程,DAG 的构建是经过在散布式数据集上不停地调用算子来成功的,DAG 以 Actions 算子为终点,从后向前回溯,以Shuffle 操作为边界,划分出不同的 Stages。同一 Stage 内一切算子融合为一个函数,Stage的输入结果由这个函数一次性性作用在输入数据集而发生。

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/8321.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号