Hadoop集群容量还可以这样裁减 不开玩笑

  • 电脑网络维修
  • 2024-11-15

了解更少数字化转型方案检查此链接:

说起

它的小名在IT圈已是

无人不知,无人不晓

Hadoop的出现

让用户可以在不了解

散布式底层细节的状况下

开发散布式程序

同时还能充沛应用集群的威力

启动高速运算和存储

就好比蚂蚁赛大象

便宜的机器群也可以匹敌高性能计算机

但另一方面

越来越多客户

始终缩短Hadoop节点的购置周期

要素就是存储空间无余!

而假设按容量需求购置少量主机

则会有少量计算资源被糜费

因此,面对从天而降的海量数据,咱们是沿用原有的横向裁减node模式还是纵向 裁减存储 呢? 假设驳回存储纵向裁减模式,那该如何衔接?用什么存储?能否会带来治理复杂度?能否会影响性能?架构如何搭建?

Hadoop散布式架构+存储

不是开玩笑!

听到Hadoop散布式架构+存储这一律念,置信会有很多人质疑这种架构 ,也会有人以为小编疑问Hadoop,没有互联网基因。哈哈,不论了,提起Hadoop横向裁减的全散布式架构,简直以上的用户应该都是横向平等的裁减(即主机),很少有人会在Hadoop架构下联想存储的经常使用方法。

其实小编最后也是一样的想法,Hadoop用什么存储?用什么存储看起来都不完美,原谅我对机房的规划有强制症,不青睐那种不对称的规划。但随着Hadoop客户的始终壮大,他们面临的理想需求却在始终地敲打着我。

虽然很多客户对Hadoop架构下经常使用存储抱有抵触的思想, 但也有不少客户在尝试,逐渐意识到Hadoop架构下经常使用一些特定存储并没有破坏Hadoop的全散布式结构,也没有扭转Hadoop对磁盘的治理 。只是咱们在始终横向裁减节点的同时,适时的也可以关注一下存储磁盘的纵向裁减。

看到这里,你还疑心小编是来说大话的吗?哈哈,咱们继续下去,先便捷引见一下Hadoop。

Hadoop是一个由Apache基金会所开发的散布式系统基础架构。Hadoop成功了一个散布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性特点,并且设计用来部署在昂贵的配件上,它还提供高吞吐量来访问运行程序的数据,适宜那些有着超大数据集的运行程序。

Hadoop的出现,也让软件定义存储的经常使用到达了一个史无前例的高度,在一些互联网类的企业里,少则十几个节点,多则几千个节点的Hadoop集群拔地而起,运行场景越来越丰盛,数据量也带来了几何倍数的增长。

从扫尾的话题咱们知道,面对海量数据,假设继续沿用横向裁减node模式裁减,肯定会形成糜费, 因此本文就来分享一些客户在Hadoop环境下经常使用JBOD存储,从而减低全体老本的经常使用方法

关于JBOD

JBOD(Justa bunch of disk)俗称硬盘裁减柜。也就是说, 这套存储并没有控制器单元,也没有性能CPU/内存等部件 ,也没有对磁盘的RAID治理,它十分便捷,也十分经典。正由于JBOD自身不性能任何逻辑治理,将所有磁盘治理都交由Hadoop,所以JBOD能和Hadoop完美融合。

上方,咱们就来引见JBOD是如何让Hadoop集群变得更经济、更环保。

一波三折的裁减磁盘模式

首先,Hadoop中除了运行的组件之外,关键有两种node是咱们经常关注的,一个是Master node,一个是Data node,如下图所示,客户的Master node继续沿用R640/R630的1U主机节点,Data node沿用戴尔易安信R740/R730主机。经过Edge node与Client端(Hadoop Component Client)启动通信。

随着业务始终的开展,Hadoop集群也须要始终的裁减,此时认真的客户运维人员发现, 最近几次的节点裁减都是由于磁盘容量不够形成的,其实节点内的CPU/内存占用率并不高 。所以能否有一种只裁减磁盘的便捷模式呢?

▐ 开局总会走一些弯路。咱们介绍了带有控制器的默认存储设备, 想用默认存储的性能代替Hadoop的治理,结果经常使用成果不好

Hadoop想全控磁盘,而默认存储对磁盘又有自己的了解,所以形成两种结果,要么是将一局部业务分拆进去,独自用存储提供数据服务;要么是将默认存储放在Hadoop架构经常使用,很多初级性能又不能施展作用。

▐ 于是咱们换第二种方案,用低端的带有控制器的存储设备,经过FC/iSCSI模式将磁盘映射给Data node经常使用

结果在测试环节中,发现条带化后的磁盘,在Hadoop架构下,反而降落了性能,同时HDFS(Hadoop的文件系统)所提供的节点间数据复制技术已满足数据备份需求,无需经常使用RAID的冗余机制。因此这种方案也被否认。

这样看来,只要最便捷的JBOD可以再次尝试一下,这是一个不带任何逻辑治理的磁盘组,他没有带控制器存储的RAID条带技术。 虽然RAID条带化技术(RAID 0)被宽泛用户优化性能,然而其速度依然比用在HDFS里的JBOD性能慢

JBOD在一切磁盘之间循环调度HDFS块。 RAID 0的读写操作受限于磁盘阵列中最慢盘片的速度,而JBOD的磁盘操作均独立,因此平均读写速度高于最慢盘片的读写速度 。须要强调的是,各个磁盘的性能在实践经常使用中总存在相当大的差异,即使关于相反型号的磁盘。在一个测试(Gridmix)中,JBOD比RAID 0 快10%;在另一测试(HDFS写吞吐量)中,JBOD比RAID 0 快30%。

好了,既然JBOD自身性能不差,那么接口会不会慢呢?

接口当然是4通道的12Gb SAS,转换一下单位, 每个接口可以到达6GB/s左右的速率 ,要知道每一块7200转的机械磁盘实践读写速率基本上在100MB/s左右。而一个84盘位的JBOD可以提供6个12Gb SAS接口,通常上可以同时衔接6个Data node启动数据访问,并发带宽通常上可以到达36GB/s的接口速率。(实践无法能用到这么大带宽,毕竟后端的磁盘数量是有限的,所以瓶颈不在接口)。

性能看来不是疑问,那么Data node上要做什么扭转呢?

能否须要很复杂的驱动程序?能否会影响Data node上的组件运转? 答案其实很便捷,只要要在Data node上装置最罕用的12Gb SAS卡即可,Linux操作系统下,其驱动也是极端轻量的装置程序 ,并不会对下层的组件有任何影响。

于是,就有了上图。在一个10PB+的Hadoop集群中,未然发现了JBOD的身影, 经过JBOD的引入,极大降落了Data node的裁减,从而让机柜空间降落了65%,功耗降落了37%,总体老本降落了35% !对客户来说,这可都是真金白银的老本节俭啊。

最后,来引见一下戴尔易安信的JBOD家族吧

目前, 戴尔易安信PowerVault存储系列 有MD1、MD1420和ME484三款JBOD裁减机柜选项,可与第13代和第14代PowerEdge主机配合经常使用,借助丰盛的盘柜选项、硬盘类型和操作系统选项协助用户成功轻松裁减,并以灵敏的设计方案满足用户的特定需求。同季节俭在空间、电力和冷却方面的支出。

裁减Hadoop集群容量,这里还有经济又适用的模式!

尊崇的读者

戴尔科技个人中国钻研院

VMware翻新网络 主办的

《前沿“机器学习减速”网络研讨会》

第四期来啦

本期内容,咱们将聚焦

《基于可编程替换机的网络计算减速机器学习》

戴尔科技个人中国钻研院

首席工程师胡晨光

为您带来解说

6月5日(周五)

下午14:00-15:00

咱们不见不散

扫描下方二维码或

点击文末“阅读原文”即可报名加入

关系内容介绍: 入门级存储,能和它“打”的一个都没有

关系产品: Dell EMC PowerStore X 系列存储

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/8005.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号