Hadoop 终于有人把 生态的外围讲明确了!

  • 电脑网络维修
  • 2024-11-15

Hadoop是一个由Apache基金会开发的散布式系统基础架构。开发人员可以在不了遣散布式底层细节的状况下开发散布式程序,充沛应用集群的威力启动高速并行运算以及海量数据的散布式存储。Hadoop大数据技术架构如图1所示。

图1 Hadoop大数据技术架构

但是,Hadoop不是一个孤立的技术,而是一套完整的生态圈,如图2所示。在这个生态圈中,Hadoop最外围的组件就是散布式文件系统HDFS和散布式计算框架MapReduce。HDFS为海量的数据提供了存储,是整个大数据平台的基础,而MapReduce则为海量的数据提供了计算才干。在它们之上有各种大数据技术框架,包含数据仓库Hive、流式计算Storm、数据开掘工具Mahout和散布式数据库HBase。此外,ZooKeeper为Hadoop集群提供了高牢靠运转的框架,保证Hadoop集群在局部节点宕机的状况下依然牢靠运转。Sqoop与Flume区分是结构化与非结构化数据采集工具,经过它们可以将海量数据抽取到Hadoop平台上,启动后续的大数据剖析。

图2 Hadoop大数据生态圈

Cloudera与Hortonworks是大数据的集成工具,它们将大数据技术的各种组件集成在一同,简化妆置、部署等上班,并提供一致的性能、治理、监控等性能。Oozie是一个业务编排工具,咱们将复杂的大数据解决环节解耦成一个个小脚本,而后用Oozie组织在一同启动业务编排,活期口头与调度。

01散布式文件系统

过去,咱们用诸如DOS、Windows、Linux、UNIX等许多系统来在计算机上存储并治理各种文件。与它们不同的是,散布式文件系统是将文件散列地存储在多个主机上,从而可以并行解决海量数据。

Hadoop的散布式文件系统HDFS如图3所示,它首先将主机集群分为称号节点(NameNode)与数据节点(DataNode)。称号节点是控制节点,当要求存储数据时,称号节点将很大的数据文件拆分红一个个大小为128MB的小文件,而后散列存储在其下的很少数据节点中。当Hadoop要求解决这个数据文件时,实践上就是将其散布到各个数据节点上启动并行解决,使性能失掉大幅优化。

图3 散布式文件系统HDFS

同时,每个小文件在存储时,还会启动多节点复制(自动是3节点复制),一方面可以并行读取数据,另一方面可以保证数据的安保,即任何一个节点失效,数据都不会失落。当一个节点宕机时,假设该节点的数据无余3份,就会立刻动员数据复制,一直坚持3节点的复制。正由于具备这样高牢靠的文件存储,Hadoop的部署不要求备份,也不要求磁盘镜像,在Hadoop集群的各个节点中挂载大容量的磁盘并性能Raid0就可以了。

02散布式计算框架

Hadoop的另一个关键组件是散布式计算框架MapReduce,它将海量数据的解决散布到许少数据节点中并前启动,从而提高系统的运转效率。

MapReduce计算词频的解决环节如图4所示。在这个环节中,首先输入要解决的数据文件,经过Splitting将其拆分到各个节点中,并在这些节点的本地口头Mapping,将其制形成一个Map。不同的义务可以设计不同的Map。譬如,如今的义务是计算词频,因此该Map的key是不同的词,value是1。这样,在后续的解决环节中,将相反词的1加在一同就是该词的词频了。

图4 散布式计算框架MapReduce

Mapping操作口头完,就开局Shuffling操作。它是整个口头环节中效率最差的局部,要求在各个节点间替换数据,将同一个词的数据放到同一个节点上。如何有效地降落替换的数据量成为优化性能的关键。接着,在每个节点的本地口头Reducing操作,将同一个词的这些1加在一同,就失掉了词频。最后,将散布在各个节点的结果集中到一同,就可以输入了。

整个计算有6个解决环节,那么为什么它的名字叫MapReduce呢?由于其余解决环节都被框架封装了,开发人员只有要编写Map和Reduce环节就能成功各种各样的数据解决。这样,技术门槛降落了,大数据技术得以盛行起来。

03优缺陷

与传统的数据库相比,MapReduce散布式计算只管有无可比拟的性能长处,但并不实用于一切场景。MapReduce没有索引,它的每次计算都是“暴力全扫描”,行将整个文件的一切数据都扫描一遍。假设要剖析的结果触及该文件80%以上的数据,与相关型数据库相比,能取得十分优秀的性能。假设只是为了查找该文件中的某几十条记载,那么它既消耗资源,性能也没有相关型数据库好。因此,MapReduce的散布式计算更适宜在后盾对批量数据启动离线计算,即一次性性对海量数据启动剖析、整顿与运算。它并不实用于在前台面向终端用户的在线业务、事务解决与随机查问。

同时,MapReduce更适宜对大数据文件的解决,而不适宜对海量小文件的解决。因此,当要解决海量的用户文档、图片、数据文件时,应当将其整分解一个大文件(序列文件),而后交给MapReduce解决。唯有这样才干充散施展MapReduce的性能。

本文摘编自《架构真意:企业级运行架构设计方法论与通常》,经出版方授权颁布。

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:http://www.duobeib.com/diannaowangluoweixiu/8030.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号