数据湖外围才干解析

  • 电脑网络维修
  • 2024-11-15

一、数据湖开展趋向剖析

当下,数据湖已成为企业数据平台架构的关键组成局部。传统的数据平台架构普通由数据湖、流式计算和 OLAP 引擎查问三个局部组成:

这三个平台在以往通常是独立树立的,集群也是独立部署。三者之间数据相互拉通,驳回以下打算:

湖平台与流式平台的互通:通常驳回 Lambda 架构搭建实时计算平台和离线批量计算平台,以成功流式计算与数据湖之间的协同。

流式计算平台与 OLAP 仓互通:普通实践与计算引擎的数据源对接方式拉通,还会基于 Kappa 架构在流式计算中启动实时的数据加工处置,将计算结果写入数仓中,以实事实时的 OLAP 查问,这也是通常讲的实时数仓处置打算。

湖平台与数仓平台互通:普通是经过数据拷贝方式,将数据湖的原始数据或许批量计算结果数据复制一份到数仓当中。

以上的处置打算存在一些疑问。首先,从树立和保养的角度来看,这种架构须要区分树立三个平台,造成树立与保养老本增大;其次,数据共享须要启动必定的冗余存储和数据拷贝,造成打算复杂读变高。因此大家如今在逐渐尝试将三个配置平台融合到一同,构成融合数据湖。

在融合数据湖中,将经过流批一体的架构实事实时计算和批量计算的数据共享,处置数据冗余和数据搬迁的疑问。经过湖内建仓的方式,在数据湖成功数仓的才干,构建 OLAP 才干,防止了数据的搬迁。这种融合数据湖的架构不只可以提高数据处置的效率,还可以降落数据平台的树立和保养老本,成功数据的共享和流通。

上图是一个基于开源技术的数据湖参考架构,从数据流上分为几个环节:

数据源 :数据流的终点,起源于业务系统,包括业务数据库、信息流、日志等。

数据集成 :数据湖架构中的关键环节。数据集成是业务系统与数据湖之间的桥梁,成功入湖和出湖的才干。经过批量和实时才干,可以成功 T+1 和 T+0 的集成才干。依据业务诉求和详细业务架构选用不同的集成方式。

数据存储: 驳回开源的 Lakehouse 技术启动数据存储控制。底层的存储引擎可以驳回 Hadoop 的 HDFS 组件也可以驳回对象存储引擎。存储格局采 Parquet 和 ORC 格局,这些格局提供了高效的紧缩和编码方式,有助于优化数据的存储和处置效率。基于 Lakehouse 技术,构建数仓才干,例如:ACID 才干、Update 才干、Schema 的演进,以及查问减速的缓存和索引技术。

数据计算 :驳回支持流批一体的计算引擎,如 Spark 和 Flink,也可以基于 Hive 引擎启动批量计算。

湖内交互式剖析: 经过交互式查问引擎 Presto、Trino 等,成功对湖内数据启动查问剖析,经过湖存储的减速技术加持,查问性能也可以成功秒级时延。

OLAP层 :在湖内启动数据加工处置成功后,须要更极速的查问才干,经过数据集成同步到 OLAP 组件,依据详细业务需求,咱们可以选用不同的组件,如 CK 大宽表的极速查问和 HBase KV 查问等。局部 OLAP 组件也可以间接查问湖内数据,防止了数据搬迁。

以上环节组合构成完整数据平台架构,满足多种业务场景的技术诉求。

数据集成是业务系统与数据湖之间的桥梁,要面对多种不同的数据源。在流批一体的数据湖平台中,数据集成关键分为批量集成和实时集成两种方式。

批量集成 :驳回定时周期性的搬迁方式,将抢先数据一次性性搬迁到数据湖,或许将数据湖的数据搬迁到 OLAP 组件,例如 Sqoop、DataX 等开源组件,经过 JDBC 衔接到源数据库,将数据抽取进去并写入数据湖中。这种方式实用于对时效性要求不高的场景,面临的应战关键是大数据量的集成带来的吞吐压力。

实时集成 :驳回抢先数据变卦触发的数据搬迁方式,通常驳回实时增量技术采集抢先数据。通常会应用开源技术如 Flink CDC(Change>

随着技术的开展,一些开源工具曾经能够成功流批一体的实时数据集成,这些工具不只可以降落树立老本,还能够缩小技术复杂度。

在数据湖的存储层,Lakehouse 技术的运行为数据处置和剖析带来了反派性的改革。Lakehouse 不只承袭了数据湖的灵敏性和可裁减性,还引入了数据仓库的关键特性,如 ACID 事务、强分歧性 Schema 控制、SQL 查问等。以下是Lakehouse 技术应具有的关键才干:

在现代数据湖的 Lakehouse 架构中,坚持放开性的设计准则是至关关键的。这种放开性体如今几个关键方面:

流批一体架构是现代数据处置平台的外围特色之一,它成功了数据存储、计算的深度融合。流批一体通常蕴含三种解释:

OLAP 才干是成功极速数据剖析和决策支持的关键。为了满足业务对极速照应和高效处置的需求,须要提供秒级的查问时延和数百级别的并发查问才干。随着业务的开展详细的才干会有所变化,在面对业务量的大幅动摇时,基于数据湖架构能够迅速裁减计算才干,以应答高业务压力的应战。

此外,基于容器化的部署才干,数据湖可以成功依据业务量的弹性伸缩。这种灵敏性不只提高了资源应用率,还确保了在高峰时段能够提供足够的计算资源,以满足业务需求。在业务量缩小时,资源可以相应地缩减,以优化老本效率。

在数据湖架构中,湖内建仓的概念是将数据仓库的才干集成到数据湖外部,以成功数据的高效控制和剖析。这一环节触及多层的存储优化和数据组织。

首先,在数据文件层,咱们实施存储优化技术,如排序存储和哈希散布,以提高数据文件的访问效率。此外,咱们还启动数据打散和内容组织优化,以进一步减速 OLAP 查问。

接上去是索引层的构建。为了减速计算环节,驳回与数据仓库相似的技术,包括数据裁剪、下推缓和冲等,以优化计算性能。同时,提供一致的元数据服务,确保数据资产的一致视图,并一致数据开发中的数据库控制。

在数仓模型方面,继续经常使用传统的数仓分层存储模型,如 ODS、DWS 和ADS,同时依据业务需求对数据启动主题域划分,以成功更精细的数据控制。

在表模型方面,驳回经常出现的快照表模型和拉链表模型启动数据存储,并依据须要驳回其余模型。经过这些方式,咱们能够在数据湖外部成功数仓的数据控制才干和数据处置才干。

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/6617.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号