Greenplum数据库于2年由Pivotal公司开源,遵照Apache Licence 2.0协定,官网网站为:
代码托管在GitHub上,链接为:
放开源码一方面可认为数据库用户和开发人员提供Greenplum数据库源码级的成功参考,另一方面可以吸引更多的数据库开发者介入到Greenplum社区保养中。
Greenplum数据库驳回大规模无共享架构,将多台主机组装成弱小的计算平台,成功高效的海量并行运算。Greenplum数据库可以支持1000个以上的集群,治理的数据规模从TB级到PB级,可以满足少数企业的数据处置需求。
Greenplum的高性能不只来自高效的并行处置框架,还有查问引擎的优化。Greenplum数据库除了支持基于PostgreSQL的查问优化之外,还专门开发了一个新的查问优化器ORCA。
ORCA是一款自顶向下的基于Cascades框架的查问优化器,目前曾经成为企业版Greenplum数据库的自动优化器。相比基于PostgreSQL的查问优化器,ORCA查问优化器能使局部查问的性能优化10~1000倍。
Greenplum提供多级容错机制,确保整个系统的高可用性。Master节点经过Standby Master节点启动备份,每个数据节点的PrimarySegment实例区分性能一个Mirror Segment实例作为备份,同时确保同一组Primary Segment实例和MirrorSegment实例不在同一物理机上,从而降落由于宕机而造成数据失落的危险。
Greenplum提供了高效的资源治理机制,依据用户的业务逻辑将资源正当地调配给查问义务,防止查问义务因查问资源无余而得不到照应。
Greenplum资源治理关键包含对并发查问数量的限度,查问口头时内存、CPU资源经常使用的限度等。Greenplum数据库提供了资源队列(ResourceQueue)和资源组(Resource Group)两种资源治理方式,普通经常使用场景下驳回自动性能即可。
支持的存储方式包含:
Greenplum数据库领有完善的SQL规范支持,包含SQL92、SQL99、SQL2003以及OLAP裁减,是对SQL规范支持最好的开源商用数据库系统之一。同时,由于Greenplum数据库基于PostgreSQL,因此也承袭了PostgreSQL关于JDBC、ODBC、C、PythonAPI等接口的支持。
Greenplum还有一个十分神奇的性能——GPload并行加载数据,即准许数据从多个文件系统经过多个主机上的多个网卡加载数据,从而到达十分高的数据传输率。笔者曾经在3个节点的集群上并行加载50GB、2亿行记载的数据,仅用时90s。
此外,Greenplum数据库可以读取和写入多种类型的外部数据源,包含文本文件、XML文件、S3平台文件、Gemfire、Web主机以及Hadoop生态系统中的HDFS、Hive、HBase、Kafka、Spark等,同时支持数据紧缩以及字符集间的智能转换。
Greenplum数据库支持各种环节化编程言语,包含PL/PostgreSQL、PL/R、PL/Python、PL/Java、PL/Perl等言语裁减。在初级数据剖析方面,经过Greenplum数据库的MADlib裁减模块,用户可以很繁难地利用MPP架构成功大规模并行剖析。
Greenplum数据库提供基于Web的可视化工具—Greenplum CommandCenter(简称GPCC)。GPCC可以监控Greenplum数据库系统的性能、集群肥壮形态、查问口头及系统资源经常使用状况,如图2-4所示。
▲图2-4 Greenplum数据库资源监控核心界面
关于作者:王春波,资深架构师和数据仓库专家,现任上海启高消息科技有限公司大数据架构师,ApacheDoris和openGauss奉献者,Greenplum中文社区介入者。具备十多年的数据仓库、数据集市、数据中台名目实战阅历,对大数据干流技术架构、产品选型与处置打算有深化钻研,尤其长于用优雅的SQL成功复杂的逻辑。
本文摘编自《高效经常使用Greenplum:入门、进阶与数据中台》,经出版方授权颁布。(ISBN:9787111696490)
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/9223.html