做云市场行业的领导者
欢迎光临本网站
主页 > 大数据 >

国内大数据-优化雪花数据保险存储架构的技巧

发布时间:2020-08-29 05:03   来源:维塔尔云    作者:维塔尔云

优化雪花数据保险存储架构的技巧

优化雪花数据保险存储架构技巧2020年2月3日|7分钟读取作者:肯特·格拉齐亚诺如何使用雪花,雪花技术datavault是一种体系结构方法,它包括一种特定的数据模型设计模式和方法,专门开发用于支持构建企业数据仓库和分析存储库的现代、敏捷方法。如果您不熟悉datavault(DV)并想了解更多信息,请先查看这篇介绍性文章雪花云数据平台是为设计模式无关而构建的。这意味着您可以将其与3NF模型、维度(星形)模式、DV或任何您可能拥有的混合模式一起使用。雪花支持DV设计和处理多种DV设计变化非常出色的性能。这一系列的博客文章将介绍一些在过去几年中发展起来的在雪花中实现DV风格仓库的技巧和建议。建模注意事项DV的世界在过去的十年里已经演变了。一些人,几年前就开始做我们现在所说的DV1.0,而另一些人将使用更流行的DV2.0模式。这两种方法在雪花中都能很好地工作,事实上,我们今天都有客户在做这两种工作。那么让我们来快速了解一下这些类型的车型是什么样子的。顺序键(DV 1.0样式)使用序列生成的主键整数值(PKs)是21世纪初DV首次发布时的建模风格的一个特点(因为dv2.0取代了dv2.0)。对于使用这种方式构建当前dv的客户,返现是什么意思,这些dv可以很容易地移植到Snowflake,事实上,通常会提供最快的查询连接性能,因为连接是在整数列上的(这通常是所有rdbms中最快的)这种类型的DV最适合那些优先考虑直接针对DV进行查询并且对数据加载性能有更大容忍度的客户。使用这种类型的DV意味着您将在集线器和卫星(sat)之间建立依赖关系,然后在加载操作期间连接集线器和链路,但是为了提取数据,连接性能将是最佳的,因为所有连接键都是整数。下图描述了一个典型的DV1.0模型。以下描述了DV 1.0模型的典型荷载模式(稍后将对此进行更多讨论):   自然(业务)密钥(逻辑DV样式):在PKs中使用自然或"业务"键(bk)是danlinstedt最初教给构建逻辑DV模型的设计方法。不幸的是,大多数遗留数据库无法使用这种方法充分支持连接,因此在物理模型中引入了代理键以提高查询性能。有了雪花,移动大数据,这就不再是个问题了。这种方法最适合那些对能够并行加载DV对象有更高优先级的客户。这种方法在Snowflake上的查询性能仍然很好,但是它可能比使用整数的连接稍慢(取决于组成BK的属性的数量)。有了Snowflake的高级元数据驱动优化引擎,您仍然可以使用BKs获得出色的查询性能,因为Snowflake还会对基于字符的列值进行修剪。根据一些内部测试,如果BK只由一个或两个属性组成,则连接性能可能相当于整数连接的性能。下图是使用多列BKs的模型:这种DV样式的优点是可以并行加载所有对象,物联网竞赛,因为集线器的主键不必在加载期间计算(就像dv1.0样式那样),而是从stage表映射而来。这消除了加载过程中的依赖关系,因此可以并行加载所有内容。下图描述了这种方法的典型荷载模式: 散列主键(DV2.0样式)散列PKs作为dv2.0的一部分引入。目标是通过消除大多数数据库序列生成器遇到的瓶颈,能够并行加载所有对象。在规模上,这一点,再加上负载依赖性,最终成为许多试图在遗留平台上实现DV风格仓库的人的一个限制因素。这种DV模式适用于那些更重视数据加载性能的客户,以及那些可能希望使用具有内置模板的数据仓库自动化工具(例如,使用MD5)基于bk生成散列pk的客户由于雪花优化器的强大功能,对使用这种方法的DV的查询仍然非常快(与传统平台相比),但是比使用BKs(基于字符的,大数据提供,多列)或整数代理键的查询慢。这就是所有RDBMS的本质:整数联接最快,其次是字符串联接,其次是密集字符串联接(如UUID和哈希键值)。与其他数据仓库系统相比,雪花提供的优势是其独特的弹性计算架构在这些类型的连接上实现了高性能,但它可能需要更大的计算能力(这意味着更大的虚拟仓库)。下图包括基于MD5哈希的PK: 今天,有雪花客户使用MD5散列和SHA-256散列用于PKs。因此,如果您现在在遗留平台上对当前DV使用此方法,则无需为了迁移到Snowflake而更改该方法。警告:尽管基于散列的联接可能比其他联接稍慢,但有可能有一个高度复杂(多部分)的BK,它具有如此多的属性,因此使用基于散列的联接实际上可能仍然更快。特别是,对于具有多个集线器的中心链接表,这种情况可能会发生,而这些集线器又具有多部分业务密钥。确定有多少个属性太多是很困难的,因为属性值的大小(长度)也是决定结果集修剪效果的一个因素。与BK样式一样,DV 2.0中使用哈希键的典型加载模式看起来相同:在下一篇文章中,我将向您展示如何使用雪花最大化DV的负载吞吐量。同时,万云,请务必在Twitter@SnowflakeDB和@kentgraziano上关注我们,了解DV和雪花云数据平台的所有最新消息和创新。就像你读的?通过喜欢和分享来表达你的感激之情!Facebook推特LinkedIn

上一篇:物联网和互联网的区别-使用apachearrow,从Snowflake获取查询结果要快得多
下一篇:淘客返利软件-改变医疗保健和生命科学的四大趋势

分享到:
0
最新资讯
阅读排行