做云市场行业的领导者
欢迎光临本网站
主页 > 大数据 >

物联网和互联网的区别-使用apachearrow,从Snowflake获取查询结果要快得多

发布时间:2020-08-29 05:03   来源:维塔尔云    作者:维塔尔云

使用apachearrow,从Snowflake获取查询结果要快得多

使用apachearrow,大数据分析系统,从Snowflake获取查询结果要快得多2020年2月12日|4分钟读取作者:哈沙卡普雷|供稿作者:张安东、余浩伟雪花新闻随着最新的JDBC和Python客户机的发布,我们朝着采用apachearrow迈出了第一步。通过这些客户机获取结果集现在利用Arrow列格式来避免以前与序列化和反序列化同样采用列格式的雪花数据结构相关的开销。这意味着您可以更快地获取结果集,同时节省内存和CPU资源。如果您使用Pandas数据帧,通过引入新的pythonapi,性能会更好,它直接将结果集下载到Pandas数据帧中。内部测试表明,在这些客户端上获取结果集的性能提高了5倍,如果使用新的Python客户机api直接下载到Pandas数据帧中,则提高了10倍绩效基准下面的图表显示了一些内部基准测试的结果,比较了使用新箭头格式的客户端驱动程序版本和不使用新箭头格式的以前版本:图1。JDBC客户端版本3.11.0与3.9.x的JDBC获取性能基准图2。Python客户端版本2.1.1与2.0.x的Python fetch性能基准测试图3。熊猫为pd.read_sql语句API与新款雪花熊猫fetch峎熊猫峎all APIJDBC客户机入门从公共存储库下载并安装最新的Snowflake JDBC客户机(3.11.0或更高版本),剩下的留给Snowflake。(注:最新版本并不总是在列表的末尾。版本是按字母顺序而不是数字顺序列出的。例如,大数据网,3.10.x在3.1.x之后,而不是3.9.x之后。)必须使用JDBC 3.11.0或更高版本才能利用此功能。查看我们的客户变更日志了解更多细节。Python客户机入门下载最新版本的Snowflake Python客户端(2.2.0或更高版本)要利用Pandas的新Python api,需要执行以下操作:确保您满足以下要求:用于Python的雪花连接器2.2.0(或更高版本),支持Pandas使用的箭头数据格式Python 3.5、3.6或3.7Pandas 0.25.2(或更高版本);早期版本可以工作,但尚未经过测试pip 19.0(或更高)安装与Pandas兼容的适用于Python的雪花连接器版本:pip安装雪花连接器python[熊猫]3。使用新的API:把熊猫全部找来()例子:ctx=雪花。连接器。连接(主机=主机,user=用户,password=密码,account=帐户,仓库=仓库,数据库=数据库,schema=模式,protocol='https',端口=端口)#创建一个对象。当前=ctx.光标()#执行将生成结果集的语句。sql="从t中选择*当前执行(sql)#从游标获取结果集,并将其作为Pandas数据帧传递。df=把熊猫都带回来()# ...获取熊猫批处理()例子:ctx=雪花。连接器。连接(主机=主机,好评返现,user=用户,password=密码,account=帐户,仓库=仓库,数据库=数据库,schema=模式,云服务器价格,protocol='https',端口=端口) #创建光标对象。当前=ctx.光标() #执行将生成结果集的语句。sql="从t中选择*当前执行(sql) #从游标获取结果集,并将其作为Pandas数据帧传递。对于df in当前取熊猫批次():我的数据帧处理功能(df) # ...更多详情请参阅下页。下一步行动我们很高兴能迈出这第一步,并将在接下来的几个月内与我们的其余客户机(ODBC、Golang等)一起实现apachearrow。 就像你读的?通过喜欢和分享来表达你的感激之情!Facebook推特LinkedIn

上一篇:大数据都学什么-在powerbi和Snowflake之间使用SSO
下一篇:国内大数据-优化雪花数据保险存储架构的技巧

分享到:
0
最新资讯
阅读排行