本篇内容主要讲解“delta lake数据湖建设方法是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“delta lake数据湖建设方法是什么”吧!
数据湖实现技术尤其以databricks公司的delta lake为翘楚。delta lake本身只是一套api的函数,定义了数据的存储方式而已,但是和hadoop、spark结合起来,就产生了巨大的威力。
数据要解决两个方面的问题:一是存储;二是定义。 delta lake两者都支持,将存储和定义都保存在文件中,统一起来了。
delta lake处理数据也非常简单,规划好存储的hdfs路径,定义好数据源,然后写spark脚本来生成delta lake。
delta lake的迁移也非常简单,只要将文件转移就可以了。
在hive中加载delta lake也很简单:
-- Create table in the metastore
CREATE TABLE events (
date DATE,
eventId STRING,
eventType STRING,
data STRING)
USING DELTA
PARTITIONED BY (date)
LOCATION '/delta/events'
是时候拥抱spark+delta lake了。
到此,相信大家对“delta lake数据湖建设方法是什么”有了更深的了解,不妨来实际操作一番吧!这里是天达云网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!