课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
数据湖和数据仓库是随着互联网的不断发展而逐渐被企业引入的一个互联网编程技术,下面我们就一起来了解一下,数据湖技术应用都有哪些方法。
数据湖上的SQL
SQL的优点是它提供了熟悉性和分析数据的表达能力。SQL的健壮性以关系代数和集合理论为基础。
对于数据湖,我们可以看到以下这些技术。
Hive元数据存储是人们喜爱的数据目录。
在SQL层,Presto作为一个查询层脱颖而出,并在AmazonAthena、GoogleCloudDataProc、Qubole中得到了广泛应用。
Spark和SparkSQL的应用也很广泛。
Hadoop文件系统(HDFS)用的不那么多了,云存储(AzureBlob、谷歌云存储、AWSS3)更受欢迎,CSV、Avro和Parquet文件格式也更受欢迎了。
云数据仓库和数据湖
在原始文件系统上存储的经济性推动了数据湖的创建。SQL被用于分析数据。
AmazonRedShiftSpectrum可以查询S3数据。
SnowflakeDB可以使用VARIANT列在数据库中存储XML、JSON或ORC数据,还可以使用外部表指向S3中的数据。
SQL和ELT(提取加载转换)
数据处理的ELT(提取加载转换)范式将数据转换步骤放在后。先从源系统提取数据并将其加载到数据库中。
旧的ETL方法RBAR(逐行处理)与关系数据库执行的基于集合的处理形成了直接的对比,而基于集合的处理构成了SQL的基础。
在ELT中,我们现在从源数据库中提取数据并将其放入数据湖中。
SQL转换在云数据仓库或使用Presto完成,并将转换后的数据加载到目标表。
通过GoldenGate、AWSDMS,或者使用Workato/Jitterbit/StitchData等工具或Kafka等健壮的事件管道,一点点地向数据湖或数据仓库输送数据。将源系统和加载区域之间的转换小化。然后使用SQL将这些数据转换并加载到仓库和分析层。
ELT工具链使用DAG(有向无环图)工具,如ApacheAirFlow和无服务器函数,而不是旧的ETL工具链中类似AutoSys这样的调度器。
DBT是在转换领域流行的另一个工具。像FiveTran和Matillion这样的云数据处理工具也使用SQL和ELT。Domo序列化SQL来创建转换管道。Looker基于LookML生成SQL。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请加danei0707学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。