
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
随着互联网的不断发展,越来越多企业都引入了大数据技术,而今天我们就通过哪里分析来了解一下,数据湖的概念与应用特点。
数字化趋势下,许多企业通过利用数据的价值达到业务上的提升,数据量爆炸性增长使得源头越来越丰富,例如数据库数据、APP日志、服务器日志、LT数据。
数据湖偏原始的数据,数据入库的时候不需要做建模,数据仓库需要提前做各种建模,管理与定义Schema,然后数据才能进来。数据湖是数据先进来,分析的时候抓取Schema,再去做分析。数据仓库是结构化的数据。
数据湖类型比较丰富,是开放的存储。上层可以对接分析引擎,例如可以机器学习、查询,或者在数据湖基础上构建一个数仓。数据湖较为开放、灵活。对比之下,数据仓库较为封闭。存储与引擎为一体,存储在引擎下面,做优化时需要结合引擎。
数据仓库导入过程会对文件做优化或索引,对数据质量由Schema保证,上层的数据治理权限较为完善。数据湖灵活、开放,但在数据治理、安全上有隐患,导入时可能存在小文件的问题。
现在数据仓库向湖仓一体方向发展,结合数据湖的灵活性和开放性,以及数据仓库的数据治理与安全,导入的数据质量,整套的体系较为完善。
数据湖体系里面,各自有不同的位置,HDFS/OSS/S3是数据湖存储,DeltaLake/Hudi/Iceberg是数据库格式,DataWarehouse/LakeHouse数据湖上层应用场景。
希望这辈子,最让你无悔的事情就是来武汉达内学习!学习向来不是件易事,但无论过程多么艰难,希望你依然热爱生活,热爱学习!永远记得,达内将与你一同前行!关注武汉达内,26门课程免费试听,助力0基础快速入行,为你梳理行业必备技能,全方位了解岗位发展前景!
免责声明:内容来源于公开网络,若涉及侵权联系尽快删除!