大家好,我是独孤风。
2022年已过去一半多的时间了。这半年多,我们重点关注了LinkedIn Datahub、Atlas等元数据管理工具,了解了他们在数据治理领域的作用。
也关注了Apache Griffin等数据质量工具的使用。
但是,在数据工程领域这只是冰山一角,近期lakeFS高级工程师Einat Orr发布一份2022年的数据工程汇总图,对于数据工程领域的优秀项目进行了整理汇总。
此高清大图我已经同步到学习群中,需要此高清大图的同学可以联系我获取。
下面我们来看一下,大数据和数据治理领域有哪些值得关注的优质项目。
1、数据采集软件
这一部分主要是数据采集的实时流技术和软件服务。
值得关注的是Airbyte, Airbyte成立于 2020 年,是一个开源项目。
附上地址: https://github.com/airbytehq/airbyte
Airbyte 是一个开源 EL(T) 平台,可帮助您在数据仓库、数据湖和数据库中复制数据。
2、数据采集框架
数据采集领域越来越向高扩展性的实时流计算演变。
毫无疑问,除了商用的软件以外,Spark、Flink、Kafka、Pulsar等开源技术将继续大发异彩。
3、对象存储
对象存储不是什么新技术了,但是从来都没有被替代掉。为什么?在这个大数据发展迅速地时代,数据已经不单单是简单的文本数据了,每天有大量的图片,视频数据产生,在短视频火爆的今天,这个数量还在增加。有数据表明,当今世界产生的数据,有80%是非关系型的。那么,对于图片,视频等数据的分析可以说是大数据与人工智能的未来发展方向之一。
这一领域老牌的Ceph,SwiftStack确实有一定的市场份额,但更应该关注新兴Minio。之前我们也做过相应的实践。
大数据流动历史文章: Github 29K Star的开源对象存储方案——Minio入门宝典
4、数据湖
去年的时候,数据湖的概念越来越多的被提及。
很多的公司想通过数据湖的方式,或者湖仓一体的概念,来简化数据工程的复杂程度。
Hudi、Iceberg也成为了很多公司的选择。
目前来看Databricks的架构依然是更高性能的,目前来看他们还没有开源出更多的东西。
5、以数据为中心的机器学习
从现在看,很多东西已经非常的清晰了。
端到端 MLOps 工具,以数据为中心的机器学习方法的工具,机器学习的 可观察性和监控。
2022年deepchecks开源。
https://github.com/deepchecks/deepchecks
deepchecks用于验证 ML 模型和数据的测试套件。Deepchecks 是一个 Python 包,用于以最小的努力全面验证您的机器学习模型和数据。
6、数据治理
数据治理的道路,任重道远。
目前我们关注的重点还是Atlas和Datahub。
Atlas是老牌的Hadoop生态中的一员,对于数据血缘的支持还是足够的。
通过二次开发,Atlas可以满足大部分公司的业务需求。
而Datahub作为一颗冉冉升起的新星,更是值得持续的关注。
数据治理之元数据管理的利器——Atlas入门宝典
一站式元数据治理平台——Datahub入门宝典
万字保姆级长文——Linkedin元数据管理平台Datahub离线安装指南
2022 年还有哪些其他项目正在兴起?哪些工具正在成为行业事实上的标准?
欢迎加入学习群与我们一起讨论!
大数据与数据治理相关资料领取 请关注大数据流动,后台回复 大数据2022
加入学习群 请关注大数据流动,后台回复 加群
数据治理实践类知识星球 数据治理工具箱 也已成立 ,需要加入请在后台 回复 “数据治理工具箱”