我们很高兴向大家宣布,2023年4月14日,Taier 正式发布 1.4 版本。自2022年2月份 Taier 正式开源以来,收到了很多开发者和行业用户的积极评价,在诸多生产环境中已得到充分应用。Taier 1.4版本正是吸收了各类实践经验及大家的建议,进行了此次迭代优化。
本次更新不仅包含了性能优化和稳定性的提升,还新增了各类任务类型、完善大量任务功能,优化使用场景,持续增强开源产品化技术能力和应用能力。
Taier 是一款好用又强大的大数据分布式可视化的 DAG 任务调度系统,旨在降低 ETL 开发成本、提高大数据平台稳定性。它让大数据开发人员可以在 Taier 直接进行业务逻辑的开发,而不用关心任务错综复杂的依赖关系与底层的大数据平台的架构实现,将工作的重心更多地聚焦在业务之中。
截至目前(2023 年 4 月 17 日),Taier 在 GitHub 的 Star 数已经突破 1.1 k,并拥有37名社区贡献者,我们在此对所有参与到 Taier 项目及社区建设的朋友们表达由衷的感谢。
目前新版本已在 Github 与 Gitee 上线,欢迎大家前往体验。
Github:
https://github.com/DTStack/Taier
Gitee:
https://gitee.com/dtstack_dev_0/taier
社区官网:
https://dtstack.github.io/Taier/
Taier 1.4 版本更新亮点
新增任务类型
· 新增 DataX 组件,在无 Hadoop 环境的情况下,Taier 可以通过执行 DataX 的任务来实现异构数据源之间高速稳定的数据同步的能力,增强 Taier 在单机模式下的基础功能。
· 新增 Greenplum、GaussDB、MySQL、Postgresql、Sqlserver、TiDB、Vertica、Maxcompute 等任务类型,完善 Taier 相关 SQL 任务类型。
· 新增 Hadoop MR 任务类型,可以通过自行编写 Map/Reduce 的代码,来执行对应的数据集的处理。
完善任务功能
· Script 组件新增 Standalone 模式, 支持 Python、Shell 任务本地执行,移除脚本任务对 Hadoop 环境的强依赖。
· 数据同步任务支持 Hive3 的数据源向导模式配置。
· HiveSQL、Spark SQL 的临时查询表支持定时清理。
优化使用场景
· 兼容 Taier 在 Window 环境下部署运行的环境问题。
· 优化 Taier 部分元数据表结构信息、完善表结构备注信息。
· 优化控制台组件配置参数信息,移除环境相关参数信息,Spark 组件支持自动上传 SqlProxy 包,减少组件配置依赖。
接下来
Taier 1.4 版本的发布是又一个全新的开始,开发团队不会停下脚步,未来将根据用户反馈加速迭代持续优化,完善 Taier 的功能和文档,满足用户更多场景的使用,推进国内开源生态的发展。
Taier 此前的成绩离不开每一位参与者的贡献与支持,踏上这个新的起点,Taier 的未来也仍需大家共同努力,让 Taier 朝着好用又强大的 DAG 任务调度系统的目标继续前进。
《数据治理行业实践白皮书》下载地址:https://fs80.cn/380a4b
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=sztxkfz
项目地址:https://github.com/DTStack