Github项目推荐 | Kedro:生产级机器学习开源代码库

2019-08-07 17:15:36 浏览数 (1)

by quantumblacklabs

Kedro是一个Python库,可用于构建强大的生产就绪数据和分析管道

Kedro是什么?

“数据管道的中心。”

Kedro是一个工作流开发工具,可帮助你构建强大,可扩展,可部署,可重现和版本化的数据管道。 我们提供标准的方法,你可以:

  • 花更多时间来构建数据管道
  • 不用担心如何编写生产就绪代码
  • 标准化团队在整个项目中的协作方式
  • 工作效率更高

Kedro最初由 Aris Valtazanos 和 Nikolaos Tsaousis 设计,以解决他们在项目工作中遇到的挑战。

如何安装Kedro?

由于Kedro是一个Python包,因此只需运行以下命令即可安装:

代码语言:javascript复制
pip install kedro

有关更详细的安装说明,包括如何设置Python虚拟环境等,请查看安装指南。

Kedro的主要特点是什么?

1.项目模板和编码标准

  • 标准且易于使用的项目模板
  • 配置证书,日志记录,数据加载和Jupyter笔记本/实验室的配置
  • 使用pytest进行测试驱动的开发
  • 集成Sphinx以生成记录良好的代码

2.数据抽象和版本控制

  • 将计算层与数据处理层分离,包括支持不同的数据格式和存储选项
  • 为你的数据集和机器学习模型进行版本控制

3.模块化和管道抽象

  • 支持纯Python函数,节点,将大块代码分成小的独立部分
  • 自动解析节点之间的依赖关系
  • (即将推出)使用Kedro-Viz可视化数据管道,Kedro-Viz是一个显示Kedro项目管道结构的工具
  • 注意:阅读我们的常见问题解答,了解我们与Airflow和Luigi等工作流程管理器的区别。

4.功能可扩展性

  • 将命令注入Kedro命令行界面(CLI)的插件系统
  • (即将推出)官方支持的插件列表:
    • Kedro-Airflow,在部署到工作流调度程序Airflow之前,可以轻松地在Kedro中对数据管道进行原型设计
    • Kedro-Docker,用于在容器内包装和运输Kedro项目的工具
  • Kedro可以部署在本地,内部部署和云(AWS,Azure和GCP)服务器或集群(EMR,Azure HDinsight,GCP和Databricks)

使用Kedro-Viz进行随机管道可视化(即将推出)

如何使用Kedro?

我们的文档说明提供了以下内容:

  • 典型的Kedro工作流程
  • 如何设置项目配置
  • 构建第一个管道
  • 如何使用kedro_cli.py提供的CLI(kedro new,kedro run,...)

注意:CLI是一个方便的工具,可以运行kedro命令,但你也可以使用python -m kedro调用Kedro CLI作为Python模块

如何找到Kedro文档?

以下CLI命令将在浏览器中打开当前版本Kedro的文档:

代码语言:javascript复制
kedro docs

你可以点击此处查看最新稳定版本的文档。入门教程、常见问题解答等,请查看:

  • Getting started
  • Tutorial
  • FAQ

如何更新Kedro?

我们使用语义版本控制。 安全升级的最佳方法是查看我们的发行说明,了解任何值得注意的重大更新。

安装Kedro后,你可以按如下方式检查你的版本:

代码语言:javascript复制
kedro --version

如果想将Kedro升级到其他版本,只需运行:

代码语言:javascript复制
pip install kedro -U

License

Kedro根据Apache 2.0许可证获得许可。

Github项目地址:

https://github.com/quantumblacklabs/kedro

0 人点赞