Kubeflow将MLOps引入CNCF孵化器

Kubeflow进入CNCF孵化

CNCF 技术监督委员会(TOC)[1]投票接受Kubeflow[2]作为 CNCF 孵化项目。

Kubeflow将MLOps引入CNCF孵化器

Kubeflow 是一个开源、社区驱动的项目,用于在 Kubernetes 上部署和管理机器学习(ML)堆栈。Kubeflow 社区积极开发和支持面向 Kubernetes 的 MLOps,为其用户开发和部署流行的框架,包括 TensorFlow、PyTorch、XGBoost、Apache MXNet 等分布式机器学习(ML)。

Kubeflow 由 Google 于 2017 年创建。今天,有十个基于 Kubeflow 的商业发行版。这些发行版团队帮助满足 Kubeflow 的数百名贡献者,支持该项目及其数千名用户。Kubeflow 社区包括 150 多家公司,自 5 年前发布以来,已经发布了 15 个主要版本,积极地为用户提供支持。这些组织利用 Kubeflow 的 Kubernetes 原生可扩展性、安全性、资源分配和声明式操作,以更快、更经济的成本交付模型。

该项目已经与 CNCF 和 ML 社区密切集成。为增强其 Kubernetes 基础,Kubeflow 通过集成和打包 Kustomize、Knative、Istio、Certificate Manager 和 Argo 的好处简化了其安装、可扩展性、服务网格、安全性和工作流管理。它还与 gRPC、Prometheus 和其他社区集成,正在进行与 Kuberay 和 MLflow 的集成工作。

主要组件:

Kubeflow 集成了五个半独立的工作组的软件,简化了使用 Kubernetes 原生效率开发和部署机器学习模型的端到端流程。这些工作组包括:

  • Notebooks Working Group 在 Jupyter、VSCode 和 R-Studio 笔记本中构建交互式开发环境,加速模型开发和实验。该工作组还开发了 Kubeflow 的中央仪表板和 Web 应用程序,为用户提供更轻松的数据可视化。
  • Training Operator Working Group 开发 Training Operator 软件,以在 Kubernetes 上实现分布式 ML 培训。它利用各种分布式策略在多 GPU 上训练大规模深度神经网络(deep neural networks,DNN)模型。Training Operator 允许你使用各种调度技术(例如 Volcano)和弹性培训来节省 ML 培训的计算资源。它支持所有主要 ML 框架,并为数据科学家提供简单的 SDK,以在 Kubernetes 上训练其模型。
  • AutoML Working Group 开发自动化模型开发软件,称为 Katib,其中包括超参数调整和其他模型优化功能,如神经体系结构搜索(neural architecture search,NAS)。Katib 提供许多优化算法,以评估 ML 模型的最佳参数,并通过使用各种早期停止(Early Stopping)技术节省计算资源。它还允许用户测试模型配置参数的许多变化,并通过实验跟踪 UI 或 SDK 评估最佳性能选项。
  • Kubeflow Pipelines Working Group 开发将 Python ML 脚本转换为稳定工作流模板的软件。工作流模板可重复使用,Kubeflow 流水线使你的工作负载易于实验和管理。在执行期间,Kubeflow 流水线使用高级工作流管理和监视简化分布式工作流自动化,具有高效的 Kubernetes 操作。
  • Manifests Working Group 开发 Kubeflow 的安装过程,包括各个和所有 Kubeflow 组件。由于 Kubeflow 基于 Kubernetes 基础,因此它使用 Kustomize 进行安装过程。
  • KServe 项目在 Kubernetes 上开发高度可扩展和基于标准的模型推理平台。虽然 KServe 是一个独立的项目,但它被纳入 Kubeflow 的安装和测试过程中。KServe 在简化端到端 MLOps 工作流程方面发挥着重要作用,显着简化了在生产中提供机器学习模型的过程。

该项目可以部署为独立组件或完整的端到端系统。

值得注意的里程碑:

  • GitHub 星:28K+
  • 公司贡献:150+
  • 总提交者:15K+
  • 总 GitHub 贡献:55K+
  • Slack 成员:9,000+
  • 自 2017 年以来发布了 15 个版本

展望未来,Kubeflow 项目将专注于实施其v1.8 路线图[3],该版本将于 2023 年 10 月发布。新功能包括 Kubeflow Pipelines 2.0 GA、新的 AutoML 实验功能,提高规模数量以及 Training Operator 增强了高级模型并行技术和自定义流派调度程序支持。1.8 版本将在 Kubernetes、Kustomize、Istio、Certificate Manager、Argo 和 Knative 的定义依赖版本上进行测试。

作为一个由 CNCF 托管的项目,Kubeflow 是一个与其技术利益一致的中立基金会的一部分,也是更大的 Linux 基金会的一部分,该基金会提供治理、营销支持和社区拓展。该项目加入了其他 38 个孵化[4]技术,包括 Backstage、Cilium、Istio、Knative、OpenTelemetry 等。有关每个级别的成熟度要求的更多信息,请查看CNCF 毕业标准[5]

参考资料

[1]CNCF 技术监督委员会(TOC): https://www.cncf.io/people/technical-oversight-committee/

[2]Kubeflow: https://www.kubeflow.org/

[3]v1.8 路线图: https://github.com/orgs/kubeflow/projects/58

[4]孵化: https://www.cncf.io/projects/

[5]CNCF 毕业标准: https://github.com/cncf/toc/blob/main/process/graduation_criteria.md

转载请注明出处:https://www.cloudnative-tech.com/trends/5876.html

(0)
上一篇 2023年7月13日 下午4:30
下一篇 2023年8月18日 下午6:52

相关推荐