Skip to content

基本概念

名词解释
Kubernetes
简称 k8s,是一个轻便的可扩展的开源平台,用于管理容器化应用和服务​​​。通过 Kubernetes 能够进行应用的​​自动化部署​​​和​​扩缩容​​​。AI 算力云服务利用 k8s 的跨平台和容器调度能力,支持多样化计算基座。
资源与环境AI 算力云环境使用 k8s 进行管理和调度。
  • 提供 NVIDIA 常用显卡的调度和管理。
  • 提供在线 IDE 环境。
  • 集成并行文件存储提供永久的存储。
  • 供任务容错、自动重试功能。
镜像仓库基于容器计算场景,平台内置常用的容器应用。
  • 常用框架内置 PyTorch、TensorFlow、Jupyter 等。
  • 提供用户自定义镜像仓库,根据公共镜像或自定义配置构建镜像。
  • 可将自己打包好的镜像 push 到自定义镜像仓库中。
容器实例容器实例常用来做算法开发和模型微调,在少量训练数据的前提下可以选择单卡、或者整机 8 卡的实例申请使用,提供本地数据盘,和关联文件存储,使用 Jupyter 进行算法开发、微调,可将成果输出到挂载的共享文件存储中,使用完成后下载成果,释放容器实例。
分布式训练任务提供快速开始多机多卡的分布式任务运行,减少用户准备环境时间,立即启动计算任务,用户选择所需规格和数量,上传训练代码,系统将自动调度所需节点进行计算,此任务面向多机多卡大型训练任务场景。
并行文件存储高性能、可扩展的分布式文件系统,专为并行计算环境设计。