分布式训练
在左侧菜单栏,点击“分布式训练”标签页,跳转至训练任务列表页,如下图所示:

预览
可依据训练任务的名称进行筛选查看
创建训练任务
在任务列表页,点击“新增”按钮,进入任务添加页面,参数设置完毕,点击“保存”按钮,即可完成任务创建,如下图所示:

预览

预览

预览

预览

预览
分布式训练任务参数说明如下:
任务基本信息
参数 | 描述 |
---|---|
任务名称 | 用户自定义的任务名称,允许数字、字母、下划线、小数点、短横线组合,长度不超过256 |
节点镜像 | 工作节点的镜像,当前支持使用不同类型的镜像: 1.系统镜像:由平台提供的多种官方镜像,支持不同的Python深度学习框架(包括Tensorflow、Pytorch等)。 2.镜像地址用户自定义镜像,手动输入镜像地址 |
数据集配置 | 指定任务运行过程中,任务数据的存储位置,以扩展训练任务所需的存储空间。 |
代码上传 | 需要上传的代码文件/目录 |
输出配置 | 训练输出到容器内部指定的挂载路径 |
三方库配置 | 支持以下两种方式配置第三方库: 1.三方库列表:直接在下方文本框中输入三方库。 2.requirements.txt文件目录:将第三方库写入requirements.txt文件中,在下方文本框中指定该requirements.txt文件的路径。 |
环境变量配置 | 提供额外的配置信息或参数。格式为Key:Value。 |
执行命令 | 本任务需要执行的命令。支持Shell命令。例如,使用python -c "print('Hello World')"运行Python。 |
任务资源配置
参数 | 描述 |
---|---|
框架 | 持使用以下几种深度学习训练框架和训练工具,它们提供了丰富的功能和接口,方便您进行构建、训练和优化深度学习模型。 1.Tensorflow 2.PyTorch |
任务节点配置 | 根据您选择的框架,支持配置Worker节点、节点数量、资源规格。支持配置以下参数: 1.节点数量:运行分布式训练任务的节点数量。 2.资源规格:您可以单击资源规格下方的编辑按钮来选择资源规格。类型:根据不同框架,提供不同节点类型以供选择。 |
最长运行时长 | 您可以设置任务运行的最长时长,在完成配置后,超过该时长的任务将停止运行。 |
实例保留时长 | 配置执行成功或失败的任务的保留时长。超过该时长的任务将被删除。 |
查看训练详情
训练任务创建完毕,列表选择指定训练任务所在行,操作栏点击“查看”按钮,即可查看训练详情,如下图所示:
查看任务基本信息及配置
在任务详情页面,可以查看任务的基本信息和配置,包括任务配置和节点配置,如下图所示:

预览
查看实例

预览

预览

预览
操作栏点击“进入容器”,容器在运行状态即可新开页面进行交互,如下图所示:

预览

预览
查看事件
选中任务详情页面下方的事件页签,查看具体的节点事件日志,如下图所示:

预览
查看聚合日志
在任务详情页面下方的聚合日志页签,通过关键词进行相关日志事件的搜索,如下图所示:

预览
管理训练任务
列表选择指定训练任务所在行,操作栏点击“查看”按钮,进入任务详情页。
终止训练任务
点击基本信息右侧“终止”按钮,即可终止训练任务,如下图所示:

预览
克隆训练任务
如果您已经创建了一个训练任务并对其进行了详细的配置,您可以在原始任务操作列下单击克隆,以创建一个新的任务,该任务将复用原始任务的配置,避免重新输入和配置相同的参数,如下图所示:

预览
删除训练任务
您可以在目标任务操作列下,单击“更多”—>“删除”,以删除无用的训练任务来释放存储空间和资源,如下图所示:

预览