Skip to content

分布式训练

在左侧菜单栏,点击“分布式训练”标签页,跳转至训练任务列表页,如下图所示:

预览

可依据训练任务的名称进行筛选查看

创建训练任务

在任务列表页,点击“新增”按钮,进入任务添加页面,参数设置完毕,点击“保存”按钮,即可完成任务创建,如下图所示:

预览
预览
预览
预览
预览

分布式训练任务参数说明如下:

任务基本信息

参数
描述
任务名称用户自定义的任务名称,允许数字、字母、下划线、小数点、短横线组合,长度不超过256
节点镜像工作节点的镜像,当前支持使用不同类型的镜像:
1.系统镜像:由平台提供的多种官方镜像,支持不同的Python深度学习框架(包括Tensorflow、Pytorch等)。
2.镜像地址用户自定义镜像,手动输入镜像地址
数据集配置指定任务运行过程中,任务数据的存储位置,以扩展训练任务所需的存储空间。
代码上传需要上传的代码文件/目录
输出配置训练输出到容器内部指定的挂载路径
三方库配置支持以下两种方式配置第三方库:
1.三方库列表:直接在下方文本框中输入三方库。
2.requirements.txt文件目录:将第三方库写入requirements.txt文件中,在下方文本框中指定该requirements.txt文件的路径。
环境变量配置提供额外的配置信息或参数。格式为Key:Value。
执行命令本任务需要执行的命令。支持Shell命令。例如,使用python -c "print('Hello World')"运行Python。

任务资源配置

参数
描述
框架持使用以下几种深度学习训练框架和训练工具,它们提供了丰富的功能和接口,方便您进行构建、训练和优化深度学习模型。
1.Tensorflow
2.PyTorch
任务节点配置根据您选择的框架,支持配置Worker节点、节点数量、资源规格。支持配置以下参数:
1.节点数量:运行分布式训练任务的节点数量。
2.资源规格:您可以单击资源规格下方的编辑按钮来选择资源规格。类型:根据不同框架,提供不同节点类型以供选择。
最长运行时长您可以设置任务运行的最长时长,在完成配置后,超过该时长的任务将停止运行。
实例保留时长配置执行成功或失败的任务的保留时长。超过该时长的任务将被删除。

查看训练详情

训练任务创建完毕,列表选择指定训练任务所在行,操作栏点击“查看”按钮,即可查看训练详情,如下图所示:

查看任务基本信息及配置

在任务详情页面,可以查看任务的基本信息和配置,包括任务配置和节点配置,如下图所示:

预览

查看实例

预览
预览
预览

操作栏点击“进入容器”,容器在运行状态即可新开页面进行交互,如下图所示:

预览
预览

查看事件

选中任务详情页面下方的事件页签,查看具体的节点事件日志,如下图所示:

预览

查看聚合日志

在任务详情页面下方的聚合日志页签,通过关键词进行相关日志事件的搜索,如下图所示:

预览

管理训练任务

列表选择指定训练任务所在行,操作栏点击“查看”按钮,进入任务详情页。

终止训练任务

点击基本信息右侧“终止”按钮,即可终止训练任务,如下图所示:

预览

克隆训练任务

如果您已经创建了一个训练任务并对其进行了详细的配置,您可以在原始任务操作列下单击克隆,以创建一个新的任务,该任务将复用原始任务的配置,避免重新输入和配置相同的参数,如下图所示:

预览

删除训练任务

您可以在目标任务操作列下,单击“更多”—>“删除”,以删除无用的训练任务来释放存储空间和资源,如下图所示:

预览