Skip to main content

训练管理

训练管理简介

伏龙平台」可以为每一个训练任务单独分配一个虚拟容器去进行训练,各个训练任务之间相互隔离,互不干扰,提高了训练任务的可靠性。训练任务支持 PyTorch、TensorFlow 等多种深度学习框架,使用预置算法或用户自定义算法进行训练。平台支持训练任务的多版本控制,用户可基于现有版本进行修改,动态调整算法超参数,从而得到一个满意的模型。

训练管理流程图:

训练任务

创建训练任务

1. 点击训练管理菜单,选择训练任务并且单击

2. 单击创建训练任务

3. 按需填写,并选择合适的数据集和算法

注意
  1. 算法可选自己上传的算法或者系统预置的算法。
  2. 镜像需选择与算法框架匹配的镜像,例如vGRU基于Pytorch框架开发,需选择包含Pytorch的镜像。
  3. 创建训练任务时需注意算法和数据集的匹配,参见「预置算法」和「预置数据集」。

4. 检查最终的运行命令,并点击开始训练

5. 等待运行状态从待处理变为运行完成

注意

若运行状态变为失败,可以查看运行日志,常见问题为算法和数据集的匹配错误或参数配置错误,检测修改后重新提交训练任务即可。

6. 点击运行日志,查看结果

7. 点击当前任务,下载算法运行结果及检出结果

任务列表

训练任务详情

1. 点击训练管理菜单,选择全部任务并且单击,可以看到所有的训练任务及其基本信息

2. 点击任务名称,进入任务详情页

3. 在任务详情点击修改,可以修改创建训练任务时使用的参数,如选用的算法等

4. 在任务详情点击运行日志,可以查看并保存训练的日志

5. 在任务详情点击保存模型,可以查看并保存训练的模型

6. 点击保存任务模板,可以将当前的任务模板保存下来

7. 根据需求定义模板的名字

任务模板

1. 点击训练管理菜单,选择任务模板并且单击,可以看到所有保存的模板

2. 点击编辑选项,可以编辑任务模板的信息

3. 点击创建任务选项,会进入训练任务的创建界面,任务的相关参数都使用模板保存的值,在创建任务的过程中也可以对参数进行修改