训练管理
训练管理简介
「伏龙平台」可以为每一个训练任务单独分配一个虚拟容器去进行训练,各个训练任务之间相互隔离,互不干扰,提高了训练任务的可靠性。训练任务支持 PyTorch、TensorFlow 等多种深度学习框架,使用预置算法或用户自定义算法进行训练。平台支持训练任务的多版本控制,用户可基于现有版本进行修改,动态调整算法超参数,从而得到一个满意的模型。
训练管理流程图:
训练任务
创建训练任务
1. 点击训练管理菜单,选择训练任务并且单击
2. 单击创建训练任务
3. 按需填写,并选择合适的数据集和算法
注意
4. 检查最终的运行命令,并点击开始训练
5. 等待运行状态从待处理变为运行完成
注意
若运行状态变为失败,可以查看运行日志,常见问题为算法和数据集的匹配错误或参数配置错误,检测修改后重新提交训练任务即可。