代码拉取完成,页面将自动刷新
数据并行(DP)场景下, 梯度all-reduce之前,不同的设备并行执行不同的工作,但是all-reduce以后, 所有设备都利用同样的梯度、参数以及优化器状态做相同的梯度更新操作,因此存在计算和存储冗余
将重复的内存存储和计算步骤拆分给不同的设备,通过通信进行联通,最终在节省显存和计算时间的同时达到和原始DP相同的效果
主要用于训练场景,当DP不为1时,将优化器状态拆分到所有DP组间,在对梯度进行reduce-scatter后,每个DP组分别进行部分权重更新,最后再用一个all-gather操作收集模型权重。
脚本中添加--use-distributed-optimizer
开启分布式优化器
降低显存开销
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。