理论
主页
索引
模块索引
搜索页面
分布式训练的总体目标:
1. 能训练更大的模型 2. 能更快地训练模型
难点&目标:
1. GPU中的内存限制: 更大的模型意味着需要更多的训练数据,进一步提高了每块GPU的内存压力 2. GPU间的带宽限制: 数据在卡之间进行传输,是需要通讯时间的,通讯时间会带来的训练速度降低