通用¶

分布式训练的优化目标¶

分布式训练的总体目标:

1. 能训练更大的模型
2. 能更快地训练模型

难点&目标:

1. GPU中的内存限制:
    更大的模型意味着需要更多的训练数据，进一步提高了每块GPU的内存压力
2. GPU间的带宽限制:
    数据在卡之间进行传输，是需要通讯时间的，通讯时间会带来的训练速度降低