2006.16668_GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding ########################################################################################### * https://arxiv.org/abs/2006.16668 * 组织: Google * Label: MoE