Google15:05機能アップデート公式ブログ
Google DeepMindがDecoupled DiLoCo公開、耐障害分散訓練
グローバル分散訓練の信頼性が大幅向上します。
ポイント
- 1低帯域・故障耐性。
- 2複数地域12Bモデル訓練。
- 3ハード混在・自己修復。
- 4Pathways/DiLoCo基盤。
Decoupled DiLoCoを発表、複数データセンター横断の耐障害AI訓練を実現。ハード故障時も継続、低帯域で12B Gemmaモデル訓練成功。ハード混在・自己修復でスケールしやすく、実務インフラ革新です。