Google15:05機能アップデート公式ブログ
Google DeepMindがDecoupled DiLoCoを発表、耐障害トレーニング実現
大規模トレーニングの信頼性が上がり、開発コスト削減できます。
ポイント
- 1チップ障害時もトレーニング停止なし
- 2低帯域・複数地域対応
- 3PathwaysとDiLoCoの進化版
- 4Gemma 12B実証済み
Google DeepMindがDecoupled DiLoCoを発表。多データセンターでのAIトレーニングをチップ障害時も継続可能に。低帯域ネットワークで12B Gemmaモデル訓練成功、異なるハード混在対応。地理・容量制約を超えます。