Pretraining
事前学習
じぜんがくしゅう
Definition
Pretraining is a large-scale training stage where a model learns general language patterns and knowledge from massive unlabeled text. It forms the foundation for later adaptation methods.
LLMに「日本の首都は?」と聞くと「東京です」と即座に答えますが、この知識はいつ、どのようにして身についたのでしょうか。事前学習(Pretraining)とは、大量のテキストデータを使って「次のトークンを予測する」タスクを繰り返し、言語の基礎知識をモデルのパラメータに獲得させる、LLM構築の最初かつ最大の学習フェーズです。
モデルが実際に学んでいること
事前学習中、モデルは数兆トークンのテキストに対して「次に来る単語は何か」を予測し続けます。一見単純なタスクですが、正確な予測のためには文法規則、事実知識、論理的推論、さらにはユーモアや皮肉の理解まで必要です。この過程で、モデルはテキストに含まれるあらゆるパターンを数百億〜数兆個のパラメータに圧縮して記憶します。「東京は日本の首都」と明示的に教わるのではなく、そうした記述が数千回登場するテキストから統計的に学ぶのが特徴です。Scaling Laws(Chinchillaの研究が有名)によれば、モデルサイズとデータ量には最適な比率があり、これが現代のLLM設計を大きく規定しています。
天文学的な計算コスト
事前学習は、LLM開発の中で圧倒的にコストがかかるフェーズです。Meta社のLlama 3 405Bモデルは約16,000台のH100 GPUを数ヶ月間稼働させて学習されたと報告されており、GPT-4クラスのモデルでは学習1回あたりのコストが数千万ドル(数十億円)規模と推定されています。電力消費も膨大で、大規模な学習ランが小さな町の年間電力消費量に匹敵するケースもあります。この莫大なコストが、事前学習を実施できる組織を少数の大手企業・研究機関に限定する要因となっています。
データの質が性能を決める
「ゴミを入れればゴミが出る」という原則は事前学習にも厳しく当てはまります。Web上のテキストには誤情報、重複、広告コピー、低品質コンテンツが大量に含まれるため、データのキュレーション(選別・クリーニング)がモデル性能を左右する最重要工程の一つです。Meta社はLlama 3の学習にあたり、数十段階のフィルタリングパイプラインを構築しました。最近の研究では、データ量を闇雲に増やすよりも、高品質なデータを厳選するほうが同じ計算予算で高い性能を達成できることがわかっており、Microsoft社のPhi系列モデルは「教科書品質」のデータで学習することで、小型でも高性能なモデルを実現しています。
すべての後続工程の土台
事前学習を終えたモデルは「基盤モデル(Foundation Model)」と呼ばれ、広範な知識と言語能力を持ちますが、そのままではユーザーの指示に適切に従うのが苦手です。このため、後続の指示チューニング(SFT)やRLHFによって対話能力や安全性を付与します。事前学習の質がこれらの後続工程すべての上限を決めるため、土台が脆ければどんなに優れたファインチューニングも効果が限定されるという意味で、事前学習はLLM開発の最も根幹を成す工程です。