Continued Pretraining
継続事前学習
けいぞくじぜんがくしゅう
Definition
Continued pretraining is running pretraining again on a pretrained model using additional data to expand its knowledge and vocabulary. It is often used to strengthen domain or freshness coverage.
汎用LLMに医療論文の専門用語について質問したり、日本語で複雑な推論を求めると、期待したほどの回答が得られないことがあります。プロンプトの工夫やRAGでも限界がある場合、モデルの「知識そのもの」を拡張するアプローチが必要です。継続事前学習(Continued Pretraining)とは、事前学習済みのモデルに対して特定ドメインの大量テキストを追加で学習させ、専門知識や言語能力を獲得させる手法です。
ファインチューニングとの明確な違い
混同されがちですが、継続事前学習とファインチューニングは目的が異なります。ファインチューニング(SFT)は「質問→回答」のペアデータを使い、特定のタスク形式に適応させる手法です。一方、継続事前学習はラベルなしの生テキストを事前学習と同じ「次のトークン予測」方式で学習させます。目的はタスクの最適化ではなく、モデルの知識ベースそのものの拡張です。たとえるなら、ファインチューニングが「面接の受け答え練習」、継続事前学習が「専門書を何百冊も読み込む」に相当します。通常、継続事前学習を先に行い、その後でファインチューニングを実施するという順序で使われます。
日本語LLM開発の主戦場
継続事前学習が最も活発に活用されている領域の一つが、日本語LLMの開発です。多くのオープンソースLLMは英語中心で学習されているため、日本語の能力が不十分です。これを解決するため、MetaのLlamaやMistralをベースに日本語テキストを大量に追加学習させるアプローチが広く採用されています。具体的には、サイバーエージェントのCALM、Preferred NetworksのPLaMo、ELYZAのELYZA-japanese-Llama、StabilityAIのJapanese StableLMなど、日本発の主要モデルの多くが継続事前学習で開発されています。数百億〜数千億トークンの日本語テキストを学習させることで、日本語の流暢性と文化的理解を大幅に向上させています。
壊滅的忘却とリプレイ戦略
継続事前学習で最も警戒すべき問題が壊滅的忘却(Catastrophic Forgetting)です。新しいドメインのデータに適応する過程で、元のモデルが持っていた英語能力や一般知識が劣化してしまう現象です。たとえば、日本語データだけで継続事前学習すると、英語での推論能力が大幅に低下することがあります。これを防ぐ主な対策がリプレイ(Replay)戦略で、新しいドメインデータに加えて元の学習データの一部(通常5〜20%程度)を混ぜて学習させます。また、学習率を事前学習時より低く設定する、段階的にデータ比率を調整するといった工夫も重要です。
いつ継続事前学習を選ぶべきか
継続事前学習は数十億トークン規模のデータと大量のGPU計算時間を要するため、コストは決して低くありません。RAGやファインチューニングでは対応しきれない深い専門性や言語能力が必要なときに初めて検討すべき手法です。「専門用語を理解できない」「言語混在の出力が多い」といった根本的な問題には継続事前学習が有効ですが、「特定のフォーマットで出力させたい」程度ならファインチューニングで十分です。