Instruction Tuning
指示チューニング
しじちゅうにんぐ
Definition
Instruction tuning is additional training on pairs of instructions and desired answers to make a model follow instructions more reliably. It improves usability for general users and real tasks.
事前学習を終えたばかりのLLMに「日本の首都を教えてください」と聞いても、期待通りの回答は返りません。「日本の首都は東京です。東京の人口は約1,400万人で...」と延々と続けたり、そもそも別の質問を生成してしまったりします。指示チューニング(Instruction Tuning)とは、「指示→望ましい応答」のペアデータを使って、モデルがユーザーの指示に適切に従えるように微調整する手法で、ChatGPTの成功を技術的に支えた重要な工程です。
「テキスト補完器」を「アシスタント」に変える
事前学習で獲得するのは「次のトークンを予測する能力」であり、「指示に従う能力」ではありません。Webテキストで学習したモデルは、質問を見ると回答ではなく質問の続きを生成しようとします。Wikipedia的な文章を見れば百科事典風に書き続け、掲示板の投稿を見ればそのスレッドの続きを生成します。指示チューニングは、この「テキスト補完器」を「指示に従うアシスタント」に変換するための決定的な工程です。具体的には、人間が作成した高品質な指示・応答ペアを数千〜数万件用意し、教師ありファインチューニング(SFT)でモデルを微調整します。
データの質が量を圧倒する
指示チューニングの世界で画期的だったのが、2023年にMetaが発表したLIMA論文の発見です。わずか1,000件の厳選された高品質データで、65Bパラメータモデルが驚くほど優れた性能を達成しました。この「Less Is More for Alignment」という知見は、データの量よりも質が圧倒的に重要であることを示しています。一方、GoogleのFLANコレクションは1,800以上のタスクを網羅した大規模データセットで、タスクの多様性がモデルの汎化能力を高めることを示しました。StanfordのAlpacaデータセットはGPT-3.5で生成した52K件の指示データでLLaMAを微調整し、低コストで高性能モデルを作れることを実証しました。
RLHFとの役割分担
現代のLLM開発パイプラインでは、指示チューニング(SFT)の後にRLHFやDPOなどの選好学習が行われるのが標準的な流れです。SFTが「指示に従う基本能力」を付与するのに対し、RLHFは「複数の回答候補からより良いものを選ぶ」能力を磨きます。SFTなしにRLHFだけを行っても効果は限定的で、SFTは必須の土台です。ChatGPTが登場したとき、その自然な対話能力に世界が驚きましたが、あの体験を可能にしたのは事前学習→SFT→RLHFという3段階のパイプラインであり、SFTはその中核を担っています。
実務への示唆
企業が自社用のLLMを構築する際にも、指示チューニングの考え方は直接活用できます。社内のFAQ対応や文書要約など、特定業務に特化した指示・応答ペアを数百件用意してSFTを行うだけで、汎用モデルの性能を大幅に上回ることがあります。重要なのは、回答の正確性、自然さ、適切な長さなど、データ品質の管理に妥協しないことです。