Anthropic finds over 10,000 vulnerabilities with Project GlasswingSynthID expands to Google Search and ChromeGoal mode now available across all Codex platformsCodex Thursday adds remote Mac controlAnthropic publishes early Project Glasswing resultsAnthropic updates vulnerability disclosure dashboardReleases new science-focused AI skills toolGemini 3.5 Flash released with enhanced research toolsGoogle launches ADK for Kotlin and Android 0.1.0Gemini 3.5 Flash officially launchedAI solves long-standing open math problem for first timeGoogle announces Gemini Omni for video creationUse multiple agents with Gemini OmniOpenAI Introduces Guaranteed Capacity for Long-Term ComputeGemini for Science assists with research tasksSynthID watermark and verification tool added to AI imagesGoogle I/O 2026 to unveil new AI breakthroughsOpenAI boosts image provenance and verificationKPMG rolls out Claude globally, starting with taxGoogle adds Managed Agents to the Gemini APIAnthropic finds over 10,000 vulnerabilities with Project GlasswingSynthID expands to Google Search and ChromeGoal mode now available across all Codex platformsCodex Thursday adds remote Mac controlAnthropic publishes early Project Glasswing resultsAnthropic updates vulnerability disclosure dashboardReleases new science-focused AI skills toolGemini 3.5 Flash released with enhanced research toolsGoogle launches ADK for Kotlin and Android 0.1.0Gemini 3.5 Flash officially launchedAI solves long-standing open math problem for first timeGoogle announces Gemini Omni for video creationUse multiple agents with Gemini OmniOpenAI Introduces Guaranteed Capacity for Long-Term ComputeGemini for Science assists with research tasksSynthID watermark and verification tool added to AI imagesGoogle I/O 2026 to unveil new AI breakthroughsOpenAI boosts image provenance and verificationKPMG rolls out Claude globally, starting with taxGoogle adds Managed Agents to the Gemini API
🔒 公式発表のみ掲載。噂・リーク・情報商材は載せません。
← Back to glossary

Instruction Tuning

指示チューニング

しじちゅうにんぐ

Definition

Instruction tuning is additional training on pairs of instructions and desired answers to make a model follow instructions more reliably. It improves usability for general users and real tasks.

事前学習を終えたばかりのLLMに「日本の首都を教えてください」と聞いても、期待通りの回答は返りません。「日本の首都は東京です。東京の人口は約1,400万人で...」と延々と続けたり、そもそも別の質問を生成してしまったりします。指示チューニング(Instruction Tuning)とは、「指示→望ましい応答」のペアデータを使って、モデルがユーザーの指示に適切に従えるように微調整する手法で、ChatGPTの成功を技術的に支えた重要な工程です。

「テキスト補完器」を「アシスタント」に変える

事前学習で獲得するのは「次のトークンを予測する能力」であり、「指示に従う能力」ではありません。Webテキストで学習したモデルは、質問を見ると回答ではなく質問の続きを生成しようとします。Wikipedia的な文章を見れば百科事典風に書き続け、掲示板の投稿を見ればそのスレッドの続きを生成します。指示チューニングは、この「テキスト補完器」を「指示に従うアシスタント」に変換するための決定的な工程です。具体的には、人間が作成した高品質な指示・応答ペアを数千〜数万件用意し、教師ありファインチューニング(SFT)でモデルを微調整します。

データの質が量を圧倒する

指示チューニングの世界で画期的だったのが、2023年にMetaが発表したLIMA論文の発見です。わずか1,000件の厳選された高品質データで、65Bパラメータモデルが驚くほど優れた性能を達成しました。この「Less Is More for Alignment」という知見は、データの量よりも質が圧倒的に重要であることを示しています。一方、GoogleのFLANコレクションは1,800以上のタスクを網羅した大規模データセットで、タスクの多様性がモデルの汎化能力を高めることを示しました。StanfordのAlpacaデータセットはGPT-3.5で生成した52K件の指示データでLLaMAを微調整し、低コストで高性能モデルを作れることを実証しました。

RLHFとの役割分担

現代のLLM開発パイプラインでは、指示チューニング(SFT)の後にRLHFやDPOなどの選好学習が行われるのが標準的な流れです。SFTが「指示に従う基本能力」を付与するのに対し、RLHFは「複数の回答候補からより良いものを選ぶ」能力を磨きます。SFTなしにRLHFだけを行っても効果は限定的で、SFTは必須の土台です。ChatGPTが登場したとき、その自然な対話能力に世界が驚きましたが、あの体験を可能にしたのは事前学習→SFT→RLHFという3段階のパイプラインであり、SFTはその中核を担っています。

実務への示唆

企業が自社用のLLMを構築する際にも、指示チューニングの考え方は直接活用できます。社内のFAQ対応や文書要約など、特定業務に特化した指示・応答ペアを数百件用意してSFTを行うだけで、汎用モデルの性能を大幅に上回ることがあります。重要なのは、回答の正確性、自然さ、適切な長さなど、データ品質の管理に妥協しないことです。

h
hayami

Stay on top of OpenAI, Google & Anthropic updates. An AI digest for business professionals.

Source Policy

We use only official sources. Each article links to the original announcement so you can verify it yourself.

© 2026 hayami. All rights reserved.