転移学習
Transfer Learning
てんいがくしゅう
解説
転移学習とは、あるデータで学んだ知識を別のタスクに活かし、少ないデータでも性能を出す学習の考え方です。理解すると調整がしやすくなります。
英語を学んだ人がフランス語を始めると、ゼロからの学習者よりもずっと速く習得できます。文法の概念、言語には主語と動詞がある、といった「メタ知識」が転用できるからです。転移学習(Transfer Learning)とは、あるタスクやドメインで学習した知識を別のタスクに再利用することで、少ないデータと計算資源でも高い性能を実現する手法です。
なぜ言語の知識は転移するのか
大量のテキストで事前学習されたモデルは、特定のタスクのためではなく、言語の普遍的なパターンを獲得しています。具体的には、構文規則(主語の後に動詞が来やすい)、意味的関係(「犬」と「猫」はどちらも動物)、論理的推論の形式(AならばB、BならばC、ゆえにAならばC)、さらには文脈に応じたトーンの使い分けまで含まれます。これらの能力は特定の分野に依存しないため、医療文書の分類にも法律文書の要約にもそのまま転用できるのです。画像認識の分野でImageNetで学習したモデルが「エッジ検出→テクスチャ認識→物体認識」という汎用的な特徴抽出を学んでいるのと同様、言語モデルも「表層→構文→意味→推論」という階層的な言語理解を獲得しています。
LLM時代に転移学習が爆発的に拡大
転移学習の概念自体は2010年代前半から存在しましたが、LLMの登場でその適用範囲は劇的に広がりました。2018年のBERTは、事前学習→ファインチューニングという転移学習のパイプラインを確立し、11のNLPベンチマークで同時に最高性能を達成しました。GPTシリーズはさらに進んで、ファインチューニングすら不要な「プロンプトによる転移」を実現しました。Few-shot学習(数例を見せるだけで新しいタスクに適応する能力)は、究極的な転移学習の形と言えます。1つの基盤モデルが翻訳、要約、コード生成、数学的推論まで対応できるのは、転移学習の恩恵に他なりません。
少データで実用精度を達成する
転移学習の最大の実務的メリットは、少量のデータで高い精度を達成できることです。ある企業固有の文書分類タスクでは、ゼロからモデルを訓練するには数万件のラベル付きデータが必要かもしれません。しかし事前学習済みモデルをファインチューニングすれば、数百件、場合によっては数十件で同等以上の精度が得られます。LoRAやQLoRAなどのパラメータ効率的なファインチューニング手法の登場で、消費者向けGPUでも転移学習が可能になり、この恩恵はさらに民主化されています。
ドメインギャップと限界
転移学習は万能ではありません。事前学習データと対象タスクのドメインギャップが大きい場合、転移効果は低下します。一般的なWebテキストで学習したモデルを、化学式、音楽記譜法、古典ラテン語のような特殊な記法・言語に適用すると、性能が期待を下回ることがあります。このギャップを埋めるには、継続事前学習でドメイン知識を補強するか、ドメイン特化データでのファインチューニングが必要です。転移が効きやすい領域かどうかを見極めることが、AI導入プロジェクトの成否を分ける重要な判断ポイントとなります。