Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加
🔒 公式発表のみ掲載。噂・リーク・情報商材は載せません。
← 用語集に戻る

チャンク分割

Chunking

ちゃんくぶんかつ

解説

チャンク分割とは、長い文書を適切な長さの塊に分け、検索やRAGで扱いやすくする前処理です。理解すると調整がしやすくなります。

100ページの社内マニュアルをRAGシステムに取り込むとき、そのまま丸ごとLLMに渡すことはできません。コンテキストウィンドウの制限もありますが、それ以上に検索精度が下がるからです。チャンク分割(Chunking)とは、文書を適切なサイズの断片(チャンク)に分割し、検索と生成の両方で最適な粒度にする前処理技術です。

なぜ分割が必要なのか

RAGの検索ステップでは、ユーザーの質問に意味的に近い文書を見つけます。しかし文書全体を1つのベクトルにすると、個々のトピックの特徴が薄まり、検索精度が大幅に低下します。たとえば「有給休暇の申請方法」を知りたいのに、就業規則全体が1つのチャンクだと、給与計算や勤怠管理の情報も混ざった曖昧なベクトルになってしまいます。適切に分割することで、質問に本当に関連する部分だけを正確に取得できるようになります。

固定長チャンキングとセマンティックチャンキング

最もシンプルな方法は固定長チャンキングで、文字数やトークン数で機械的に分割します。500〜1000トークン程度が一般的な目安です。実装が簡単で処理速度も速いですが、文の途中で切れたり、意味のまとまりが壊れるリスクがあります。

これに対し、セマンティックチャンキングは文章の意味的なまとまりを考慮して分割します。段落や見出しの区切り、話題の変わり目を検出して自然な単位に分けるため、検索精度が向上します。LangChainのRecursiveCharacterTextSplitterは、見出し→段落→文→文字の順に階層的に分割を試みる実用的な手法です。

オーバーラップの重要性

チャンク間にオーバーラップ(重複部分)を設けることも重要な戦略です。たとえば500トークンのチャンクに50〜100トークンのオーバーラップを持たせると、分割境界付近の文脈が保持されます。「前のチャンクの末尾」と「次のチャンクの先頭」が重なるため、境界をまたぐ情報の欠落を防ぐことができます。

チャンクサイズのトレードオフ

チャンクサイズの選択にはトレードオフがあります。小さいチャンク(200〜300トークン)は検索精度が高まりますが、必要な文脈が不足しがちです。大きいチャンク(1000〜2000トークン)は文脈を豊富に含みますが、無関係な情報も混入し、トークンコストも増えます。最適なサイズはデータの性質やユースケースによって異なるため、実際のクエリでテストしながら調整するのが現実的なアプローチです。FAQ形式なら小さめ、技術文書なら大きめ、というように使い分けるのが効果的です。