Anthropic finds over 10,000 vulnerabilities with Project GlasswingSynthID expands to Google Search and ChromeGoal mode now available across all Codex platformsCodex Thursday adds remote Mac controlAnthropic publishes early Project Glasswing resultsAnthropic updates vulnerability disclosure dashboardReleases new science-focused AI skills toolGemini 3.5 Flash released with enhanced research toolsGoogle launches ADK for Kotlin and Android 0.1.0Gemini 3.5 Flash officially launchedAI solves long-standing open math problem for first timeGoogle announces Gemini Omni for video creationUse multiple agents with Gemini OmniOpenAI Introduces Guaranteed Capacity for Long-Term ComputeGemini for Science assists with research tasksSynthID watermark and verification tool added to AI imagesGoogle I/O 2026 to unveil new AI breakthroughsOpenAI boosts image provenance and verificationKPMG rolls out Claude globally, starting with taxGoogle adds Managed Agents to the Gemini APIAnthropic finds over 10,000 vulnerabilities with Project GlasswingSynthID expands to Google Search and ChromeGoal mode now available across all Codex platformsCodex Thursday adds remote Mac controlAnthropic publishes early Project Glasswing resultsAnthropic updates vulnerability disclosure dashboardReleases new science-focused AI skills toolGemini 3.5 Flash released with enhanced research toolsGoogle launches ADK for Kotlin and Android 0.1.0Gemini 3.5 Flash officially launchedAI solves long-standing open math problem for first timeGoogle announces Gemini Omni for video creationUse multiple agents with Gemini OmniOpenAI Introduces Guaranteed Capacity for Long-Term ComputeGemini for Science assists with research tasksSynthID watermark and verification tool added to AI imagesGoogle I/O 2026 to unveil new AI breakthroughsOpenAI boosts image provenance and verificationKPMG rolls out Claude globally, starting with taxGoogle adds Managed Agents to the Gemini API
🔒 公式発表のみ掲載。噂・リーク・情報商材は載せません。
← Back to glossary

Automatic Speech Recognition (ASR)

音声認識

おんせいにんしき

Definition

Automatic speech recognition is a technology that converts audio speech into text, used for meeting transcription and subtitle generation. It is a key component for voice-based AI experiences.

会議の録音を一瞬で文字起こしする。動画に自動で字幕がつく。スマホに話しかけるだけでメッセージが送れる——これらすべてを支えているのが音声認識の技術です。音声認識(ASR: Automatic Speech Recognition)とは、人間の音声をテキストデータに自動変換する技術です。

精度を飛躍させたWhisper

音声認識の歴史は長いですが、精度が飛躍的に向上したのは近年のことです。特に2022年にOpenAIがリリースしたWhisperは、68万時間もの多言語音声データで学習された汎用モデルで、日本語を含む多言語の音声認識に対応しています。オープンソースで公開されており、ローカル環境で無料で利用できるため、個人開発者から企業まで幅広く採用されています。

音声からテキストへの変換プロセス

ASRの処理は複数のステップで行われます。まず音声信号を短い時間フレームに分割し、各フレームの音響特徴量(メルスペクトログラムなど)を抽出します。次に、学習済みのニューラルネットワークがこの特徴量を音素やトークンに変換し、最終的にテキストとして出力します。Whisperのようなエンドツーエンドモデルでは、この一連の処理を単一のモデルで行うため、従来の複数モジュールを組み合わせる方式と比べてシンプルかつ高精度です。

会議の文字起こしと議事録作成

ビジネスでの最も一般的な活用が会議の文字起こしです。Zoom、Microsoft Teams、Google Meetなどの主要ビデオ会議ツールには、リアルタイム文字起こし機能が搭載されています。さらに、文字起こしされたテキストをLLMで要約し、議事録や要点リストを自動生成するワークフローも普及しています。「1時間の会議を5分で振り返る」ことが現実になっています。

字幕生成とコンテンツ制作

動画コンテンツへの字幕付与もASRの重要な用途です。YouTubeの自動字幕機能は音声認識をベースにしており、多言語での字幕生成が可能です。映像制作の現場では、撮影素材の音声をテキスト化して検索可能にするメディア管理や、翻訳字幕の作成効率化にも活用されています。アクセシビリティの観点からも、聴覚障害のある方への情報保障として不可欠な技術です。

精度を左右する要因

音声認識の精度はいくつかの要因に影響されます。背景雑音の多い環境、複数人が同時に話す場面、専門用語やアクセントの強い話し方は、認識精度が下がる原因となります。対策として、ノイズキャンセリング前処理の適用、話者分離(ダイアライゼーション)技術の併用、ドメイン特化の追加学習などが有効です。特に医療や法務など専門用語が多い分野では、カスタム語彙の登録やファインチューニングが精度向上に効果的です。

h
hayami

Stay on top of OpenAI, Google & Anthropic updates. An AI digest for business professionals.

Source Policy

We use only official sources. Each article links to the original announcement so you can verify it yourself.

© 2026 hayami. All rights reserved.