先月下旬、Google は、12 の言語とそのバリエーションにまたがる 32 の異なる音声を備えた Cloud Text-to-Speech エンジンを世界中の開発者にリリースしました。今回、同社は、Cloud AI 音声ラインナップの別の製品である Cloud Speech-to-text エンジン (以前は Cloud Speech API として知られていました) のメジャー アップデートをリリースしました。
Cloud Speech-to-text エンジンは 2016 年にリリースされ、開発者が 1 年近く前から利用できるようになりました。ただし、最新リリースでは、Google はエンジンに多くの新機能とアップデートを追加しており、通話やビデオの文字起こしなど、ビジネスにとってさらに便利になることが期待されています。ただし、消費者向けアプリ開発者がこれらのエンジンを使用してアプリを作成することを妨げるものはありません。
Google の ブログ投稿 によると、新しく更新された Cloud Speech-to-Text エンジンは以下をサポートするようになりました。
- 電話やビデオからの文字起こしの精度を向上させるための、あらかじめ構築されたモデルの選択
- 自動句読点により、文字起こしされた長文音声の読みやすさが向上します。
- 文字起こしワークロードをタグ付けしてグループ化し、Google チームにフィードバックを提供する新しいメカニズム (認識メタデータ)
- 99.9% の可用性を約束する標準のサービス レベル アグリーメント (SLA)
これらの少なくともいくつかは、音声録音の文字起こしにエンジンを使用するなど、実際の消費者向けアプリケーションに使用できる可能性があります。
ただし、新しいビデオ通話および電話通話の文字起こしモデルは、企業と顧客の間のすべてのコミュニケーションを追跡する必要があるコールセンターなどのビジネス ユースケース向けに特別に設計されています。
API は、電話通話では最大 4 人のスピーカーをサポートし、ビデオ通話では 4 人を超えるスピーカーをサポートでき、同時に背景ノイズ、電話回線からの静音、およびその他のエージェントをシームレスに考慮します。
モデルをトレーニングするために、Google は改善へのアクセスと引き換えにデータの提供を自発的に行った顧客から得た実際のデータを使用しました。実際のデータを使用しているため、新しいモデルでは以前のモデルよりもエラーが 54% 減少しています。 Google のクラウド AI 担当プロダクト マネージャーである Dan Aharon 氏はブログ投稿で次のように書いています。
「ほとんどの主要なクラウドプロバイダーは、製品を改善するために受信リクエストからの音声データを使用しています。 Google Cloud では、このような慣行を避けてきましたが、お客様はモデルを改善するために自社を代表する実際のデータを使用することを定期的に要求しています。私たちはプライバシーに配慮し、データ保護ポリシーを遵守しながら、このニーズに応えたいと考えています。そのため、本日、当社は業界初のデータロギング用のオプトインプログラムの 1 つを提案し、このデータに基づいた最初のモデルを導入しました。」
