NVIDIA が Riva ASR 機能を Whisper モデルと Canary モデルで拡張

robot
概要作成中

レベカ・モーエン

2025年02月21日 10:54

NVIDIAは、WhisperとCanaryモデルを使用してRiva ASRを新しい多言語対応能力で強化し、オフラインおよび自動音声翻訳のための高度な機能を統合しています。

NVIDIA Expands Riva ASR Capabilities with Whisper and Canary Models

NVIDIAは、Riva 2.18.0コンテナとSDKを介して、自動音声認識(ASR)システムの拡張機能を導入することで、大きな進展を遂げています。これらの開発は、NVIDIAのGPUアクセラレーションの音声および翻訳AIマイクロサービスを磨くための取り組みの一環であり、Sven Chilton氏によってNVIDIA Developer Blogで詳細に説明されています。

新モデルの統合

Rivaの最新イテレーションには、多言語ASRのストリーミングを容易にするParakeetアーキテクチャと、オフラインASRおよび自動音声翻訳(AST)用のWhisperおよびCanaryモデルのサポートが含まれています。OpenAI が開発した Whisper と HuggingFace の Distil-Whisper モデルは、現在 Riva のオフライン ASR 機能に不可欠であり、多数の言語の音声録音を英語に直接文字起こしおよび翻訳することができます。

Canaryモデルは、複数の言語の組み合わせでオフラインASRおよびASTをサポートすることで、Rivaの機能をさらに拡張します。これには、Any-to-English、English-to-Any、およびAny-to-Anyの翻訳が含まれます。これらのモデルは、多様な言語ニーズに対応し、言語の検出や翻訳タスクにロバストなサポートを提供します。

NMTの選択的非アクティブ化

この更新で導入された注目すべき機能の1つは、SSMLタグを使用してニューラル機械翻訳(NMT)プロセスの一部を選択的に非アクティブ化する機能です。この機能により、ユーザーは翻訳されないテキストセグメントを指定することができ、翻訳出力をより細かく制御できます。さらに、新しいDNT辞書により、特定の単語やフレーズの翻訳方法を指定することができ、翻訳プロセスのカスタマイズが向上します。

デプロイと使用

これらの新機能を展開するには、Riva Skillsクイックスタートリソースフォルダを介して効率化されます。このフォルダには、WhisperおよびCanary機能を備えたRivaサーバをセットアップするために必要なスクリプトや構成ファイルが含まれています。ユーザーは、提供されたスクリプトを利用して、特定のASRニーズに基づいてWhisperおよびCanaryモデルのどちらを選択し、GPUアーキテクチャに応じてモデル展開を最適化することができます。

ASR システムの言語的および機能的範囲を拡大するという NVIDIA の取り組みは、これらの高度なモデルと機能の統合に表れています。Rivaは、より幅広い言語をサポートし、強化された翻訳コントロールを提供することで、音声認識および翻訳テクノロジーの業界標準を確立し続けています。

NVIDIA の最新の ASR の進歩の詳細については、NVIDIA 開発者ブログをご覧ください。

画像出典:Shutterstock

原文表示
内容は参考用であり、勧誘やオファーではありません。 投資、税務、または法律に関するアドバイスは提供されません。 リスク開示の詳細については、免責事項 を参照してください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGate.ioアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)