NVIDIA meningkatkan Riva ASR-nya dengan kemampuan multibahasa baru menggunakan model Whisper dan Canary, mengintegrasikan fitur canggih untuk terjemahan ucapan offline dan otomatis.
NVIDIA telah mengambil langkah-langkah signifikan dalam memajukan sistem Pengenalan Ucapan Otomatis (ASR)()nya dengan memperkenalkan kemampuan yang ditingkatkan melalui kontainer dan SDK Riva 2.18.0. Perkembangan ini merupakan bagian dari upaya berkelanjutan NVIDIA untuk menyempurnakan mikroservis kecerdasan buatan percepatan GPU dan terjemahan suara, sebagaimana dijelaskan oleh Sven Chilton di Blog Pengembang NVIDIA.
Integrasi Model Baru
Iterasi terbaru Riva mencakup dukungan untuk arsitektur Parkit, yang memfasilitasi streaming ASR multibahasa, dan model Whisper dan Canary untuk ASR offline dan Automatic Speech Translation (AST). Whisper, yang dikembangkan oleh OpenAI, dan model Distil-Whisper oleh HuggingFace, sekarang merupakan bagian integral dari kemampuan ASR offline Riva, memungkinkan transkripsi dan terjemahan rekaman audio dalam berbagai bahasa langsung ke bahasa Inggris.
Model Canary lebih lanjut memperluas fungsionalitas Riva dengan mendukung ASR dan AST offline dalam beberapa kombinasi bahasa, termasuk terjemahan Any-to-English, English-to-Any, dan Any-to-Any . Model-model ini memenuhi beragam kebutuhan linguistik, menawarkan dukungan yang kuat untuk deteksi bahasa dan tugas terjemahan.
Deaktivasi NMT Selektif
Salah satu fitur menonjol yang diperkenalkan dalam pembaruan ini adalah kemampuan untuk secara selektif menonaktifkan bagian-bagian dari proses Penerjemahan Mesin Neural (NMT) menggunakan tag SSML. Fitur ini memungkinkan pengguna untuk menentukan segmen teks yang tidak boleh diterjemahkan, memberikan kontrol lebih besar terhadap hasil terjemahan. Selain itu, kamus DNT baru memungkinkan spesifikasi tentang bagaimana kata-kata atau frasa tertentu harus diterjemahkan, meningkatkan penyesuaian proses terjemahan.
Penyebaran dan Penggunaan
Implementasi kemampuan baru ini disederhanakan melalui folder sumber daya Riva Skills Quick Start, yang mencakup skrip dan file konfigurasi yang diperlukan untuk menyiapkan server Riva dengan fungsionalitas Whisper dan Canary. Pengguna dapat memilih antara model Whisper dan Canary berdasarkan kebutuhan ASR spesifik mereka, menggunakan skrip yang disediakan untuk mengoptimalkan implementasi model sesuai dengan arsitektur GPU mereka.
Komitmen NVIDIA untuk memperluas lingkup linguistik dan fungsional dari sistem ASR-nya terlihat dalam integrasi model dan fitur canggih ini. Dengan mendukung berbagai bahasa dan menawarkan kontrol terjemahan yang ditingkatkan, Riva terus menetapkan standar industri dalam teknologi pengenalan suara dan terjemahan.
Untuk informasi lebih lanjut tentang kemajuan ASR terbaru NVIDIA, kunjungi Blog Pengembang NVIDIA.
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
NVIDIA Memperluas Kemampuan ASR Riva dengan Model Whisper dan Canary
Rebeca Moen
21 Feb 2025 10:54
NVIDIA meningkatkan Riva ASR-nya dengan kemampuan multibahasa baru menggunakan model Whisper dan Canary, mengintegrasikan fitur canggih untuk terjemahan ucapan offline dan otomatis.
! NVIDIA Memperluas Kemampuan Riva ASR dengan Model Whisper dan Canary
NVIDIA telah mengambil langkah-langkah signifikan dalam memajukan sistem Pengenalan Ucapan Otomatis (ASR)()nya dengan memperkenalkan kemampuan yang ditingkatkan melalui kontainer dan SDK Riva 2.18.0. Perkembangan ini merupakan bagian dari upaya berkelanjutan NVIDIA untuk menyempurnakan mikroservis kecerdasan buatan percepatan GPU dan terjemahan suara, sebagaimana dijelaskan oleh Sven Chilton di Blog Pengembang NVIDIA.
Integrasi Model Baru
Iterasi terbaru Riva mencakup dukungan untuk arsitektur Parkit, yang memfasilitasi streaming ASR multibahasa, dan model Whisper dan Canary untuk ASR offline dan Automatic Speech Translation (AST). Whisper, yang dikembangkan oleh OpenAI, dan model Distil-Whisper oleh HuggingFace, sekarang merupakan bagian integral dari kemampuan ASR offline Riva, memungkinkan transkripsi dan terjemahan rekaman audio dalam berbagai bahasa langsung ke bahasa Inggris.
Model Canary lebih lanjut memperluas fungsionalitas Riva dengan mendukung ASR dan AST offline dalam beberapa kombinasi bahasa, termasuk terjemahan Any-to-English, English-to-Any, dan Any-to-Any . Model-model ini memenuhi beragam kebutuhan linguistik, menawarkan dukungan yang kuat untuk deteksi bahasa dan tugas terjemahan.
Deaktivasi NMT Selektif
Salah satu fitur menonjol yang diperkenalkan dalam pembaruan ini adalah kemampuan untuk secara selektif menonaktifkan bagian-bagian dari proses Penerjemahan Mesin Neural (NMT) menggunakan tag SSML. Fitur ini memungkinkan pengguna untuk menentukan segmen teks yang tidak boleh diterjemahkan, memberikan kontrol lebih besar terhadap hasil terjemahan. Selain itu, kamus DNT baru memungkinkan spesifikasi tentang bagaimana kata-kata atau frasa tertentu harus diterjemahkan, meningkatkan penyesuaian proses terjemahan.
Penyebaran dan Penggunaan
Implementasi kemampuan baru ini disederhanakan melalui folder sumber daya Riva Skills Quick Start, yang mencakup skrip dan file konfigurasi yang diperlukan untuk menyiapkan server Riva dengan fungsionalitas Whisper dan Canary. Pengguna dapat memilih antara model Whisper dan Canary berdasarkan kebutuhan ASR spesifik mereka, menggunakan skrip yang disediakan untuk mengoptimalkan implementasi model sesuai dengan arsitektur GPU mereka.
Komitmen NVIDIA untuk memperluas lingkup linguistik dan fungsional dari sistem ASR-nya terlihat dalam integrasi model dan fitur canggih ini. Dengan mendukung berbagai bahasa dan menawarkan kontrol terjemahan yang ditingkatkan, Riva terus menetapkan standar industri dalam teknologi pengenalan suara dan terjemahan.
Untuk informasi lebih lanjut tentang kemajuan ASR terbaru NVIDIA, kunjungi Blog Pengembang NVIDIA.
Sumber gambar: Shutterstock