NVIDIA mejora su Riva ASR con nuevas capacidades multilingües utilizando los modelos Whisper y Canary, integrando funciones avanzadas para la traducción de voz fuera de línea y automática.
¡NVIDIA expande las capacidades de Riva ASR con los modelos Whisper y Canary!(https://img.gateio.im/social/moments-640ea0fcb3b5ee18827a1ee3ad912a1a)
NVIDIA ha dado grandes pasos en el avance de sus sistemas de reconocimiento automático del habla (ASR) al introducir capacidades mejoradas a través del contenedor y SDK Riva 2.18.0. Estos desarrollos forman parte de los esfuerzos continuos de NVIDIA para refinar sus microservicios de inteligencia artificial para el habla y la traducción acelerados por GPU, como detalla Sven Chilton en el blog para desarrolladores de NVIDIA.
Integración de Nuevos Modelos
La última iteración de Riva incluye soporte para la arquitectura Parakeet, que facilita la transmisión multilingüe de ASR, y los modelos Whisper y Canary para ASR sin conexión y traducción automática del habla (AST). Whisper, desarrollado por OpenAI, y los modelos Distil-Whisper de HuggingFace, son ahora parte integral de las capacidades de ASR sin conexión de Riva, lo que permite la transcripción y traducción de grabaciones de audio en numerosos idiomas directamente al inglés.
Los modelos Canary amplían aún más la funcionalidad de Riva al admitir ASR y AST sin conexión en múltiples combinaciones de idiomas, incluidas las traducciones de cualquier idioma al inglés, del inglés a cualquier idioma y de cualquier idioma a cualquier idioma. Estos modelos satisfacen diversas necesidades lingüísticas, ofreciendo un sólido soporte para tareas de detección y traducción de idiomas.
Desactivación selectiva de NMT
Una de las características destacadas introducidas en esta actualización es la capacidad de desactivar selectivamente partes del proceso de Traducción Automática Neural NMT utilizando la etiqueta SSML. Esta característica permite a los usuarios especificar segmentos de texto que no deben ser traducidos, proporcionando un mayor control sobre las salidas de traducción. Además, un nuevo diccionario DNT permite la especificación de cómo ciertas palabras o frases deben ser traducidas, mejorando la personalización de los procesos de traducción.
Implementación y Uso
La implementación de estas nuevas capacidades se simplifica a través de la carpeta de recursos de inicio rápido de Riva Skills, que incluye scripts y archivos de configuración necesarios para configurar un servidor Riva con funcionalidades de Whisper y Canary. Los usuarios pueden elegir entre los modelos Whisper y Canary según sus necesidades específicas de ASR, utilizando los scripts proporcionados para optimizar la implementación del modelo según la arquitectura de su GPU.
El compromiso de NVIDIA de ampliar el alcance lingüístico y funcional de sus sistemas ASR es evidente en la integración de estos modelos y funciones avanzados. Al admitir una gama más amplia de idiomas y ofrecer controles de traducción mejorados, Riva continúa estableciendo estándares de la industria en tecnología de reconocimiento de voz y traducción.
Para obtener más información sobre los últimos avances ASR de NVIDIA, visite el blog de desarrolladores de NVIDIA.
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
NVIDIA Expands Riva ASR Capabilities with Whisper and Canary Models
Rebeca Moen
21 de febrero de 2025 10:54
NVIDIA mejora su Riva ASR con nuevas capacidades multilingües utilizando los modelos Whisper y Canary, integrando funciones avanzadas para la traducción de voz fuera de línea y automática.
¡NVIDIA expande las capacidades de Riva ASR con los modelos Whisper y Canary!(https://img.gateio.im/social/moments-640ea0fcb3b5ee18827a1ee3ad912a1a)
NVIDIA ha dado grandes pasos en el avance de sus sistemas de reconocimiento automático del habla (ASR) al introducir capacidades mejoradas a través del contenedor y SDK Riva 2.18.0. Estos desarrollos forman parte de los esfuerzos continuos de NVIDIA para refinar sus microservicios de inteligencia artificial para el habla y la traducción acelerados por GPU, como detalla Sven Chilton en el blog para desarrolladores de NVIDIA.
Integración de Nuevos Modelos
La última iteración de Riva incluye soporte para la arquitectura Parakeet, que facilita la transmisión multilingüe de ASR, y los modelos Whisper y Canary para ASR sin conexión y traducción automática del habla (AST). Whisper, desarrollado por OpenAI, y los modelos Distil-Whisper de HuggingFace, son ahora parte integral de las capacidades de ASR sin conexión de Riva, lo que permite la transcripción y traducción de grabaciones de audio en numerosos idiomas directamente al inglés.
Los modelos Canary amplían aún más la funcionalidad de Riva al admitir ASR y AST sin conexión en múltiples combinaciones de idiomas, incluidas las traducciones de cualquier idioma al inglés, del inglés a cualquier idioma y de cualquier idioma a cualquier idioma. Estos modelos satisfacen diversas necesidades lingüísticas, ofreciendo un sólido soporte para tareas de detección y traducción de idiomas.
Desactivación selectiva de NMT
Una de las características destacadas introducidas en esta actualización es la capacidad de desactivar selectivamente partes del proceso de Traducción Automática Neural NMT utilizando la etiqueta SSML. Esta característica permite a los usuarios especificar segmentos de texto que no deben ser traducidos, proporcionando un mayor control sobre las salidas de traducción. Además, un nuevo diccionario DNT permite la especificación de cómo ciertas palabras o frases deben ser traducidas, mejorando la personalización de los procesos de traducción.
Implementación y Uso
La implementación de estas nuevas capacidades se simplifica a través de la carpeta de recursos de inicio rápido de Riva Skills, que incluye scripts y archivos de configuración necesarios para configurar un servidor Riva con funcionalidades de Whisper y Canary. Los usuarios pueden elegir entre los modelos Whisper y Canary según sus necesidades específicas de ASR, utilizando los scripts proporcionados para optimizar la implementación del modelo según la arquitectura de su GPU.
El compromiso de NVIDIA de ampliar el alcance lingüístico y funcional de sus sistemas ASR es evidente en la integración de estos modelos y funciones avanzados. Al admitir una gama más amplia de idiomas y ofrecer controles de traducción mejorados, Riva continúa estableciendo estándares de la industria en tecnología de reconocimiento de voz y traducción.
Para obtener más información sobre los últimos avances ASR de NVIDIA, visite el blog de desarrolladores de NVIDIA.
Image source: Shutterstock