A NVIDIA expande as capacidades ASR da Riva com os modelos Whisper e Canary

Geração de resumo em curso

Rebeca Moen

21 de fevereiro de 2025 10:54

A NVIDIA melhora o seu Riva ASR com novas capacidades multilingues usando os modelos Whisper e Canary, integrando funcionalidades avançadas para tradução de fala offline e automática.

A NVIDIA deu passos significativos no avanço dos seus sistemas de Reconhecimento Automático de Fala (ASR) ao introduzir capacidades aprimoradas através do contêiner e SDK Riva 2.18.0. Estes desenvolvimentos fazem parte dos esforços contínuos da NVIDIA para refinar seus microserviços de IA de fala e tradução acelerados por GPU, conforme detalhado por Sven Chilton no Blog do Desenvolvedor da NVIDIA.

Integração de Novos Modelos

A mais recente iteração do Riva inclui suporte para a arquitetura Parakeet, que facilita o streaming de ASR multilíngue, e os modelos Whisper e Canary para ASR offline e Tradução Automática de Fala (AST). Whisper, desenvolvido pela OpenAI, e os modelos Distil-Whisper da HuggingFace, são agora parte integrante das capacidades ASR offline da Riva, permitindo a transcrição e tradução de gravações de áudio em vários idiomas diretamente para o inglês.

Os modelos Canary estendem ainda mais a funcionalidade da Riva, suportando ASR e AST offline em várias combinações de idiomas, incluindo traduções de qualquer idioma para inglês, de inglês para qualquer idioma e de qualquer idioma para qualquer idioma. Esses modelos atendem a diversas necessidades linguísticas, oferecendo suporte robusto para detecção e tarefas de tradução de idiomas.

Desativação Seletiva de NMT

Um dos recursos notáveis introduzidos nesta atualização é a capacidade de desativar seletivamente partes do processo de (NMT) de Tradução Automática Neural usando a tag SSML. Esse recurso permite que os usuários especifiquem segmentos de texto que não devem ser traduzidos, proporcionando maior controle sobre as saídas de tradução. Além disso, um novo dicionário DNT permite a especificação de como certas palavras ou frases devem ser traduzidas, melhorando a personalização dos processos de tradução.

Implementação e Utilização

A implementação destas novas capacidades é simplificada através da pasta de recursos Inicialização Rápida de Competências Riva, que inclui scripts e ficheiros de configuração necessários para configurar um servidor Riva com funcionalidades Whisper e Canary. Os utilizadores podem escolher entre os modelos Whisper e Canary com base nas suas necessidades específicas de ASR, utilizando os scripts fornecidos para otimizar a implementação do modelo de acordo com a sua arquitetura de GPU.

O compromisso da NVIDIA em expandir o escopo linguístico e funcional de seus sistemas ASR é evidente na integração desses modelos e recursos avançados. Ao oferecer suporte a uma ampla gama de idiomas e oferecer controles de tradução aprimorados, a Riva continua a definir padrões da indústria em reconhecimento de fala e tecnologia de tradução.

Para obter mais informações sobre os mais recentes avanços ASR da NVIDIA, visite o Blog do desenvolvedor da NVIDIA.

Fonte da imagem: Shutterstock

ASR0.66%

Ver original

O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.

Recompensa
gostar
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
#BTC#
191k publicações
#ETH#
119k publicações
#PI#
91k publicações
4#GateioInto11#
76k publicações
5#ContentStar#
64k publicações
6#BOME#
59k publicações
7#GT#
56k publicações
8#DOGE#
53k publicações
9#MAGA#
52k publicações
10#SLERF#
51k publicações

Pino