Je viens de voir que Simon a testé sur Mac le nouveau modèle open source de Microsoft, VibeVoice-ASR, et il a vraiment de la matière.


9 milliards de paramètres, traite 60 minutes d'audio continu en une seule fois, et peut aussi indiquer qui parle, quand, et ce qu'il dit.
Les solutions traditionnelles combinent Whisper + pyannote, mais là un seul modèle fait tout, supportant plus de 50 langues et le mélange chinois-anglais.
Il a utilisé la version quantifiée en 4 bits (5,71 GB) sur un M5 Max pour transcrire une heure de podcast en 8 minutes et 45 secondes, avec un pic de mémoire de 61,5 GB, ce qui est impossible sur un ordinateur portable standard de 32 GB.
Ce qui est intéressant, c'est que le modèle a reconnu un dialogue entre deux personnes comme étant trois, car Lenny parle dans un environnement d'enregistrement différent.
Pour faire tourner localement, il faut au moins 64 GB de mémoire, mais pour la transcription de podcasts ou les comptes rendus de réunions, le processus en plusieurs étapes peut maintenant être réduit à une seule inférence.

Que pensez-vous de ce modèle ?
Voir l'original
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler