Щойно побачив, як Simon на Mac протестував нову відкриту модель від Microsoft VibeVoice-ASR, ця модель справді має потенціал.


9 мільярдів параметрів, обробляє 60 хвилин безперервного аудіо за один раз, може визначати, хто говорить, коли і що сказав.
Традиційно потрібно поєднувати Whisper і pyannote, а тут одна модель все робить, підтримує понад 50 мов і змішане спілкування китайською та англійською.
Він використовував 4-бітну квантовану версію (5.71 ГБ) на M5 Max, щоб обробити 1-годинний подкаст за 8 хвилин 45 секунд, пікове споживання пам’яті — 61.5 ГБ, звичайний ноутбук з 32 ГБ пам’яті не справляється.
Цікаво, що модель розпізнала двох співрозмовників як трьох, оскільки Ленні говорив у різних умовах запису.
Локально для роботи потрібно щонайменше 64 ГБ пам’яті, для транскрипції подкастів і протоколів зустрічей багатоступеневий процес тепер можна зменшити до одного передбачення.

Як вам ця модель?
Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити