Останній прорив Microsoft у сфері ШІ вже тут — VibeVoice-Realtime-0.5B офіційно з'явився. Ця штука має TTS-движок на 1,5 мільярда параметрів, який розриває поточні бенчмарки. Що мене вразило? Майже миттєвий час відгуку — йдеться приблизно про 300 мілісекунд до першого звуку. Це справді швидко для тексту в мовлення. І ось головне: це повністю open-source під ліцензією MIT, тобто розробники можуть реально використовувати його без ліцензійних проблем. Для тих, хто працює над голосовими інтерфейсами чи інструментами реального часу, це може стати справжнім проривом. Те, що техногігант віддає настільки потужний інструмент спільноті? Саме такі кроки пришвидшують інновації по всьому ринку.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
12 лайків
Нагородити
12
4
Репост
Поділіться
Прокоментувати
0/400
WalletWhisperer
· 12-05 17:44
Затримка 300 мс... розпізнавання патернів зараз кричить. Перехід до відкритого коду — це класична стратегія акумуляції — спостерігайте, як розгортаються поведінкові індикатори.
Переглянути оригіналвідповісти на0
GateUser-75ee51e7
· 12-05 17:34
Звук з'являється вже через 300 мілісекунд? Цього разу Microsoft справді не перебільшував, MIT справді вразили своїм відкритим кодом.
Переглянути оригіналвідповісти на0
SpeakWithHatOn
· 12-05 17:34
Звук з'являється всього за 300 мілісекунд? Цього разу Microsoft дійсно здивували, ще й відкритий код під ліцензією MIT — тепер розробники справді раді.
Переглянути оригіналвідповісти на0
CryptoMom
· 12-05 17:24
Відгук за 300 мілісекунд? Це дійсно неймовірна швидкість, нарешті можна вести розмови в реальному часі.
Останній прорив Microsoft у сфері ШІ вже тут — VibeVoice-Realtime-0.5B офіційно з'явився. Ця штука має TTS-движок на 1,5 мільярда параметрів, який розриває поточні бенчмарки. Що мене вразило? Майже миттєвий час відгуку — йдеться приблизно про 300 мілісекунд до першого звуку. Це справді швидко для тексту в мовлення. І ось головне: це повністю open-source під ліцензією MIT, тобто розробники можуть реально використовувати його без ліцензійних проблем. Для тих, хто працює над голосовими інтерфейсами чи інструментами реального часу, це може стати справжнім проривом. Те, що техногігант віддає настільки потужний інструмент спільноті? Саме такі кроки пришвидшують інновації по всьому ринку.