Meta анонсувала фреймворк audio2photoreal AI, який може генерувати сцени діалогів персонажів, вводячи файли дубляжу

Bit News Нещодавно Meta анонсувала фреймворк штучного інтелекту під назвою audio2photoreal, який здатний генерувати серію реалістичних моделей персонажів NPC і автоматично «синхронізувати губи» та «позувати» моделі персонажів за допомогою наявних файлів закадрового голосу.

В офіційному звіті про дослідження зазначалося, що після отримання файлу дубляжу фотореальний фреймворк Audio2 спочатку згенерує серію моделей NPC, а потім використає технологію квантування та алгоритм дифузії для генерації дій моделі, в якому технологія квантування забезпечує еталон зразка дії для фреймворку, а алгоритм дифузії використовується для покращення ефекту дій персонажів, згенерованих кадром.

Сорок три відсотки оцінювачів у контрольованому експерименті були «повністю задоволені» сценами діалогів персонажів, згенерованими кадром, тому дослідники вважали, що фотореальна структура Audio2 здатна генерувати «більш динамічні та виразні» рухи, ніж конкуруючі продукти в галузі. Повідомляється, що тепер дослідницька група оприлюднила відповідний код і набір даних на GitHub.

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити