NVIDIA udostępnia dziś otwartoźródłowe modele NVIDIA Audio2Face wraz z zestawem narzędzi programistycznych (SDK), co pozwala wszystkim deweloperom gier i aplikacji 3D tworzyć i wdrażać cyfrowe postaci o wysokiej jakości animacji twarzy. Równocześnie NVIDIA otwiera platformę treningową Audio2Face, umożliwiając dostrajanie i personalizację istniejących modeli pod konkretne zastosowania.
NVIDIA Audio2Face to zaawansowane modele generatywnej AI, które tworzą realistyczne animacje twarzy i synchronizację ruchu ust w czasie rzeczywistym, bazując na analizie cech akustycznych mowy, takich jak fonemy i intonacja. Modele generują strumień danych animacji, który jest mapowany na mimikę twarzy postaci. Dane te mogą być renderowane offline do wcześniej zaprogramowanych sekwencji lub przesyłane na bieżąco dla dynamicznych, sterowanych AI postaci, zapewniając precyzyjną synchronizację ruchu warg i ekspresji emocji.
Modele Audio2Face znajdują zastosowanie w branży gier, mediów i rozrywki oraz obsługi klienta. Korzystają z niego liczni twórcy gier, m.in. Codemasters, GSC Games World, NetEase, Perfect World Games, a także niezależni dostawcy oprogramowania (ISV), tacy jak Convai, Inworld AI, Reallusion, Streamlabs i UneeQ.
Dzięki udostępnieniu modelu jako open source, twórcy z różnych środowisk zyskują dostęp do zaawansowanego kodu, który mogą rozwijać i adaptować. To podejście wspiera współtworzenie, w ramach którego społeczność wzbogaca narzędzie o nowe funkcje i dostosowuje je do szerokiego wachlarza zastosowań.
Firma NVIDIA z satysfakcją udostępnia technikę wysokiej jakości animacji twarzy w modelu open source, czyniąc ją bardziej dostępną dla twórców na całym świecie. Tym samym zachęca wszystkich zainteresowanych jej rozwojem do dołączenia do społeczności deweloperów NVIDIA Audio2Face na Discordzie i dzielenia się swoimi projektami.
Oto pełna lista narzędzi open source, które zostaną udostępnione. Więcej informacji dostępnych jest również na stronie NVIDIA ACE for Games.
Audio2Face SDK – biblioteki i dokumentacja do tworzenia oraz uruchamiania animacji twarzy lokalnie lub w chmurze.
Wtyczka do Autodesk Maya – wersja referencyjna (v2.0) z lokalnym wykonaniem, umożliwiająca przesyłanie danych audio i odbieranie animacji twarzy w Maya.
Wtyczka do Unreal Engine 5 – wersja (v2.5) dla UE 5.5 i 5.6, umożliwiająca przesyłanie danych audio i odbieranie animacji twarzy w Unreal Engine 5.
Framework treningowy Audio2Face – wersja (v1.0) do tworzenia modeli Audio2Face na podstawie własnych danych.
Przykładowe dane treningowe Audio2Face – zestaw danych pozwalający na szybki start pracy ze środowiskiem treningowym Audio2Face.
Modele Audio2Face – modele regresyjne (v2.2) i dyfuzyjne (v3.0) do generowania synchronizacji ruchu warg.
Modele Audio2Emotion – modele produkcyjne (v2.2) i eksperymentalne (v3.0) do wnioskowania o stanie emocjonalnym na podstawie sygnału audio.