Nowa era dźwięku
Google DeepMind ogłosiło właśnie opracowanie technologii video-do-audio (V2A), która pozwala generować ścieżki dźwiękowe - muzykę, efekty dźwiękowe oraz mowę - na podstawie zarówno tekstowych wskazówek, jak i pikseli wideo. Teraz istnieje możliwość tworzenia filmów nie tylko z obrazem, ale również z dźwiękiem, korzystając ze sztucznej inteligencji.
Wpływ na kompozytorów
Te wiadomości mogą zaniepokoić kompozytorów ścieżek dźwiękowych, zwłaszcza że V2A może działać zarówno z automatycznymi usługami generowania filmów, jak i z istniejącym materiałem, na przykład archiwalnym czy niemym. Ciekawy jest aspekt tekstowego polecenia, ponieważ można stosować 'pozytywne wskazówki', które kierują dźwiękiem według naszych oczekiwań, ale również 'negatywne wskazówki', które mówią sztucznej inteligencji, czego ma unikać.
Nieskończone możliwości
To oznacza, że możemy wygenerować potencjalnie nieskończoną liczbę różnych ścieżek dźwiękowych do każdego fragmentu wideo. Na przykład, klip wygenerowany przy użyciu polecenia "Perkusista na scenie, otoczony przez błyskające światła i wiwatujący tłum" pokazuje możliwości systemu. V2A jest również zdolne do tworzenia dźwięku tylko na podstawie pikseli wideo, więc jeśli ktoś nie chce, nie musi korzystać z tekstowych poleceń.
Synchronizacja i jakość
Google DeepMind przyznaje, że V2A ma obecnie pewne ograniczenia - jakość dźwięku zależy od jakości filmu, a synchronizacja ruchu warg podczas generowania mowy nie jest idealna - ale zapewniają, że prowadzą dalsze badania w celu rozwiązania tych problemów.
Kreatywność bez granic
Google DeepMind informuje, że mimo obecnych ograniczeń technologii V2A, prowadzone są dalsze prace nad jej ulepszaniem. Dzięki niej twórcy treści wideo i muzyki zyskują możliwość personalizacji ścieżki dźwiękowej do swojego materiału filmowego na niespotykanym dotąd poziomie. Ta technologia może zrewolucjonizować przemysł filmowy i muzyczny, otwierając nowe przestrzenie dla kreatywności i innowacji.