Obecna era sztucznej inteligencji pozwala komputerom generować własną „sztukę” za pomocą modeli dyfuzji. W skomplikowanym, czasochłonnym procesie, struktura jest dodawana iteracyjnie, czyli powtarzalnie aż do określonej liczby razy albo spełnienia konkretnego warunku, do szumów początkowych, dopóki nie pojawi się jasny obraz lub wideo. Jednak badacze z MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) wprowadziły nowy model, który uprościł wieloetapowy proces tradycyjnych modeli dyfuzji do jednego kroku, a to za pomocą tzw. modelu nauczyciel-uczeń.
Nowe podejście do dyfuzji
Metoda ta, znana jako Distillation Matching Distillation (DMD), zakłada nauczanie nowego modelu komputerowego, aby naśladował zachowanie bardziej skomplikowanych, oryginalnych modeli generujących obrazy. DMD sprawia, że generowanie obrazów jest nie tylko znacznie szybsze, ale i utrzymuje wysoką jakość generowanych obrazów. „Nasza metoda przyspiesza obecne modele dyfuzji, takie jak Stable Diffusion i DALLE-3, aż trzydzieści razy” - mówi Tianwei Yin, student doktorancki na MIT.
Zaawansowane narzędzia generowania obrazów
Jednokrokowy model dyfuzji może zwiększyć możliwości narzędzi projektowych, ułatwiając szybsze tworzenie treści i potencjalnie wspierając postęp w dziedzinach takich jak odkrywanie leków czy modelowanie 3D. Szybsze generowanie obrazów jest możliwe dzięki szkoleniu nowej sieci w celu minimalizacji rozbieżności dystrybucji między obrazami generowanymi przez sieć, a tymi z zestawu danych treningowych, używanymi przez tradycyjne modele dyfuzji. Yin i jego współstudenci używają w swoim modelu sieci wcześniej nauczonych, co znacznie upraszcza proces. Dzięki temu, że potrafią kopiować i dostrajać parametry z oryginalnych modeli, szybkość treningu nowego modelu jest imponująca. Co więcej, jest on w stanie generować obrazy wysokiej jakości z taką samą architekturą co oryginalne modele.
Zmniejszenie liczby iteracji to święty Graal w modelach dyfuzji od momentu ich powstania. Autorzy modelu jak i specjaliści niezwiązani z projektem są podekscytowani możliwościami, jakie otwiera ta nowa metoda. Udało im się połączyć wszechstronność i wysoką jakość wizualną modeli dyfuzji z wydajnością sieci GAN w czasie rzeczywistym. Choć pozostaje jeszcze kwestia jakości przy trudniejszych zastosowaniach, model DMD prezentuje świetne osiągi, otwierając furtkę do dalszych ulepszeń.