Nowy model od Google

Przez Srinivasa Sunkarę i Gilles'a Baechlera, inżynierów oprogramowania z Google Research, zaprezentowano ScreenAI - model służący do rozumienia interfejsów użytkownika (UI) i infografik. UI oraz infografiki odgrywają ważne role w komunikacji międzyludzkiej i interakcji człowiek-maszyna, gwarantując bogate i interaktywne doświadczenia użytkowników. Oba dzielą podobne zasady projektowania i język wizualny (np. ikony i układy), co stwarza okazję do stworzenia jednego modelu, który będzie w stanie zrozumieć i komunikować się z tymi interfejsami. Jednak ze względu na ich złożoność i różnorodność formatów prezentacji, infografiki i UI stanowią unikalne wyzwanie modelowania.

Architektura ScreenAI

Architektura ScreenAI bazuje na PaLI, składa się z bloku kodera multimodalnego oraz dekodera autoregresyjnego. Koder PaLI wykorzystuje transformator wizualny (ViT), który tworzy osadzenia obrazu i kodera multimodalnego, który przyjmuje jako wejście łączenie obrazu i tekstu. Elastyczność tej architektury pozwala ScreenAI na rozwiązanie zadań związanych z przekształcaniem tekstowych i obrazowych danych wejściowych na tekst wyjściowy. ScreenAI jest trenowany w dwóch etapach: wstępnym i dostrajania, a podczas drugiego etapu większość używanych danych jest ręcznie oznaczana przez ludzi.

Generowanie danych

Aby stworzyć zestaw danych do wstępnego treningu ScreenAI, najpierw kompiluje się obszerną kolekcję zrzutów ekranu z różnych urządzeń, w tym komputerów stacjonarnych, telefonów komórkowych i tabletów. Następnie zastosowano tłumaczenie układu, oparte na modelu DETR, który identyfikuje i etykietuje szeroki zakres elementów UI (np. obrazy, piktogramy, przyciski, tekst) oraz ich przestrzenne relacje. Atrybuty te połączone z tekstem dają detaliczny opis każdego ekranu.

Podsumowanie

ScreenAI to nowy model od Google, który zasila świat technologii UI i infografik. Model ten wykorzystuje różnorodne techniki generowania danych, takie jak LLM i ViT, do efektywnego trenowania. Wyniki tego modelu biją rekordy w różnych zadaniach związanych z interfejsami użytkownika i infografikami, co potwierdza jego skuteczność. Pomimo znaczącego postępu, istnieje jeszcze wiele do zrobienia w celu dalszego udoskonalenia i optymalizacji modelu. Praca nad ScreenAI to kolejny krok w kierunku zrozumienia interfejsów użytkownika i infografik przez maszyny.

Udostępnij ten artykuł
Link został skopiowany!