Czy ReALM od Apple zrewolucjonizuje interakcje z asystentami głosowymi?

Badacze Apple opracowali system sztucznej inteligencji o nazwie ReALM (Reference Resolution as Language Modeling), który ma radykalnie zmienić sposób, w jaki asystenci głosowi rozumieją i odpowiadają na polecenia.

W pracy badawczej Apple przedstawia nowy system rozwiązywania problemów z rozdzielczością referencyjną w dużych modelach językowych, który obejmuje rozszyfrowanie niejednoznacznych odniesień do obiektów na ekranie, a także zrozumienie kontekstu konwersacji i jej tła. W rezultacie ReALM może prowadzić do bardziej intuicyjnych i naturalnych interakcji z urządzeniami.

Rozszyfrowywanie odniesień jest ważną częścią rozumienia języka naturalnego, umożliwiając użytkownikom stosowanie zaimków i innych pośrednich odniesień w rozmowie bez nieporozumień. W przypadku asystentów cyfrowych ta zdolność była historycznie znaczącym wyzwaniem, ograniczonym koniecznością interpretacji szerokiego zakresu wskazówek werbalnych i informacji wizualnych. System ReALM firmy Apple stara się rozwiązać ten problem, przekształcając złożony proces rozszyfrowywania odniesień w czysty problem modelowania języka. Dzięki temu może on zrozumieć odniesienia do elementów wizualnych wyświetlanych na ekranie i zintegrować to zrozumienie z przepływem konwersacji.

ReALM rekonstruuje układ wizualny ekranu za pomocą reprezentacji tekstowych. Wiąże się to z analizowaniem elementów wyświetlanych na ekranie i ich lokalizacji w celu wygenerowania formatu tekstowego, który uchwyci zawartość i strukturę ekranu. Naukowcy Apple odkryli, że ta strategia, w połączeniu z precyzyjnym dostrojeniem modeli językowych do zadań związanych z rozszyfrowywaniem odniesień, znacznie przewyższa tradycyjne metody, w tym możliwości GPT-4 firmy OpenAI.

ReALM mógłby umożliwić użytkownikom o wiele bardziej efektywną interakcję z asystentami cyfrowymi w odniesieniu do tego, co jest aktualnie wyświetlane na ich ekranie, bez konieczności precyzyjnych i szczegółowych instrukcji. Ma to potencjał, aby uczynić asystentów głosowych znacznie bardziej użytecznymi w różnych sytuacjach, na przykład pomagając kierowcom w nawigowaniu po systemach informacji i rozrywki podczas jazdy lub wspomagając użytkowników niepełnosprawnych, zapewniając łatwiejszy i bardziej precyzyjny sposób pośredniej interakcji.

Apple opublikował już kilka prac badawczych nad sztuczną inteligencją. W zeszłym miesiącu firma zaprezentowała nową metodę trenowania dużych modeli językowych, która płynnie integruje zarówno informacje tekstowe, jak i wizualne. Oczekuje się, że Apple zaprezentuje całą gamę funkcji AI na tegorocznej konferencji WWDC w czerwcu.