ReALM står for “Reference Resolution As Language Modeling,” en banebrydende løsning udviklet af Apple-forskere. Det er således en ny sprogmodel (Large Language Model, LLM), der behandler problemet med referencer som en opgave inden for sprogmodellering.
ReALM konverterer effektivt forskellige typer kontekst til en tekstuel repræsentation, som den derefter behandler som en del af en sprogopgave. Dette kan inkludere:
Hvad gør ReALM forskellig fra andre modeller til genkendelse af referencer? Først og fremmest tilgangen – i stedet for at stole på billedbehandling, kører ReALM i tekstdomænet. Dette gør det meget lettere og mere effektivt, hvilket burde gøre det muligt at køre direkte på mobile enheder, samtidig med at brugernes privatliv opretholdes.
Apples forskningsteam sammenlignede ReALM med de mest kraftfulde sprogmodeller på markedet i dag – GPT-3.5 og GPT-4 fra OpenAI. Resultaterne var imponerende. I opgaver med genkendelse af referencer opnåede den mindste ReALM-variant en nøjagtighed, der var sammenlignelig med GPT-4! De større ReALM-modeller overgik endda GPT-4 i at genkende referencer til elementer, der vises på skærmen (http://arxiv.org/abs/2403.20329).
Hvad forklarer denne fordel? For det første er ReALM fantastisk til domænespecifikke forespørgsler, såsom dem vedrørende smarte hjemmeapparater. Dette skyldes, at ReALM demonstrerer en dybere forståelse af kontekst ved at finjustere modellen til domænespecifikke data.
Desuden, i modsætning til GPT-4, som primært træner på billeder af virkelige objekter, excellerer ReALM i at genkende tekstuelle elementer og komponenter i applikationsbrugergrænseflader. Og det er forståelsen af grænseflader, der er kritisk for den glatte interaktion mellem stemmeassistenter og de applikationer, vi bruger i dag.
Kilde: DALL·E 3, prompt: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)
Ja, integrationen af ReALM med Siri kunne åbne et helt nyt kapitel i menneske-computer interaktion. Med ReALM vil Siri være i stand til at forstå kommandoer, der inkluderer referencer til elementer, der vises på smartphoneskærmen, samt processer og applikationer, der kører i baggrunden. Men hvornår vil denne mulighed være tilgængelig for brugerne? Det er stadig ukendt.
Vi står tilbage med spekulationer baseret på modellens tekniske kapaciteter. Så hvordan kunne en ReALM-drevet Siri fungere? For eksempel, hvis du browser en virksomhedsliste og ser en virksomhed, du er interesseret i, kunne du simpelthen sige til Siri, “Ring til denne virksomhed,” og assistenten – ved at bruge ReALM til at analysere konteksten – vil finde telefonnummeret til den virksomhed, du angiver, og starte opkaldet. Du behøver ikke engang at forklare præcist, hvilken virksomhed du mener.
Og dette er kun begyndelsen på mulighederne med ReALM. Kommandoer som “Afspil den seneste playliste” ville muliggøre intuitiv kontrol af multimedieapplikationer og smarte hjemmeenheder. ReALM kunne også give Siri mulighed for at forstå konteksten af samtaler og kommandohistorik, så assistenten reagerer passende på brugerens tidligere anmodninger. Dette er et skridt mod intelligente agenter, der bringer os tættere på ikke en kunstig intelligens, der forstår vores forespørgsler, men en, der ved, hvordan man udfører kommandoer.
Og dette er kun begyndelsen på, hvad ReALM kan gøre. Kommandoer som “afspil den seneste playliste” ville muliggøre intuitiv kontrol af medieapplikationer og smarte hjemmeenheder. ReALM kunne også give Siri mulighed for at forstå konteksten af samtaler og kommandohistorik, så assistenten reagerer passende på brugerens tidligere anmodninger. Dette er et skridt mod intelligente agenter, der bringer os tættere på ikke en kunstig intelligens, der forstår vores forespørgsler, men en, der ved, hvordan man udfører kommandoer.
Desværre må brugere af Android-enheder vente. I øjeblikket er der ingen information om Googles planer om at tilføje Geminis kapaciteter til Google Assistant. En Google Gemini-app til Android-enheder er blevet udviklet (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US), men den er endnu ikke tilgængelig uden for USA.
Kilde: Google Play (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US)
ReALM er Apples innovative tilgang til at løse problemet med kontekstgenkendelse af stemmeassistenter. I stedet for at stole på billedbehandling konverterer denne sprogmodel forskellige typer kontekst til en tekstuel repræsentation, som den derefter behandler i en sprogopgave. Denne tilgang sikrer ikke kun høj genkendelsesnøjagtighed, men også evnen til at fungere på en mobil enhed, samtidig med at brugernes privatliv opretholdes.
At give Siri adgang til ReALM kan give mere naturlige og kontekstuelle stemmeinteraktioner, et vigtigt skridt mod virkelig intelligente assistenter. Med ReALM vil Siri være i stand til straks at reagere på kommandoer relateret til skærmelementer, applikationer og baggrundsprocesser. Én ting er sikker – forbedring af assistenternes kontekstuelle bevidsthed er nøglen til at skabe virkelig intelligente og naturlige stemmeinteraktioner, og ReALM er uden tvivl et vigtigt skridt i den retning.
Hvis du kan lide vores indhold, så bliv en del af vores travle bier-fællesskab på Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.
JavaScript-ekspert og instruktør, der coacher IT-afdelinger. Hans hovedmål er at hæve teamproduktiviteten ved at lære andre, hvordan man effektivt samarbejder, mens man koder.
Virksomheder kæmper med at håndtere en stor mængde indhold, der offentliggøres online, fra sociale medieindlæg…
I en tid med digital transformation har virksomheder adgang til en hidtil uset mængde data…
Vidste du, at du kan få essensen af en fler timers optagelse fra et møde…
Forestil dig en verden, hvor dit firma kan skabe engagerende, personlige videoer til enhver lejlighed…
For fuldt ud at udnytte potentialet i store sprogmodeller (LLMs) skal virksomheder implementere en effektiv…
I 2018 havde Unilever allerede påbegyndt en bevidst rejse for at balancere automatiserings- og augmenteringsevner.…