Multimodal AI er en højt avanceret form for AI, der efterligner menneskets evne til at fortolke verden ved hjælp af indhold og data fra forskellige sanser. Ligesom mennesker forstår tekst, billeder og lyde, integrerer multimodal AI disse forskellige datatyper for at forstå konteksten og den komplekse betydning, der er indeholdt i information. I erhvervslivet kan det for eksempel muliggøre en bedre forståelse af kundernes meninger ved at analysere både hvad de siger, og hvordan de udtrykker det gennem tonefald eller ansigtsudtryk.
Traditionelle AI-systemer er typisk unimodale, hvilket betyder, at de specialiserer sig i én type data, såsom tekst eller billeder. De kan behandle store mængder data hurtigt og spotte mønstre, som menneskelig intelligens ikke kan opfange. Dog har de alvorlige begrænsninger. De er ufølsomme over for kontekst og mindre dygtige til at håndtere usædvanlige og tvetydige situationer.
Dette er grunden til, at multimodal AI går et skridt videre ved at integrere modaliteter. Dette muliggør dybere forståelse og langt mere interessante interaktioner mellem mennesker og AI.
Kunstig intelligensmodeller, der er udviklet i dag, anvender følgende par af modaliteter:
Kilde: Ideogram (https://ideogram.ai)
Multimodal AI-modeller er også i stand til at følge tekstuelle ledetråde og det billede, de er “inspireret” af, samtidig. De tilbyder endnu mere interessante, mere præcist definerede resultater og variationer af de skabte billeder. Dette er meget nyttigt, hvis du bare vil have en lidt anderledes grafik eller banner, eller tilføje eller fjerne et enkelt element, såsom en kaffekop:
Kilde: Ideogram (https://ideogram.ai)
Kilde: HuggingFace.co (https://huggingface.co/tasks/image-to-text)
Kilde: NeROIC (https://zfkuang.github.io/NeROIC/resources/material.png)
Der er også eksperimenter med multimodal AI, der oversætter musik til billeder, for eksempel (https://huggingface.co/spaces/fffiloni/Music-To-Image), men lad os tage et nærmere kig på de forretningsmæssige anvendelser af multimodal AI. Så hvordan spiller spørgsmålet om multimodalitet ud i de mest populære AI-baserede chatbots, ChatGPT og Google Bard?
Google Bard kan beskrive enkle billeder og er blevet udstyret med stemmekommunikation siden juli 2023, da det dukkede op i Europa. På trods af den variable kvalitet af billedgenkendelsesresultaterne har dette indtil videre været en af de styrker, der adskiller Googles løsning fra ChatGPT.
BingChat, takket være sin brug af DALL-E 3, kan generere billeder baseret på tekst- eller stemmeprompter. Selvom det ikke kan beskrive med ord de billeder, brugeren vedhæfter, kan det modificere dem eller bruge dem som inspiration til at skabe nye billeder.
Fra oktober 2023 begyndte OpenAI også at introducere nye stemme- og billedfunktioner til ChatGPT Plus, den betalte version af værktøjet. De gør det muligt at have en stemmesamtale eller vise ChatGPT et billede, så det ved, hvad du spørger om, uden at skulle beskrive det med præcise ord.
For eksempel kan du tage et billede af et monument, mens du rejser, og have en live samtale om, hvad der er interessant ved det. Eller tage et billede af indersiden af dit køleskab for at finde ud af, hvad du kan forberede til middag med de tilgængelige ingredienser og bede om en trin-for-trin opskrift.
At beskrive billeder kan hjælpe, for eksempel, med at forberede varebeholdning baseret på CCTV-kameradata eller identificere manglende produkter på butikshylder. Objektmanipulation kan bruges til at genopfylde de manglende varer, der blev identificeret i det foregående trin. Men hvordan kan multimodale chatbots bruges i erhvervslivet? Her er tre eksempler:
Et godt eksempel på fremadskuende multimodal AI er optimering af en virksomheds forretningsprocesser. For eksempel kunne et AI-system analysere data fra forskellige kilder, såsom salgsdata, kundedata og data fra sociale medier, for at identificere områder, der har brug for forbedring, og foreslå mulige løsninger.
Et andet eksempel er at anvende multimodal AI til at organisere logistik. Kombination af GPS-data, lagerstatus læst fra et kamera og leveringsdata for at optimere logistikprocesser og reducere omkostningerne ved forretningen.
Mange af disse funktionaliteter anvendes allerede i dag i komplekse systemer som autonome biler og smarte byer. Dog har de ikke været i denne skala i mindre forretningskontekster.
Multimodalitet, eller evnen til at behandle flere typer data, såsom tekst, billeder og lyd, fremmer dybere kontekstuel forståelse og bedre interaktion mellem mennesker og AI-systemer.
Et åbent spørgsmål forbliver, hvilke nye kombinationer af modaliteter der måtte eksistere i den nærmeste fremtid? For eksempel, vil det være muligt at kombinere tekstanalyse med kropssprog, så AI kan forudse kundernes behov ved at analysere deres ansigtsudtryk og gestus? Denne type innovation åbner nye horisonter for erhvervslivet og hjælper med at imødekomme de stadigt skiftende kunders forventninger.
Hvis du kan lide vores indhold, så bliv en del af vores travle bier-fællesskab på Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.
JavaScript-ekspert og instruktør, der coacher IT-afdelinger. Hans hovedmål er at hæve teamproduktiviteten ved at lære andre, hvordan man effektivt samarbejder, mens man koder.
Virksomheder kæmper med at håndtere en stor mængde indhold, der offentliggøres online, fra sociale medieindlæg…
I en tid med digital transformation har virksomheder adgang til en hidtil uset mængde data…
Vidste du, at du kan få essensen af en fler timers optagelse fra et møde…
Forestil dig en verden, hvor dit firma kan skabe engagerende, personlige videoer til enhver lejlighed…
For fuldt ud at udnytte potentialet i store sprogmodeller (LLMs) skal virksomheder implementere en effektiv…
I 2018 havde Unilever allerede påbegyndt en bevidst rejse for at balancere automatiserings- og augmenteringsevner.…