Multimodal AI. Nye anvendelser af kunstig intelligens i erhvervslivet | AI i erhvervslivet #21

Hvad er multimodal AI?

Multimodal AI er en højt avanceret form for AI, der efterligner menneskets evne til at fortolke verden ved hjælp af indhold og data fra forskellige sanser. Ligesom mennesker forstår tekst, billeder og lyde, integrerer multimodal AI disse forskellige datatyper for at forstå konteksten og den komplekse betydning, der er indeholdt i information. I erhvervslivet kan det for eksempel muliggøre en bedre forståelse af kundernes meninger ved at analysere både hvad de siger, og hvordan de udtrykker det gennem tonefald eller ansigtsudtryk.

Traditionelle AI-systemer er typisk unimodale, hvilket betyder, at de specialiserer sig i én type data, såsom tekst eller billeder. De kan behandle store mængder data hurtigt og spotte mønstre, som menneskelig intelligens ikke kan opfange. Dog har de alvorlige begrænsninger. De er ufølsomme over for kontekst og mindre dygtige til at håndtere usædvanlige og tvetydige situationer.

Dette er grunden til, at multimodal AI går et skridt videre ved at integrere modaliteter. Dette muliggør dybere forståelse og langt mere interessante interaktioner mellem mennesker og AI.

Hvad kan multimodal AI gøre?

Kunstig intelligensmodeller, der er udviklet i dag, anvender følgende par af modaliteter:

  • fra tekst til billede – sådan multimodal AI kan skabe billeder baseret på tekstuelle prompts; dette er en kernefunktion i den berømte Midjourney, den OpenAI-udviklede DALL-E 3, tilgængelig i browseren som Bing Image Creator, den avancerede Stable Diffusion eller det yngste værktøj i familien, Ideogram, som ikke kun forstår tekstuelle prompts, men også kan placere tekst på et billede:
  • Kilde: Ideogram (https://ideogram.ai)

    Multimodal AI-modeller er også i stand til at følge tekstuelle ledetråde og det billede, de er “inspireret” af, samtidig. De tilbyder endnu mere interessante, mere præcist definerede resultater og variationer af de skabte billeder. Dette er meget nyttigt, hvis du bare vil have en lidt anderledes grafik eller banner, eller tilføje eller fjerne et enkelt element, såsom en kaffekop:

    Kilde: Ideogram (https://ideogram.ai)

  • Fra billede til tekst – kunstig intelligens kan gøre meget mere end at genkende og oversætte tekst set i et billede eller finde et lignende produkt. Den kan også beskrive et billede med ord – som Midjourney gør, når du skriver /describe-kommandoen, Google Bard, og Salesforce-modellen (primært brugt til at skabe automatiserede produkt- og billedbeskrivelser på e-handelswebsteder,
  • Kilde: HuggingFace.co (https://huggingface.co/tasks/image-to-text)

  • fra stemme til tekst – multimodal AI muliggør også stemmekommandoer i Google Bard, men det udføres bedst af Bing Chat, såvel som ChatGPT takket være dens fremragende Whisper API, som klarer at genkende og optage tale sammen med tegnsætning på flere sprog, hvilket blandt andet kan lette arbejdet i internationale kundeservicecentre, samt forberede hurtig transkription af møder og oversættelse af forretningssamtaler til andre sprog i realtid,
  • fra tekst til stemme – ElevenLabs’ værktøj giver os mulighed for at konvertere enhver tekst, vi vælger, til en realistisk lydende ytring, og endda “stemmekloning,” hvor vi kan lære AI dens lyd og udtryk for at skabe en optagelse af enhver tekst på et fremmedsprog til markedsføring eller præsentationer til udenlandske investorer, for eksempel,
  • fra tekst til video – konvertering af tekst til video med en talende avatar er muligt i D-ID, Colossyan og Synthesia værktøjer, blandt andre,
  • fra billede til video – generering af videoer, herunder musikvideoer, fra billeder og tekstuelle ledetråde er allerede muligt i dag ved hjælp af Kaiber, og Meta har annonceret, at de snart vil frigive værktøjet Make-A-Video,
  • billede og 3D-model – dette er et særligt lovende område inden for multimodal AI, målrettet af Meta og Nvidia, som muliggør skabelsen af realistiske avatarer fra fotos, samt opbygning af 3D-modeller af objekter og produkter af Masterpiece Studio (https://masterpiecestudio.com/masterpiece-studio-pro), NeROIC (https://zfkuang.github.io/NeROIC/), 3DFY (https://3dfy.ai/), med hvilke, for eksempel, et to-dimensionelt prototyperet produkt kan returneres til kameraet med en anden side, en hurtig 3D-visualisering kan skabes fra en skitse af et møbel, eller endda en tekstbeskrivelse:
  • Kilde: NeROIC (https://zfkuang.github.io/NeROIC/resources/material.png)

  • fra billede til bevægelse i rummet – denne modalitet gør multimodal AI i stand til at nå ud over skærme ind i zonen for Internet of Things (IoT), autonome køretøjer og robotteknologi, hvor enheder kan udføre præcise handlinger takket være avanceret billedgenkendelse og evnen til at reagere på ændringer i miljøet.

Der er også eksperimenter med multimodal AI, der oversætter musik til billeder, for eksempel (https://huggingface.co/spaces/fffiloni/Music-To-Image), men lad os tage et nærmere kig på de forretningsmæssige anvendelser af multimodal AI. Så hvordan spiller spørgsmålet om multimodalitet ud i de mest populære AI-baserede chatbots, ChatGPT og Google Bard?

Multimodalitet i Google Bard, BingChat og ChatGPT

Google Bard kan beskrive enkle billeder og er blevet udstyret med stemmekommunikation siden juli 2023, da det dukkede op i Europa. På trods af den variable kvalitet af billedgenkendelsesresultaterne har dette indtil videre været en af de styrker, der adskiller Googles løsning fra ChatGPT.

BingChat, takket være sin brug af DALL-E 3, kan generere billeder baseret på tekst- eller stemmeprompter. Selvom det ikke kan beskrive med ord de billeder, brugeren vedhæfter, kan det modificere dem eller bruge dem som inspiration til at skabe nye billeder.

Fra oktober 2023 begyndte OpenAI også at introducere nye stemme- og billedfunktioner til ChatGPT Plus, den betalte version af værktøjet. De gør det muligt at have en stemmesamtale eller vise ChatGPT et billede, så det ved, hvad du spørger om, uden at skulle beskrive det med præcise ord.

For eksempel kan du tage et billede af et monument, mens du rejser, og have en live samtale om, hvad der er interessant ved det. Eller tage et billede af indersiden af dit køleskab for at finde ud af, hvad du kan forberede til middag med de tilgængelige ingredienser og bede om en trin-for-trin opskrift.

3 anvendelser af Multimodal AI i erhvervslivet

At beskrive billeder kan hjælpe, for eksempel, med at forberede varebeholdning baseret på CCTV-kameradata eller identificere manglende produkter på butikshylder. Objektmanipulation kan bruges til at genopfylde de manglende varer, der blev identificeret i det foregående trin. Men hvordan kan multimodale chatbots bruges i erhvervslivet? Her er tre eksempler:

  1. Kundeservice: En multimodal chat implementeret i en online butik kan fungere som en avanceret kundeserviceassistent, der ikke kun besvarer tekstspørgsmål, men også forstår billeder og spørgsmål stillet med stemme. For eksempel kan en kunde tage et billede af et beskadiget produkt og sende det til chatbotten, som vil hjælpe med at identificere problemet og tilbyde en passende løsning.
  2. Analyse af sociale medier: Multimodal kunstig intelligens kan analysere indlæg på sociale medier, som inkluderer både tekst og billeder og endda videoer, for at forstå, hvad kunderne siger om en virksomhed og dens produkter. Dette kan hjælpe en virksomhed med bedre at forstå kundernes feedback og reagere hurtigere på deres behov.
  3. Træning og udvikling: ChatGPT kan bruges til at træne medarbejdere. For eksempel kan det gennemføre interaktive træningssessioner, der inkluderer både tekst og billeder for at hjælpe medarbejdere med bedre at forstå komplekse koncepter.

Fremtiden for multimodal AI i erhvervslivet

Et godt eksempel på fremadskuende multimodal AI er optimering af en virksomheds forretningsprocesser. For eksempel kunne et AI-system analysere data fra forskellige kilder, såsom salgsdata, kundedata og data fra sociale medier, for at identificere områder, der har brug for forbedring, og foreslå mulige løsninger.

Et andet eksempel er at anvende multimodal AI til at organisere logistik. Kombination af GPS-data, lagerstatus læst fra et kamera og leveringsdata for at optimere logistikprocesser og reducere omkostningerne ved forretningen.

Mange af disse funktionaliteter anvendes allerede i dag i komplekse systemer som autonome biler og smarte byer. Dog har de ikke været i denne skala i mindre forretningskontekster.

Sammenfatning

Multimodalitet, eller evnen til at behandle flere typer data, såsom tekst, billeder og lyd, fremmer dybere kontekstuel forståelse og bedre interaktion mellem mennesker og AI-systemer.

Et åbent spørgsmål forbliver, hvilke nye kombinationer af modaliteter der måtte eksistere i den nærmeste fremtid? For eksempel, vil det være muligt at kombinere tekstanalyse med kropssprog, så AI kan forudse kundernes behov ved at analysere deres ansigtsudtryk og gestus? Denne type innovation åbner nye horisonter for erhvervslivet og hjælper med at imødekomme de stadigt skiftende kunders forventninger.

Hvis du kan lide vores indhold, så bliv en del af vores travle bier-fællesskab på Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

JavaScript-ekspert og instruktør, der coacher IT-afdelinger. Hans hovedmål er at hæve teamproduktiviteten ved at lære andre, hvordan man effektivt samarbejder, mens man koder.

View all posts →

Robert Whitney

JavaScript-ekspert og instruktør, der coacher IT-afdelinger. Hans hovedmål er at hæve teamproduktiviteten ved at lære andre, hvordan man effektivt samarbejder, mens man koder.

Share
Published by
Robert Whitney

Recent Posts

AI’s rolle i indholdsmoderation | AI i erhvervslivet #129

Virksomheder kæmper med at håndtere en stor mængde indhold, der offentliggøres online, fra sociale medieindlæg…

2 days ago

Sentimentanalyse med AI. Hvordan hjælper det med at drive forandring i erhvervslivet? | AI i erhvervslivet #128

I en tid med digital transformation har virksomheder adgang til en hidtil uset mængde data…

2 days ago

AI videoproduktion. Nye horisonter inden for videoinholdproduktion for virksomheder | AI i erhvervslivet #126

Forestil dig en verden, hvor dit firma kan skabe engagerende, personlige videoer til enhver lejlighed…

2 days ago

LLMOps, eller hvordan man effektivt håndterer sprogmodeller i en organisation | AI i erhvervslivet #125

For fuldt ud at udnytte potentialet i store sprogmodeller (LLMs) skal virksomheder implementere en effektiv…

3 days ago

Automatisering eller augmentation? To tilgange til AI i en virksomhed | AI i erhvervslivet #124

I 2018 havde Unilever allerede påbegyndt en bevidst rejse for at balancere automatiserings- og augmenteringsevner.…

3 days ago