Google Genie (https://sites.google.com/view/genie-2024/) er en grundlæggende verdensmodel udviklet af DeepMind. Det er en generativ AI-model trænet på over 30.000 timer af offentligt tilgængeligt 2D platformspil videooptagelser. Dens nøglefunktion er evnen til at generere fuldt interaktive, spillbare miljøer direkte fra enkeltbilleder, fotos og endda håndtegnede skitser.
Kilde: Genie: Generative Interactive Environments (https://arxiv.org/abs/2402.15391)
Hvordan er dette muligt? Genie bruger en usuperviseret læringsteknik i processen med at erhverve evnen til præcist at kontrollere miljøet baseret udelukkende på videooptagelser. Ingen menneskelig handlingstagging er nødvendig. Ved hjælp af en særlig handlingskodningsmodul fanger den subtile ændringer mellem successive video frames og kortlægger dem til interne repræsentationer af bevægelse, såsom at hoppe eller dreje til venstre. Dynamikmodellen genererer derefter det næste frame i sekvensen baseret på de kodede handlinger.
Som et resultat kan Genie skabe fuldt kontrollerbare, interaktive spilmiljøer fra enhver visuel data. Hver spillerbevægelse genererer et nyt, unikt frame i realtid, hvilket skaber en glat, spillbar session. Dette er en virkelig stor innovation, der gør det muligt for os at skabe hele interaktive verdener fra billeder eller tekst.
Genies innovation ligger i at kombinere flere nøgleelementer i en enkelt model:
Selvom hver af disse områder tidligere er blevet udforsket, er Genie den første model, der kombinerer dem for at lære kontrollerbare miljøer direkte fra videooptagelser. Denne hidtil usete tilgang til at undervise modeller uden menneskelig overvågning er en nøgleinnovation af Genie. Det åbner døren for at bruge den enorme mængde video, der er tilgængelig på internettet, som en træningskilde for AI-modeller og nedbryder barriererne forbundet med den begrænsede tilgængelighed af mærkede data.
Kombinationen af generative videomodeller, verdensmodeller og usuperviseret læring i en enkelt løsning repræsenterer et fundamentalt fremskridt i udviklingen af kunstig intelligens. Genie demonstrerer, at avancerede AI-systemer kan lære komplekse adfærd og miljøer direkte fra ustrukturerede data, uden manuel tagging. Dette er et vigtigt skridt på vejen mod at opnå ægte Artificial General Intelligence (AGI).
Kilde: Google Genie (https://sites.google.com/view/genie-2024/)
Google Genies kapaciteter går langt ud over at generere videospil. Denne banebrydende AI-model kan finde anvendelse inden for mange områder:
Dog bør de potentielle udfordringer og begrænsninger ved denne teknologi ikke overses. På det nuværende udviklingsstadium fungerer Genie bedst i snævre domæner som 2D platformspil. At skalere op til mere komplekse 3D-miljøer vil kræve yderligere forskning og optimering. Derudover er der en risiko for, at denne teknologi kan misbruges til at skabe skadelig eller farlig indhold. Det er derfor kritisk at udvikle en robust etisk og juridisk ramme for at regulere udviklingen og brugen af sådanne AI-modeller.
Kilde: Google Genie (https://sites.google.com/view/genie-2024/)
Ved at muliggøre skabelsen af fuldt interaktive miljøer direkte fra visuelle data, uden behov for manuelt at tagge handlinger, repræsenterer Google Genie et ægte gennembrud inden for generativ kunstig intelligens. Denne grundlæggende verdensmodel giver magten til at udtrykke billeder i form af spillbare virtuelle realiteter, der kan udforskes og kontrolleres af en menneskelig eller AI-agent.
Genies potentiale er enormt – fra værktøjer til spiludviklere, til en ubegribelig kilde til træningsdata for AI, til fysiske simulationer til robotik. Det er også et vigtigt skridt på vejen mod AGI. Efterhånden som modeller som Genie fortsætter med at udvikle sig, bliver grænsen mellem de virkelige og virtuelle verdener mere flydende.
Hvis du kan lide vores indhold, så bliv en del af vores travle bier-fællesskab på Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.
JavaScript-ekspert og instruktør, der coacher IT-afdelinger. Hans hovedmål er at hæve teamproduktiviteten ved at lære andre, hvordan man effektivt samarbejder, mens man koder.
Virksomheder kæmper med at håndtere en stor mængde indhold, der offentliggøres online, fra sociale medieindlæg…
I en tid med digital transformation har virksomheder adgang til en hidtil uset mængde data…
Vidste du, at du kan få essensen af en fler timers optagelse fra et møde…
Forestil dig en verden, hvor dit firma kan skabe engagerende, personlige videoer til enhver lejlighed…
For fuldt ud at udnytte potentialet i store sprogmodeller (LLMs) skal virksomheder implementere en effektiv…
I 2018 havde Unilever allerede påbegyndt en bevidst rejse for at balancere automatiserings- og augmenteringsevner.…