MAGI-1: Het Open Source IA-model dat Sora, Gemini en Kling Uitdaagt in Videogeneratie

MAGI-1: De Nieuwe Speler in de AI-Video Generatie

In een wereld waar namen als OpenAI, Google DeepMind en Anthropic de toon zetten, doet een nieuwe Chinese propositie zijn intrede in het competitieve veld van generatieve kunstmatige intelligentie. MAGI-1, een autoregressief videogenermodel van grote schaal ontwikkeld door Sand AI, belooft de lat hoger te leggen voor wat diffusie modellen kunnen bereiken in visuele synthese.

Met 24.000 miljoen parameters, een geoptimaliseerde Transformer-architectuur en een volledig open-source benadering, evenaart MAGI-1 niet alleen, maar overtreft het ook in verschillende opzichten commerciële modellen zoals Sora en Kling, volgens recente technische evaluaties en benchmarks van het bedrijf.

Een Technische Benadering: Chunk-voor-Chunk Generatie en Autoregressieve Architectuur

In tegenstelling tot andere AI-videogenerators die video als een volledige sequentie verwerken, kiest MAGI-1 voor een chunk-by-chunk strategie: het verdeelt video in segmenten van 24 frames, die het sequentieel en autoregressief verwerkt, met een tijdelijke consistentie van links naar rechts tussen de fragmenten.

Deze aanpak biedt onder andere:

  • Natuurlijke schaalbaarheid voor streaming en realtime synthese.
  • Grotere visuele coherentie tussen scènes.
  • Parallelle verwerking van meerdere blokken tijdens inferentie.

De architectuur is gebaseerd op een Transformer-type diffusie model, met verbeteringen zoals Block-Causal Attention en Softcap Modulation. Ook maakt het gebruik van een progressieve ruisbenadering tijdens training, waardoor het model de causaliteit tussen frames kan leren.

Uitstekende Prestaties Tegenover Open en Commerciële Modellen

MAGI-1 presteert uitzonderlijk goed, zowel in menselijke benchmarks als in automatische tests. Wat betreft bewegingsgetrouheid, naleving van instructies en semantische continuïteit, overtreft het duidelijk open modellen zoals Wan-2.1 en HunyuanVideo, en concurreert het op gelijke voet met gesloten oplossingen, waaronder Sora, Kling en Google’s VideoPoet.

In de benchmark Physics-IQ, die de capaciteit van modellen meet om fysiek gedrag in dynamische omgevingen te begrijpen en te voorspellen, behaalt MAGI-1 leidende scores dankzij zijn autoregressieve aard, waarbij het alle huidige modellen overtreft qua ruimtelijke en temporele nauwkeurigheid.

Narratieve Controle en Conditionele Generatie: Een Sterke Troef

Een van de grootste vorderingen van MAGI-1 is het systeem van chunk prompts, dat het mogelijk maakt om de narratief van elk blok video onafhankelijk te controleren zonder de globale coherentie te verliezen. Dit maakt het mogelijk om:

  • Verschillende evenementen in verschillende delen van de video te definiëren.
  • Vlotte overgangen tussen scènes toe te passen.
  • Realtime bewerkingen uit te voeren op basis van tekst of afbeeldingen.

Het systeem is ook compatibel met taken zoals t2v (tekst naar video), i2v (afbeelding naar video) en v2v (vervolg van video), waardoor de mogelijkheden voor verschillende creatieve en commerciële stromen worden uitgebreid.

Training, Distillatie en Prestaties

Sand AI heeft zowel de volledige versie van MAGI-1 (24B) als een lichtere variant (4.5B) vrijgegeven, naast gedistilleerde en gequantiseerde versies geoptimaliseerd voor gebruik op RTX 4090-kaarten of H100/H800 GPU’s.

Tijdens de training werd gebruikgemaakt van een progressief distillatie-algoritme met verschillende bemonsteringspercentages, wat zorgt voor een nauwkeurige afstemming op de instructies van de prompt en een snelle inferentie zonder kwaliteitsverlies.

Open Source en Democratisering van AI-Video

In tegenstelling tot andere spelers in de sector, heeft Sand AI gekozen voor een volledig open filosofie: het model, de inferentiecode, configuraties en documentatie zijn beschikbaar op GitHub onder Apache 2.0-licentie, met ondersteuning voor Docker en Conda. Deze strategie verlaagt de instapdrempels voor onderzoekers, makers en startups die willen experimenteren met realistische videoproductie zonder afhankelijk te zijn van gesloten commerciële API’s.

Een Nieuwe Standaard in AI-Video?

Als DeepSeek de maatstaf stelde in open source taalsystemen, dan lijkt MAGI-1 erop uit om hetzelfde te doen op het gebied van audiovisuele creatie. De steun van figuren zoals Kai-Fu Lee (directeur van Microsoft Research Asia) en de groeiende belangstelling voor de GitHub-repository wijzen erop dat dit niet zomaar een experiment is, maar een solide inzet om wereldwijd te concurreren.

MAGI-1 is meer dan een generatief AI-model: het is een krachtige, flexibele en vrije visuele infrastructuur die arriveert op een moment dat videoproductie zich aandient als het volgende grote strijdveld in kunstmatige intelligentie. Tegenover gesloten voorstellen zoals Sora of Gemini zou de transparantie en technische kwaliteit van MAGI-1 het nieuwe referentiepunt voor open source visuele generatie kunnen maken.

Bron: Nieuws over kunstmatige intelligentie

Scroll naar boven