DeepMind Lanceert Gemini Robotics 1.5: De IA die Vooruitdenkt voordat ze Handelt om Agentschappen naar de Fysieke Wereld te Brengen

Google DeepMind Lanceert Gemini Robotics 1.5: Een Doorbraak in Robotica

Google DeepMind heeft een significante stap gezet in de wereld van robotica met de introductie van Gemini Robotics 1.5 en Gemini Robotics-ER 1.5. Deze twee modellen zijn ontworpen om complementair samen te werken, zodat robots in staat zijn om te waarnemen, plannen, nadenken, gereedschappen te gebruiken en te handelen in complexe en meerstaps fysieke taken. De lancering wordt door DeepMind beschouwd als een eeuwigdurende stap naar Algemene Kunstmatige Intelligentie (AGI) in de fysieke wereld, met een sterke focus op transparantie, veiligheid en generaliseerbaarheid tussen verschillende robotplatforms.

Twee Modellen, Eén Agent: Denken en Handelen met Transparantie

Gemini Robotics-ER 1.5 (VLM) fungeert als het “hersenmodel” dat in staat is om in natuurlijke taal te plannen, logische beslissingen te nemen in fysieke omgevingen en tools zoals zoekfuncties in te schakelen om externe data te verzamelen. Het model toont sterke prestaties bij een reeks van 15 academische benchmarks voor ruimtelijk redeneren.

Gemini Robotics 1.5 (VLA) gaat een stap verder door instructies van de planner om te zetten in motorcommando’s op basis van visuele input, maar met een unieke eigenschap: het denkt vóór het handelt. Dit model genereert een interne redeneringsvolgorde in natuurlijke taal, wat niet alleen zijn besluitvormingsproces uitlegt, maar ook de resolutie van complexe taken verbetert.

Van Eenvoudige Taken naar Complexe Omgevingen

DeepMind illustreert hun aanpak aan de hand van alledaagse taken. Bij het verzoek om “was te sorteren op kleur”, begrijpt de planner dat witte kleding naar de witte wasmand moet en gekleurde kleding naar een andere. Het systeem raadpleegt ook lokale richtlijnen bij het classificeren van afval. Elk van deze taken en beslissingen wordt minutieus gedetailleerd door de planner.

Overdracht tussen Robotplatforms: Eén Keer Leren, Meerdere Keer Toepassen

Een veelvoorkomende uitdaging binnen de robotica is dat verschillende platformen, elk met hun eigen specificaties, unieke trainingsmodellen vereisen. DeepMind communiceert dat Gemini Robotics 1.5 opmerkelijke capaciteiten vertoont voor \ “cross-learning \” tussen robot incarnaties, waardoor vaardigheden die met één systeem zijn getraind, eenvoudig kunnen worden toegepast op andere robotmodellen, zonder dat speciale aanpassingen nodig zijn.

Beschikbaarheid en Toepassingen

Gemini Robotics-ER 1.5 is vanaf vandaag beschikbaar voor ontwikkelaars via de Gemini API in Google AI Studio, en stelt hen in staat om gedetailleerde actieplannen voor robotprojecten te genereren. Het actie-model Gemini Robotics 1.5 is momenteel beperkt tot geselecteerde partners en vertrouwelijke testerprogramma’s, gezien de complexiteit van het werken met echte robots.

De Impact op de Robotica Gemeenschap

  • Duidelijke architectuur: Een mooi samengestelde agent die plannen en besluitvorming gemeenschap nabootst.
  • Algemene toepasbaarheid: Verhoogde robuustheid voor lange en diverse taken.
  • Natuurlijke tools: Het ER-model kan eenvoudig communiceren met externe functies om actie-uitbreiding toe te passen zonder hertraining.

Een Stap Voorwaarts… Met Realisme

Hoewel de aspiraties ambitieus zijn — de ontwikkeling van generalistische fysieke agents — erkennen zowel het team als de gemeenschap dat er blijvende uitdagingen zullen zijn, zoals fijne motoriek en operationele veiligheid.

Conclusie

DeepMind’s Gemini Robotics 1.5 vertegenwoordigt een belangrijke stap richting robots die kunnen redeneren en generaliseren in complexe omgevingen, met een nadruk op de transparantie van hun besluitvormingsprocessen. Terwijl de integratie van deze technologie in dagelijkse taken nog in de kinderschoenen staat, biedt deze ontwikkeling veelbelovende inzichten voor de toekomst van robotica in verschillende sectoren, van logistiek tot gezondheidszorg.

Scroll naar boven