Fugatto: De Artificial Intelligence tool die de creatie van geluid revolutioneert

NVIDIA heeft Fugatto geïntroduceerd, een innovatief Kunstmatige Intelligentie (KI)-model dat ontworpen is om geluid op een nooit eerder geziene manier te transformeren en te genereren. Beschouwd als het ‘Zwitserse zakmes van geluid’, stelt dit systeem gebruikers in staat om audio te controleren met tekstbeschrijvingen, waardoor een waaier aan mogelijkheden wordt geopend in de wereld van muziek, film, onderwijs en videogames.

Een nieuw tijdperk in geluidscreatie

In tegenstelling tot andere KI-modellen gericht op muzikale compositie of stemverandering, valt Fugatto op door zijn veelzijdigheid en precisie. Met de naam Foundational Generative Audio Transformer Opus 1, kan het muziekmixen, stemmen en geluiden genereren uit tekstbeschrijvingen en audiobestanden. Functies die eruit springen zijn het vermogen om melodieën vanuit het niets te creëren, het toevoegen of verwijderen van instrumenten in een bestaand nummer, het wijzigen van het accent of de emotie van een stem en zelfs het genereren van volledig nieuwe geluiden.

Ido Zmishlany, multi-platina muziekproducent en medeoprichter van One Take Audio —een bedrijf binnen het NVIDIA Inception programma voor innovatieve startups—, beschreef het model als “ongelooflijk”. “De mogelijkheid om volledig nieuwe geluiden in de studio te creëren is revolutionair. Dit markeert een nieuw hoofdstuk in de geschiedenis van de muziek”, stelde hij.

Potentieel in meerdere sectoren

Fugatto is niet alleen een tool voor muzikanten. Gebruikstoepassingen die in het oog springen, zijn onder meer:

  • Muziekproductie: Componisten kunnen nummers prototypen, verschillende stijlen en instrumenten testen, en de audiokwaliteit van bestaande tracks verbeteren.
  • Reclame: Agentschappen kunnen campagnes personaliseren door stemmen aan te passen met verschillende accenten en emoties voor specifieke doelgroepen.
  • Onderwijs: Taalleertools kunnen gepersonaliseerde stemmen gebruiken, zoals die van familie of vrienden.
  • Videogames: Ontwikkelaars kunnen vooraf opgenomen geluiden wijzigen of nieuwe geluidseffecten realtime genereren op basis van de acties van de speler.

Technologie achter de vooruitgang

Fugatto gebruikt 2,5 miljard parameters en werd getraind op NVIDIA DGX-systemen met 32 NVIDIA H100 Tensor Core GPU’s. Het vermogen om instructies creatief te combineren —zoals het genereren van een stem met een Frans accent en een melancholische toon— is mogelijk gemaakt door technieken zoals ComposableART. Bovendien kan het geluiden over tijd interpoleren, waardoor dynamische geluidslandschappen gecreëerd kunnen worden, zoals stormen die oplossen in dageraadsliederen vol vogelgezang.

Het model valt ook op door zijn vermogen om taken uit te voeren waarvoor het niet specifiek is getraind, zoals het genereren van hoge kwaliteit gezongen stemmen uit eenvoudige tekstbeschrijvingen.

Een wereldwijde samenwerking

De ontwikkeling van Fugatto, geleid door een divers team van onderzoekers uit landen als India, Brazilië, China, Jordanië en Zuid-Korea, duurde meer dan een jaar. Het team werkte met miljoenen audiostalen om het model te trainen, waardoor zijn bereik en precisie werden uitgebreid zonder de noodzaak om extra gegevens toe te voegen.

Volgens Rafael Valle, directeur onderzoek toegepast op audio bij NVIDIA en een van de verantwoordelijken voor het project, “vertegenwoordigt Fugatto een stap richting een toekomst waarin onbegeleid multitask leren in audiosynthese en -transformatie voortkomt uit gegevens en modelgrootte”.

Innovatie die inspireert

De ontwikkelaars van Fugatto hebben unieke momenten meegemaakt tijdens het creatieproces. Een daarvan was toen het model reageerde op een opdracht om elektronische muziek met op de maat gesynchroniseerde hondenblaffen te genereren. “Toen het team in lachen uitbarstte, wist ik dat we iets speciaals hadden bereikt”, herinnerde Valle zich.

Fugatto belooft de manier waarop geluid wordt gecreëerd en waargenomen te transformeren, en etaleert zichzelf als een essentieel hulpmiddel voor kunstenaars en creatieven wereldwijd. NVIDIA blijft zijn leiderschap demonstreren in het gebruik van KI om de grenzen van technologische innovatie te verleggen.

via: nieuws kunstmatige intelligentie

Scroll naar boven