Lancering van “Fugaku-LLM”: Een grootschalig taalmodel ontwikkeld op de supercomputer Fugaku.

Een team van Japanse onderzoekers heeft de lancering aangekondigd van “Fugaku-LLM“, een grootschalig taalmodel met verbeterde mogelijkheden in de Japanse taal, ontwikkeld met behulp van de supercomputer Fugaku. Deze doorbraak belooft de onderzoekswereld en zakelijke toepassingen in Japan en daarbuiten te revolutioneren.

Het team, geleid door Professor Rio Yokota van het Tokio Instituut voor Technologie, Universitair Hoofddocent Keisuke Sakaguchi van de Tohoku Universiteit, Koichi Shirahata van Fujitsu Limited, Teamleider Mohamed Wahib van RIKEN, Universitair Hoofddocent Koji Nishiguchi van de Nagoya Universiteit, Shota Sasaki van CyberAgent, Inc., en Noriyuki Kojima van Kotoba Technologies Inc., is erin geslaagd een taalmodel te trainen met 13 miljard parameters, waarmee het de in Japan overheersende 7 miljard parameter modellen overtreft.

Innovatie in Taalmodeltraining

Om dit model op Fugaku te trainen, hebben de onderzoekers gedistribueerde trainingsmethoden ontwikkeld, inclusief het overdraagbaar maken van het deep learning framework Megatron-DeepSpeed naar Fugaku, waarmee de prestaties van transformatoren geoptimaliseerd worden. Bovendien versnelden ze de bibliotheek voor dichte matrixvermenigvuldiging voor transformatoren en optimaliseerden ze communicatie door drie typen parallellisatietechnieken te combineren.

Prestaties en Toepassingen

Fugaku-LLM, getraind met eigen verzamelde data door CyberAgent, en andere Engelse en wiskundegegevens, heeft superieure mogelijkheden aangetoond in taken op het gebied van geesteswetenschappen en sociale wetenschappen, met een score van 9.18 op de Japanse MT-Bench, de hoogste onder openlijk getrainde modellen met originele data geproduceerd in Japan.

De broncode van Fugaku-LLM is beschikbaar op GitHub, en het model is te vinden op Hugging Face, waardoor het zowel voor onderzoeksdoeleinden als commerciële doeleinden gebruikt kan worden, mits de licentie wordt nageleefd.

Samenwerking en Bijdragen

Elke institutie heeft een cruciale rol gespeeld in dit project:

  • Tokyo Institute of Technology: Algemene supervisie en optimalisatie van communicatie.
  • Tohoku University: Dataverzameling en modelselectie.
  • Fujitsu: Versnelling van berekening en communicatie.
  • RIKEN: Gedistribueerde parallellisatie en versnelling van communicatie.
  • Nagoya University: Studie naar toepassingen voor generatieve 3D AI.
  • CyberAgent: Het leveren van trainingsdata.
  • Kotoba Technologies: Overdraagbaar maken van het deep learning framework.

Toekomstige Impact

Met Fugaku-LLM versterkt Japan zijn positie in de ontwikkeling van kunstmatige intelligentie, en toont aan dat grootschalige taalmodellen efficiënt getraind kunnen worden met behulp van CPU’s in plaats van GPU’s, een cruciale oplossing gezien de wereldwijde GPU-schaarste.

Dit model is niet alleen een krachtig instrument voor academisch onderzoek, maar heeft ook het potentieel om innovatieve commerciële toepassingen te stimuleren, zoals wetenschappelijke simulaties en het creëren van virtuele gemeenschappen met duizenden AI’s.

Conclusie

De lancering van Fugaku-LLM markeert een significante mijlpaal in het veld van kunstmatige intelligentie in Japan, en toont de kracht van de supercomputer Fugaku en de geavanceerde mogelijkheden van Japanse onderzoekers. Dit model verbetert niet alleen het begrijpen van de Japanse taal, maar legt ook de basis voor toekomstige innovaties in diverse wetenschappelijke en commerciële gebieden.

Scroll naar boven