Together AI Versterkt Zijn Aanwezigheid in Europa met Nieuwe Infrastructuur in Zweden
De cloud provider voor AI versnelt zijn groei in Europa met operationele infrastructuur in Zweden en een technische trainingstour die begint in Amsterdam. Minder latentie voor Noord- en Midden-Europa, gegevensopslag binnen de EU en praktische technieken om open modellen aan te passen staan op het programma.
Together AI heeft een belangrijke stap gezet in zijn Europese strategie: de onderneming beschikt nu over operationele GPU-infrastructuur in Zweden en lanceert tegelijkertijd een reeks gratis workshops om ingenieurs en technische teams op te leiden in het afstemmen en implementeren van open modellen. De eerste workshop — gericht op de upgrade en personalisering van LLM — vindt plaats op 10 september in Amsterdam.
Deze beweging combineert technologische kracht met ondersteuning in opleiding. Aan de ene kant is er een noordelijke regio die berekeningen dichterbij de gebruikers in het noorden en midden van het continent brengt; aan de andere kant zijn er concrete evenementen met inhoud zoals post-training (SFT, optimalisatie van voorkeuren en verifieerbare beloningen), aangepaste speculatieve decodering (met referenties naar versnelingen van meer dan 1,85× in modellen zoals DeepSeek R1) en kwantisering om LLM’s te comprimeren en inferentie te verlagen.
Infrastructuur in Zweden: Gegevensresidentie en Minder Milliseconden die Goud Waard zijn
De nieuwe regio van Together AI in Zweden ondersteunt zijn serverless inference API voor een scala aan populaire open modellen — zoals gpt-oss, DeepSeek, Meta Llama en Qwen — en stelt klanten in staat om GPU-clusters en geadresseerde endpoints direct in Zweden aan te vragen.
De onderneming benadrukt twee onmiddellijke operationele voordelen:
Naleving en gegevensresidentie in de EU. Door de GPU-servers in Zweden te plaatsen, hebben Europese klanten een juridisch houvast om te voldoen aan governance- en transparantievereisten. Dit is cruciaal in gereguleerde sectoren of met strikte audits: het voorkomt onnodige gegevensverhuizingen en vergemakkelijkt de dialoog met regelgevers en risicocomités.
Zichtbare latentievermindering. Door de inferentie dichter bij de eindgebruiker te brengen, kan de netto latency tussen de 50 en 70 ms worden verlaagd, wat in interactieve toepassingen leidt tot verbeteringen van de responstijd tot 25–30%. In chat, ondersteunde bewerking, agents die tools aanroepen of incrementele voltooiingsstromen, zijn die milliseconden van groot belang.
Voor wie behoefte heeft aan exclusieve capaciteitsbanen, blijven de geadresseerde endpoints en aangepaste clusters de oplossingen. Het getuigenis van Caesar (caesar.xyz), een AI-platform gericht op diepgaand onderzoek en kennisprofessionals, illustreert deze gemengde aanpak:
“We gebruiken momenteel de geadresseerde endpoints van Together (een implementatie van 8×H200 Llama 4 Maverick) om onze transformatie met hoge gelijktijdigheid en grote contextvensters te ondersteunen. Naarmate we dichter bij de publieke lancering komen, zijn we enthousiast om onze werkstromen in de nieuwe regio van Together AI in Zweden uit te rollen om lagere latentie en te voldoen aan de gegevensbehoeften van onze Europese klanten te bieden.” — Mark McKenzie, oprichter van Caesar.
De Andere “Poot”: Praktische Workshops om Vaardigheden te Verbeteren
De onderneming beperkt zich niet tot het inschakelen van servers; ze wil ook de leercurve van ontwikkelaars en data teams verhogen. Daarom lanceert Together AI naast de opening in Zweden een trainingstour voor het verbeteren van AI-vaardigheden. De eerste workshop, op 10 september in Amsterdam, richt zich op hoe je open modellen kunt updaten en personaliseren met bewezen methoden.
De aangekondigde inhoud richt zich op drie gebieden die het verschil maken tussen een prototype en een robuust systeem:
Post-training met SFT, voorkeuren en verifieerbare beloningen.
- SFT met domeinspecifieke data: het verzamelen en mengen van niche-datasets (bijvoorbeeld juridisch, financieel of industrieel) zodat het model de “taal” van het bedrijf spreekt.
- Optimalisatie van voorkeuren: het aanpassen van antwoorden aan kwaliteitscriteria die door het team zijn gedefinieerd (stijl, nauwkeurigheid, toon, veiligheid).
- Verifieerbare beloningen: het introduceren van meetbare signalen —tests, controle-instrumenten, regels— die subjectiviteit verminderen en helpen om het alignment op te schalen zonder hoge etiketteringskosten.
Aangepaste speculatieve decodering.
- Het gebruik van een “schets”-model (draft) dat is afgestemd op het domein om tokens te voorspellen en de inferentie van het grotere model te versnellen.
- In combinatie met goed afgestelde acceptatie/afwijsstrategieën, streeft Together AI naar versnelingen van meer dan 1,85× op paden zoals DeepSeek R1, een relevante verbetering wanneer er hoog verkeer is of een constante latentie gewenst is.
Kwantisering om zware LLM’s naar bescheiden omgevingen te brengen.
- Compressietechnieken die geheugen en FLOPs reduceren, de GPU-eisen verlagen en de kosten per aanvraag verlagen, waardoor inferentie op kleinere apparaten of in bescheiden infrastructuren mogelijk wordt.
- Voor veel organisaties is de combinatie van kwantisering + nabije endpoints voldoende om van “We hebben geen hooggekwalificeerde GPU’s” naar “We kunnen het bedrijf bedienen met redelijke SLA’s en duurzame marges” te gaan.
Wat Lost Together AI Echt Op?
Beyond rhetoric, Together AI’s positionering is concreet: trainen, afstemmen en uitvoeren van generatieve AI-modellen met een gespecialiseerde cloud die zich richt op prestaties, controle en kosten. Het platform ondersteunt open en gepersonaliseerde modellen in meerdere modaliteiten en stelt de klant in staat om te kiezen hoe te implementeren met verschillende niveaus van privacy en veiligheid.
Als het ecosysteem reageert —met projecten die latentie en kosten omzetten in betere ervaringen en marges— dan was deze zet zeker de moeite waard.
In de operaties breidt de Zweedse regio het wereldwijde netwerk uit dat de serverless API ondersteunt. In termen van capaciteiten, bieden de geadresseerde endpoints en on-demand GPU-clusters stabiliteit van prestaties en isolatie, twee belangrijke eigenschappen wanneer de laadverdelingen kritisch zijn.
Wat Brengt Amsterdam in de Rugzak: Recepten, Geen Concepten
De belofte van de Model Shaping workshop van Together AI blijft niet bij dia-samenvattingen. Het curriculum dwingt deelnemers om praktische procedures te integreren die het dagelijkse gebruik helpen:
- Hoe gegevens te selecteren en te filteren voor een SFT die echte waarde oplevert.
- Hoe verifieerbare beloningsfuncties te definiëren om het model te verbeteren waar het er toe doet.
- Hoe een “schets”-model voor speculatieve decodering af te stemmen en waar je de drempels moet instellen.
- Welke kwantisatiestrategie te kiezen op basis van hardware, nauwkeurigheidseisen en de gevoeligheid van de use-case.
De Kern in Vier Sleutels
- Nieuwe regio in Zweden al operationeel: serverless API, geadresseerde endpoints en on-demand GPU-clusters met gegevensresidentie in de EU.
- Latentie: typische verbeteringen van 50–70 ms, met 25–30% snellere responstijden in interactieve applicaties.
- Gratis workshops: start op 10 september in Amsterdam over post-training (SFT, voorkeuren, verifieerbare beloningen), speculatieve decodering (>1,85× versnelling) en kwantisering.
- CEO berichten: “Europa ligt op de voorgrond”; Together AI zal investeren in infrastructuur en engineeringgemeenschap om betrouwbare en schaalbare AI in de regio te bevorderen.
Veelgestelde Vragen (FAQ)
Wat wint een Europees bedrijf door inferentie te implementeren in de regio Zweden van Together AI?
- Voornaamste voordelen zijn gegevensresidentie binnen de EU en lagere latentie voor gebruikers in het noorden en midden van Europa.
Wat is het praktische verschil tussen het gebruik van de serverless API en een geadresseerde endpoint?
- Serverless API biedt elasticiteit en kosten gekoppeld aan consumptie; een geadresseerde endpoint garandeert gereserveerde capaciteit en stabiele prestaties.
Welke specifieke technieken worden behandeld in de workshop in Amsterdam en waarom zijn ze belangrijk?
- Technieken zoals SFT, speculatieve decodering en kwantisering zijn directe hefboomwerking voor het verbeteren van de kwaliteit en het verlagen van de kosten/latentie.
Welke modellen ondersteunt de API en hoe past dat in de controle- en veiligheidsvereisten?
- De API ondersteunt open en gepersonaliseerde modellen en biedt verschillende implementatie-opties voor privacy en traceerbaarheid.
Opmerking
De informatie is afkomstig van de officiële aankondiging van Together AI over de opening van infrastructuur in Zweden en de lancering van zijn workshopreeks in Europa.