- Het in het VK gevestigde fractiele wordt ondersteund door de NAVO en wil sneller en goedkoper in het geheugen AI Compute bouwen
- Nvidia’s bruuteforce GPU -aanpak verbruikt te veel macht en wordt tegengehouden door geheugen
- Fractile’s cijfers gericht op een cluster van H100 GPU -vergelijking, niet de mainstream H200
Nvidia staat comfortabel aan de top van de AI Hardware -voedselketen en domineert de markt met zijn krachtige GPUS- en CUDA -softwarestack, die snel de standaardhulpmiddelen zijn geworden voor het trainen en uitvoeren van grote AI -modellen – maar die dominantie komt met een kosten – een groeiend doelwit op zijn rug.
Hyperscalers zoals Amazon, Google, Microsoft en Meta gieten bronnen om hun eigen aangepaste silicium te ontwikkelen in een poging hun afhankelijkheid van de chips van Nvidia te verminderen en kosten te besparen. Tegelijkertijd probeert een golf van AI -hardware -startups te profiteren van de stijgende vraag naar gespecialiseerde versnellers, in de hoop efficiëntere of betaalbare alternatieven te bieden en uiteindelijk Nvidia te verplaatsen.
Je hebt misschien nog nog nooit gehoord van het Britse fractiel, maar de startup, die beweert dat zijn revolutionaire benadering van computergebruik ’s werelds grootste taalmodellen 100x sneller kan leiden en op 1/10e de kosten van bestaande systemen, heeft een aantal behoorlijk opmerkelijke financiers, waaronder NAVO en de voormalige CEO van Intel, Pat Gelsinger.
Elk knelpunt verwijderen
“We bouwen de hardware die elk knelpunt verwijdert naar de snelst mogelijke conclusie van de grootste transformatornetwerken”, zegt Fractile.
“Dit betekent dat de grootste LLM’s ter wereld sneller lopen dan je kunt lezen, en een universum van volledig nieuwe mogelijkheden en mogelijkheden voor hoe we werken dat zal worden ontgrendeld door bijna-instructieve inferentie van modellen met bovenmenselijke intelligentie.”
Het is de moeite waard om erop te wijzen, voordat je te enthousiast wordt, dat de prestatienummers van Fractile gebaseerd zijn op vergelijkingen met clusters van Nvidia H100 GPU’s met 8-bit kwantisatie en tensorrt-llm, met LLAMA 2 70B-niet de nieuwere H200-chips.
In een LinkedIn-bericht schreef Gelsinger, die onlangs lid werd van VC-bedrijf Global als algemene partner,: “Inferentie van Frontier AI-modellen is knelpunten door hardware. Zelfs voordat test-time rekenschaling, kosten en latentie enorme uitdagingen waren voor grootschalige LLM-implementaties … om onze aspiraties te bereiken voor AI, we zullen radicaal, cheaper en veel lagere machtsinformatie nodig hebben.”
“Ik ben verheugd om te delen dat ik onlangs heb geïnvesteerd in Fractile, een in het Verenigd Koninkrijk, een in het VK gevestigd AI-hardwarebedrijf dat een pad nastreeft dat radicaal genoeg is om zo’n sprong te bieden,” onthulde hij toen.
“Hun in-Memory Compute-benadering om te inferenties versnelling versnellen gezamenlijk de twee bottlenecks aan om inferentie te schalen, zowel het geheugenbottleneck dat de GPU’s van vandaag tegenhoudt, terwijl het decimeren van het stroomverbruik, de grootste fysieke beperking die we het volgende decennium in de capaciteit van het gegevenscentrum ophalen!”