Pruna AI, een Europese startup die heeft gewerkt aan compressie -algoritmen voor AI -modellen, maakt zijn optimalisatiekader donderdag open source.
Pruna AI heeft een raamwerk gemaakt dat verschillende efficiëntiemethoden toepast, zoals caching, snoeien, kwantisatie en destillatie, op een bepaald AI -model.
“We standaardiseren ook het opslaan en laden van de gecomprimeerde modellen, het toepassen van combinaties van deze compressiemethoden en evalueren ook uw gecomprimeerde model nadat u het hebt gecomprimeerd,” vertelde Pruna AI co-fonder en CTO John Rachwan vertelde TechCrunch.
In het bijzonder kan het raamwerk van Pruna AI evalueren of er een aanzienlijk kwaliteitsverlies is na het comprimeren van een model en de prestatiewinsten die u krijgt.
“Als ik een metafoor zou gebruiken, zijn we vergelijkbaar met hoe knuffelen gestandaardiseerde transformatoren en diffusers knuffelen – hoe ze ze te bellen, te redden, te laden, enz. We doen hetzelfde, maar voor efficiëntiemethoden,” voegde hij eraan toe.
Big AI Labs hebben al verschillende compressiemethoden gebruikt. OpenAI is bijvoorbeeld op destillatie afhankelijk om snellere versies van zijn vlaggenschipmodellen te maken.
Dit is waarschijnlijk hoe OpenAI GPT-4 Turbo ontwikkelde, een snellere versie van GPT-4. Evenzo is het flux.1-Schnell-beeldgeneratiemodel een gedistilleerde versie van de flux.1-model van Black Forest Labs.
Distillatie is een techniek die wordt gebruikt om kennis te extraheren uit een groot AI-model met een “leraar-student” -model. Ontwikkelaars sturen verzoeken naar een lerarenmodel en registreren de output. Antwoorden worden soms vergeleken met een dataset om te zien hoe nauwkeurig ze zijn. Deze output wordt vervolgens gebruikt om het studentenmodel te trainen, dat is getraind om het gedrag van de leraar te benaderen.
“Voor grote bedrijven is ze meestal dat ze dit spul in eigen huis bouwen. En wat je kunt vinden in de open source-wereld is meestal gebaseerd op enkele methoden. Laten we bijvoorbeeld een kwantisatiemethode voor LLMS zeggen, of een cachemethode voor diffusiemodellen,” zei Rachwan. “Maar je kunt geen hulpmiddel vinden dat ze allemaal verzamelt, ze allemaal gemakkelijk te gebruiken en samen te combineren maken. En dit is de grote waarde die Pruna op dit moment brengt.”

Hoewel Pruna AI elke vorm van modellen ondersteunt, van grote taalmodellen tot diffusiemodellen, spraak-tot-tekstmodellen en computer vision-modellen, richt het bedrijf zich op dit moment meer specifiek op beeld- en video-generatiemodellen.
Sommige bestaande gebruikers van Pruna AI omvatten scenario en fotoroom. Naast de Open Source -editie heeft Pruna AI een ondernemingsaanbod met geavanceerde optimalisatiefuncties, waaronder een optimalisatieagent.
“De meest opwindende functie die we binnenkort uitbrengen, zal een compressieagent zijn,” zei Rachwan. “Kortom, je geeft het je model, je zegt: ‘Ik wil meer snelheid, maar laat mijn nauwkeurigheid niet met meer dan 2%vallen.’ En dan zal de agent gewoon zijn magie doen.
Pruna AI rekent per uur voor zijn Pro -versie. “Het is vergelijkbaar met hoe je zou denken aan een GPU wanneer je een GPU huurt op AWS of een cloudservice,” zei Rachwan.
En als uw model een cruciaal onderdeel van uw AI -infrastructuur is, bespaart u uiteindelijk veel geld aan de gevolgtrekking van het geoptimaliseerde model. Pruna AI heeft bijvoorbeeld een lama -model acht keer kleiner gemaakt zonder al te veel verlies met behulp van het compressiekader. Pruna AI hoopt dat zijn klanten zullen denken aan zijn compressiekader als een investering die zichzelf betaalt.
Pruna Ai heeft een paar maanden geleden een zaadfinancieringsronde van $ 6,5 miljoen opgehaald. Beleggers in de startup zijn EQT Ventures, Daphni, Motier Ventures en Kima Ventures.