Training Compute-Optimal LLMs (Chinchilla)

Et enkelt sammendrag, så du får med deg poenget her uten å dra videre.

I 2022 fant DeepMind at mange store modeller var bygd for store i forhold til mengden data de ble trent på, og at en mindre modell matet med mer data kan gjøre det bedre for det samme treningsbudsjettet.

Hva det er

Dette arbeidet, som ga en modell med kallenavnet Chinchilla, tar et nytt blikk på hvordan man bør bruke et fast treningsbudsjett. De to viktigste tingene du kan skalere er modellstørrelse, altså antallet parametere, og data, altså mengden tekst modellen leser. Spørsmålet er hvordan man balanserer dem.

DeepMinds svar utfordret den rådende vanen. Mange tidligere modeller hadde vokst seg svært store, men var ikke trent på forholdsmessig nok data. Chinchilla viste at en ny balanse mot mer data, med en mindre modell, brukte den samme regnekraften klokere.

Kjernetanken

For en gitt mengde regnekraft finnes det et optimalt punkt mellom størrelse og data. Å gå for stort uten nok tekst sløser med budsjettet, fordi modellen har mer kapasitet enn den har eksempler å lære fra.

Chinchilla, en mindre modell trent på langt mer data, gjorde det bedre enn større modeller trent på mindre, mens den brukte et sammenlignbart budsjett. Lærdommen er at data og størrelse bør vokse sammen på en balansert måte, ikke størrelse alene.

Hvorfor det betyr noe

Dette endret hvordan team planlegger treningskjøringer. Mindre, godt matede modeller er billigere å kjøre i etterkant og kan matche eller slå oppblåste modeller, noe som betyr noe for både kostnad og tilgjengelighet.

For byggere er det en påminnelse om at flere parametere ikke automatisk er bedre. Å tenke på balansen mellom modellstørrelse og treningsdata gir modeller som er både sterkere og mer effektive å bruke.

Hovedpunkter

Publisert i 2022 av DeepMind.
Spør hvordan man bør fordele et fast budsjett mellom modellstørrelse og treningsdata.
Fant at mange store modeller var undertrent på for lite data.
En mindre modell med mer data slo større modeller ved tilsvarende regnekraft.
Størrelse og data bør skalere sammen, noe som også gjør modeller billigere å kjøre.

Åpne originalkilden

DeepMind

Ny til dette? Kom og bygg med oss.

Å lese er bra. Å bygge sammen med andre er bedre. Samlingene våre er gratis og åpne for helt ferske.

Meld deg på neste samling Se hele biblioteket