Language Models are Few-Shot Learners (GPT-3)

Et enkelt sammendrag, så du får med deg poenget her uten å dra videre.

I 2020 viste OpenAI at en svært stor språkmodell med 175 milliarder parametere kunne utføre nye oppgaver bare ut fra noen få eksempler skrevet inn i ledeteksten, uten noen ny trening.

Hva det er

GPT-3 er en stor språkmodell trent på en enorm mengde tekst for å forutsi det neste ordet. Det som gjorde den bemerkelsesverdig, var ikke bare størrelsen, men en ny måte å bruke den på. I stedet for å finjustere den for hver oppgave, beskriver du rett og slett oppgaven og viser noen få eksempler i ledeteksten, og modellen følger etter.

Dette kalles few-shot-læring. Modellen lærer hva du vil ha ut fra de få eksemplene som ligger der i inndataene, og bruker så mønsteret på det virkelige spørsmålet ditt.

Kjernetanken

En modell trent bredt nok kan plukke opp formen på en ny oppgave på sparket. Vis den et par oversettelser eller et par spørsmål-og-svar-par, og den slutter seg til regelen og fortsetter den, helt uten å endre de interne vektene sine.

Dette snur den eldre arbeidsflyten på hodet. Før innebar det å tilpasse en modell å samle inn merkede data og trene den på nytt. Med few-shot-ledetekst tilpasser du modellen ved å skrive gode instruksjoner og eksempler, noe som er langt raskere og mer fleksibelt.

Hvorfor det betyr noe

GPT-3 gjorde ledetekster til den viktigste måten folk samhandler med store modeller på. Ideen om at du kan styre én enkelt generell modell med ord alene, er grunnlaget for hvordan de fleste bruker KI i dag.

For byggere er dette øyeblikket der ledeteksten ble grensesnittet. Å vite hvordan man gir tydelige instruksjoner og gode eksempler er nå en kjerneferdighet, og denne artikkelen er der den tilnærmingen ble vist å fungere i stor skala.

Hovedpunkter

Publisert i 2020 av OpenAI.
En modell med 175 milliarder parametere trent til å forutsi det neste ordet.
Utfører nye oppgaver ut fra noen få eksempler plassert i ledeteksten.
Ingen ny trening nødvendig, modellen tilpasser seg ut fra selve ledeteksten.
Etablerte ledetekster som den viktigste måten å bruke store modeller på.

Åpne originalkilden

OpenAI

Ny til dette? Kom og bygg med oss.

Å lese er bra. Å bygge sammen med andre er bedre. Samlingene våre er gratis og åpne for helt ferske.

Meld deg på neste samling Se hele biblioteket