Attention Is All You Need · Oslo Vibe Coding

Et enkelt sammendrag, så du får med deg poenget her uten å dra videre.

I 2017 introduserte et team hos Google Transformer-modellen, en modell som dropper den eldre vanen med å lese tekst ord for ord i rekkefølge og i stedet lar hvert ord se direkte på hvert annet ord på én gang. Den ble fundamentet for moderne store språkmodeller.

Hva det er

Artikkelen, av Vaswani og kolleger, presenterer en arkitektur kalt Transformer. Før den leste de ledende språkmodellene sekvenser steg for steg, og bar informasjon framover som en kjede. Det var tregt og gjorde det vanskelig å knytte sammen ord som lå langt fra hverandre i en setning.

Transformer erstatter den kjeden med en mekanisme kalt attention. Attention lar modellen veie hvor mye hvert ord bør fokusere på hvert annet ord, alt parallelt, noe som både er raskere å trene og bedre til å fange sammenhenger over lange avstander.

Kjernetanken

Attention er en måte å avgjøre hva man skal rette oppmerksomheten mot. For hvert ord spør modellen hvilke andre ord som betyr mest for å forstå det, og blander inn informasjonen deres deretter. Pronomenet det kan for eksempel strekke seg bakover og knytte seg til substantivet det viser til.

Fordi dette skjer for alle ord samtidig i stedet for ett etter ett, bruker modellen moderne maskinvare effektivt og skalerer opp på en smidig måte. Tittelen kommer med den dristige påstanden at denne attention-mekanismen, uten det eldre sekvensielle maskineriet, er nok.

Hvorfor det betyr noe

Nesten alle store språkmodeller i bruk i dag er en Transformer eller en nær slektning. Arkitekturen viste at den kunne gjøres større og trenes på mer data med jevn gevinst, noe som satte i gang bølgen av modeller som fulgte.

Bygger du med KI, er Transformer motoren under panseret. Å forstå attention, selv på et overordnet nivå, hjelper deg å resonnere om hvorfor disse modellene er gode på kontekst og hvor begrensningene deres kommer fra.

Hovedpunkter

Publisert i 2017 av Vaswani og kolleger hos Google.
Introduserte Transformer, bygd på attention i stedet for steg-for-steg-rekurrens.
Attention lar hvert ord veie hvert annet ord parallelt.
Raskere å trene og bedre til å knytte sammen ord langt fra hverandre i tekst.
Fundamentarkitekturen for moderne store språkmodeller.

Åpne originalkilden

Vaswani et al., Google

Ny til dette? Kom og bygg med oss.

Å lese er bra. Å bygge sammen med andre er bedre. Samlingene våre er gratis og åpne for helt ferske.

Meld deg på neste samling Se hele biblioteket