BERT: Pre-training of Deep Bidirectional Transformers

Et enkelt sammendrag, så du får med deg poenget her uten å dra videre.

I 2018 ga Google ut BERT, en språkmodell som leser en setning fra begge retninger samtidig og lærer av enorme mengder vanlig tekst først, slik at den deretter kan tilpasses mange spesifikke oppgaver med lite ekstra trening.

Hva det er

BERT er en Transformer-basert modell for å forstå språk. Navnet står for Bidirectional Encoder Representations from Transformers. Nøkkelordet er toveis. Når BERT ser på et ord, tar den hensyn til ordene på begge sider, venstre og høyre kontekst sammen, for å forstå hele betydningen.

Den lærer i to faser. Først forhåndstrenes den på enorme mengder vanlig tekst. Deretter finjusteres den, gitt en mindre dose oppgavespesifikke eksempler, til å gjøre en bestemt jobb som å svare på spørsmål eller sortere anmeldelser.

Kjernetanken

Under forhåndstreningen spiller BERT en fyll-inn-det-tomme-felt-lek. Noen ord i en setning skjules, og modellen lærer å gjette dem ut fra alt rundt. For å klare det godt må den bygge en genuin forståelse av hvordan språk fungerer.

Dette skillet mellom generell forhåndstrening og målrettet finjustering kalles overføringslæring. Du gjør den kostbare, brede læringen én gang, og gjenbruker så den kunnskapen billig for mange spesifikke oppgaver. BERT gjorde dette til standardmåten å jobbe på innen språk.

Hvorfor det betyr noe

BERT skjøv presisjonen framover på tvers av et bredt sett av språkmålestokker og viste at en enkelt forhåndstrent modell kunne tilpasses mange problemer. Det endret standardarbeidsflyten i feltet.

Mønsteret med å forhåndstrene én gang og tilpasse ofte er nå overalt i KI, inkludert grunnmodellene du finjusterer eller gir instruksjoner i dag. For byggere er BERT en tydelig demonstrasjon av hvorfor det å starte fra en modell som allerede forstår mye, sparer enormt mye innsats.

Hovedpunkter

Publisert i 2018 av Google.
Leser kontekst fra begge retninger samtidig, derav toveis.
Forhåndstrener på enorme mengder tekst ved å fylle inn skjulte ord, og finjusterer per oppgave.
Gjorde overføringslæring, forhåndstren én gang og tilpass ofte, til standarden innen NLP.
Hevet presisjonen på mange språkoppgaver med én enkelt grunnmodell.

Åpne originalkilden

Google

Ny til dette? Kom og bygg med oss.

Å lese er bra. Å bygge sammen med andre er bedre. Samlingene våre er gratis og åpne for helt ferske.

Meld deg på neste samling Se hele biblioteket