Skip to content
Alle ressurser

Ut til fronten

Word2Vec: Efficient Estimation of Word Representations

Mikolov et al., Google2 min lesingGratis

Et enkelt sammendrag, så du får med deg poenget her uten å dra videre.

I 2013 fant et team hos Google en rask måte å gjøre ord om til tallrekker som fanger mening, slik at enkel regning på tallene kunne svare på analogier som konge minus mann pluss kvinne lander nær dronning.

Hva det er

Word2Vec, ledet av Tomas Mikolov og kolleger hos Google, er en metode for å lære vektorer for ord. En vektor her er bare en lang tallrekke. Hvert ord får sin egen vektor, og trikset er at tallene er ordnet slik at ord som brukes på lignende måter havner nær hverandre.

Modellen lærer disse vektorene ved å lese enorme mengder tekst og prøve å forutsi hvilke ord som opptrer ved siden av hverandre. Ingen mennesker merker betydningene. Bruksmønstrene står for opplæringen.

Kjernetanken

Et ord kjennes på selskapet det holder. Ord som dukker opp i lignende sammenhenger, som kaffe og te, får lignende vektorer. Det som overrasket folk, var at forholdene mellom ord viste seg som konsistente retninger i dette tallrommet.

Det berømte eksempelet er at hvis du tar vektoren for konge, trekker fra mann og legger til kvinne, lander du nær dronning. Modellen ble aldri fortalt dette. Det falt naturlig ut av å lære hvordan ord brukes, noe som antydet at mening har en slags geometri.

Hvorfor det betyr noe

Word2Vec viste at mening kunne fanges i en kompakt, beregnbar form, og det gjorde det effektivt nok til å kjøre på vanlig maskinvare. Det gjorde metoden både praktisk og populær.

Ideen om å gjøre ting om til vektorer som fanger mening, ofte kalt embeddings, går gjennom hele moderne KI. Søk, anbefalinger og måten store språkmodeller håndterer tekst på bygger alle på dette fundamentet. Jobber du med KI, møter du embeddings hele tiden, og denne artikkelen er stedet der ideen ble bredt anvendelig.

Hovedpunkter
  • Publisert i 2013 av Mikolov og kolleger hos Google.
  • Gjør hvert ord om til en vektor av tall som gjenspeiler betydningen.
  • Lærer av ordkonteksten i rå tekst, uten menneskelige merkelapper.
  • Forholdene viser seg som retninger, så konge minus mann pluss kvinne lander nær dronning.
  • Lanserte embeddings-ideen som ligger til grunn for søk, anbefalinger og LLM-er.
Åpne originalkilden

Mikolov et al., Google

Ny til dette? Kom og bygg med oss.

Å lese er bra. Å bygge sammen med andre er bedre. Samlingene våre er gratis og åpne for helt ferske.