Playing Atari with Deep Reinforcement Learning

Et enkelt sammendrag, så du får med deg poenget her uten å dra videre.

I 2013 bygde DeepMind et enkelt program som lærte å spille mange ulike Atari-spill godt, ved kun å se på de rå pikslene på skjermen og poengsummen, uten noen spillspesifikke instruksjoner.

Hva det er

Dette arbeidet kombinerte to ideer. Den ene er et dypt nevralt nettverk som kan lese pikslene på en skjerm. Den andre er forsterkende læring, en måte å lære på gjennom prøving og feiling der programmet prøver handlinger og blir belønnet eller straffet av utfallet.

Satt sammen så systemet på spillskjermen, valgte trekk som med en joystick, og lærte gjennom mange forsøk hvilke trekk som førte til høyere poengsum. Den samme tilnærmingen ble brukt på en rekke Atari-titler.

Kjernetanken

Forsterkende læring er å lære av konsekvenser. Det finnes ingen lærer som viser det riktige trekket. Programmet handler, ser resultatet, og forskyver seg gradvis mot valg som gir mer belønning over tid, omtrent som å lære et spill ved å spille det.

Det som gjorde dette bemerkelsesverdig, var at programmet kun mottok det en menneskelig spiller ser, pikslene og poengsummen, og fant ut nyttige strategier på egen hånd. Én generell metode, ikke én håndbygd bot per spill, håndterte mange spill.

Hvorfor det betyr noe

Å vise at en enkelt læringsmetode kunne mestre mange spill ut fra rå inndata, antydet en vei mot mer generelle agenter som lærer ferdigheter i stedet for å få dem programmert inn.

Forsterkende læring er nå en del av hvordan moderne KI formes, inkludert måten store språkmodeller justeres på for å bli mer hjelpsomme. For byggere er denne artikkelen et tilgjengelig tidlig innblikk i agenter som lærer ved å gjøre, en idé som stadig blir viktigere.

Hovedpunkter

Publisert i 2013 av DeepMind.
Kombinerer et dypt nettverk for å lese piksler med forsterkende læring.
Lærer kun av skjermen og poengsummen, uten spillspesifikke regler.
Én generell metode lærte å spille mange ulike Atari-spill.
En tidlig milepæl for agenter som lærer ferdigheter gjennom prøving og feiling.

Åpne originalkilden

DeepMind

Ny til dette? Kom og bygg med oss.

Å lese er bra. Å bygge sammen med andre er bedre. Samlingene våre er gratis og åpne for helt ferske.

Meld deg på neste samling Se hele biblioteket