High-Resolution Image Synthesis with Latent Diffusion Models

Et enkelt sammendrag, så du får med deg poenget her uten å dra videre.

Denne artikkelen fra 2022 er den som gjorde tekst-til-bilde-generering tilgjengelig for alle. Det er forskningen bak Stable Diffusion, og den store ideen var å gjøre bildegenerering billig nok til å kjøre på et helt vanlig grafikkort.

Hva det er

En diffusjonsmodell lærer å lage bilder ved å starte med ren støy, som snøstorm på en gammel fjernsynsskjerm, og rydde den opp steg for steg helt til et ekte bilde dukker opp. Trikset er at modellen under treningen får se ekte bilder som det er lagt støy på, og den øver på å gjette hva støyen var. Gjør du det millioner av ganger, blir modellen svært god til å gjøre tilfeldighet om til noe som ligner på et fotografi eller et maleri.

Problemet før denne artikkelen var kostnaden. Å gjøre all denne steg-for-steg-opprydningen direkte på bilder i full størrelse, der hver eneste piksel teller, krever enorme mengder regnekraft. Bare de store laboratoriene hadde råd til det.

Kjerneideen

Forfatternes grep var å slutte å jobbe med bildet på pikselnivå, og i stedet jobbe i et komprimert rom de kaller latensrommet. Først presser et eget lite nettverk bildet ned til en mye mindre kode som beholder den meningsfulle strukturen og kaster bort fine detaljer som kan fylles inn igjen senere. Diffusjonen skjer inne i denne komprimerte koden, som er langt mindre, slik at hvert steg blir mye raskere og lettere.

Når modellen har laget en ferdig kode, utvider en dekoder den igjen til et fullt, skarpt bilde. De la også til en ryddig måte å styre resultatet på med en tekstinstruksjon, slik at du kan be om det du vil ha med ord. Samme kvalitet, en brøkdel av regnekraften.

Hvorfor det betyr noe

Fordi matematikken nå fikk plass på en vanlig maskin, kunne modellen slippes åpent. Det var det som gjorde bildegenerering fra en laboratoriedemo til et verktøy som studenter, kunstnere og små team faktisk kunne bruke og bygge videre på. Et helt økosystem av verktøy og finjusterte varianter vokste ut av det.

For alle som lærer å bygge med KI, er dette et tydelig eksempel på en lærdom som går igjen. En smart endring i hvor du gjør arbeidet, snarere enn en større modell, kan låse opp noe for et helt fellesskap.

Hovedpunkter

Diffusjonsmodeller genererer bilder ved gradvis å fjerne støy, noe de lærer ved å øve på støyfylte versjoner av ekte bilder.
Den viktigste nyvinningen er å gjøre dette i et lite, komprimert latensrom i stedet for på piksler i full oppløsning, noe som drastisk reduserer regnekraften som trengs.
En koder komprimerer, diffusjonen kjører på koden, og en dekoder utvider den tilbake til et fullt bilde.
Tekstinstruksjoner er koblet inn slik at du kan beskrive det du vil ha med vanlige ord.
Lav nok kostnad til å kjøre på ett enkelt forbruker-GPU, og det er grunnen til at den kunne slippes åpent som Stable Diffusion og sette i gang et stort fellesskap.

Åpne originalkilden

Rombach, Blattmann et al.

Ny til dette? Kom og bygg med oss.

Å lese er bra. Å bygge sammen med andre er bedre. Samlingene våre er gratis og åpne for helt ferske.

Meld deg på neste samling Se hele biblioteket