Stable Video Diffusion · Oslo Vibe Coding

Et enkelt sammendrag, så du får med deg poenget her uten å dra videre.

Dette arbeidet ble sluppet i 2023 og tar den samme oppskriften som gjorde Stable Diffusion god på enkeltbilder, og strekker den ut over tid, slik at modellen lager korte videoklipp i stedet for frittstående bilder.

Hva det er

Stable Video Diffusion er en generativ modell som lager en kort sekvens av bilder i bevegelse. Du kan gi den et startbilde, og den ser for seg hvordan scenen kan fortsette, og lager et kort klipp der ting beveger seg på en troverdig måte.

Den er bygget direkte oppå latensdiffusjons-tilnærmingen fra bildearbeidet. Så det tunge arbeidet skjer fortsatt i et komprimert rom, og modellen jobber fortsatt ved å rydde opp i støy. Den nye utfordringen er å få bildene til å stemme overens med hverandre over tid.

Kjerneideen

En video er ikke bare en stabel med urelaterte bilder. Bildene må henge sammen. Hvis en person snur på hodet, skal bevegelsen flyte jevnt, og ansiktet skal forbli det samme ansiktet. En modell som lager hvert bilde uavhengig av de andre, ville produsert et flimrende rot.

Forfatterne ga nettverket en sans for tid, slik at det ser på nabobildene samlet, ikke ett om gangen. Like viktig var det at de var nøye med treningen. De beskriver en trinnvis prosess: først lære bilder, så lære bevegelse på en stor videosamling, og deretter forfine på et mindre, renere sett med klipp av høy kvalitet. God dataforedling gjorde, slik de forteller det, mye av jobben.

Hvorfor det betyr noe

Video er mye vanskeligere og dyrere enn bilder, fordi du nå genererer mange bilder som alle må henge sammen. Å vise at den åpne latensdiffusjons-oppskriften kunne dyttes inn i video, og å dele hvordan, ga det bredere fellesskapet et reelt grunnlag å eksperimentere med, i stedet for bare å se på lukkede demoer.

Hvis du lærer å bygge med KI, handler lærdommen her om å skalere en idé til et vanskeligere problem. Du starter sjelden fra bunnen av. Du tar noe som fungerer, legger til den ene nye ingrediensen som den vanskeligere oppgaven trenger, her er det sammenheng over tid, og du følger nøye med på dataene du trener på.

Hovedpunkter

Stable Video Diffusion lager korte videoklipp, ofte med utgangspunkt i ett enkelt inngangsbilde.
Den utvider latensdiffusjons-metoden for bilder ved å legge til en sans for tid, slik at bildene holder seg i samsvar med hverandre.
Treningen skjedde i trinn: bilder først, så bevegelse på et stort videosett, og deretter forfining på et mindre sett av høy kvalitet.
Nøye dataforedling var sentralt for resultatet, ikke bare en større modell.
Det viste at den åpne oppskriften for bildegenerering kunne nå inn i video, og ga fellesskapet et grunnlag å bygge videre på.

Åpne originalkilden

Blattmann et al., Stability AI

Ny til dette? Kom og bygg med oss.

Å lese er bra. Å bygge sammen med andre er bedre. Samlingene våre er gratis og åpne for helt ferske.

Meld deg på neste samling Se hele biblioteket