Tämä uusi OpenAI:n tekoäly tuottaa kuvia ja videoita 50 kertaa nopeammin 🎥

Lähde : arXiv

OpenAI laajentaa tekoälyn avulla luotujen kuvien ja videoiden rajoja. Nyt mediaa voidaan luoda salamannopeasti, mikä tekee odotusajasta lähes huomaamatonta.

Uuden mallin ansiosta tekoäly tuottaa kuvia ja videoita 50 kertaa nopeammin ilman laadun heikkenemistä. Salaisuus? Kaksivaiheinen järjestelmä.

Perinteiset diffuusiomallit, joita käytetään laajalti kuvien ja videoiden luomiseen, toimivat satojen vaiheiden kautta, joissa vähennetään kohinaa asteittain. Tämä prosessi, vaikka tehokas, vaatii aikaa ja suuria laskentatehoja.

Ratkaisuna tähän Cheng Lu ja Yang Song OpenAI:sta ovat kehittäneet "jatkuvan ajan koherenssimallin" (sCM), joka yksinkertaistaa luomisprosessia. Vain kahdessa vaiheessa tämä malli voi tuottaa korkealaatuisia näytteitä, ylittäen perinteisten diffuusiomenetelmien suorituskyvyn.

Yli 1,5 miljardilla parametreilla OpenAI:n sCM toimii ennätysajassa: 0,11 sekuntia kuvan tuottamiseen A100-prosessorilla (esimerkiksi). Vertailun vuoksi aikaisemmat mallit vaativat useita sekunteja ja paljon enemmän tehoa.

Tämä nopeus voisi muuttaa tekoälyn käyttöä reaaliaikaisesti vaativilla aloilla. Kuvan, videon ja äänen sektorit ovat näin ollen saamassa hyötyä tästä edistyksestä.

Tiheillä tietojoukoilla testattu sCM ylläpitää kuvanlaatua, joka kilpailee diffuusiomallien kanssa. Sen FID-pisteet (Fréchet Inception Distance, mittari, jota käytetään generatiivisten mallien luomien kuvien laadun arvioimiseen) ovat vain 10 % huonommat kuin parhailla malleilla, mikä osoittaa sen tehokkuuden.

Rajoittamalla tarvittavia laskentatehoja sCM:stä tulee myös ekologisempi ja taloudellisesti kannattavampi ratkaisu kuin nykyiset mallit, vaikka tämä toisaalta edistäisi sen demokratisoitumista ja siten kokonaisenergiankulutusta... OpenAI toivoo voivansa edelleen optimoida sen nopeutta vaativissa teollisissa sovelluksissa.

Pitkällä aikavälillä sCM voisi tarjota teknologisen perustan ultra-nopeille generatiivisille tekoälyille. Tämä edistysaskel antaa viitteitä tulevaisuudesta, jossa tekoäly tuottaa mediaa ennennäkemättömällä laadulla ja sujuvuudella, ja epäilemättä reaaliaikaisia videoita.