• borði

OpenAI Point E: Búðu til þrívíddarpunktaský úr flóknum bylgjuformum á nokkrum mínútum á einni GPU

Í nýrri grein Point-E: A system for generating 3D punktský úr flóknum merkjum kynnir OpenAI rannsóknarteymið Point E, 3D punktský texta skilyrt kerfi sem notar dreifingarlíkön til að búa til fjölbreytt og flókin 3D form knúin áfram af flóknum texta vísbendingar.á mínútum á einni GPU.
Ótrúleg frammistaða nútímamyndagerðarlíkana í dag hefur örvað rannsóknir á gerð þrívíddartextahluta.Hins vegar, ólíkt 2D líkönum, sem geta framleitt úttak á mínútum eða jafnvel sekúndum, þurfa hlutgerðarmyndandi líkön venjulega nokkrar klukkustundir af GPU vinnu til að búa til eitt sýnishorn.
Í nýrri grein Point-E: A system for generating 3D punktský úr flóknum merkjum kynnir OpenAI rannsóknarteymið Point·E, textual conditional synthesis system for 3D punktský.Þessi nýja nálgun notar útbreiðslulíkan til að búa til fjölbreytt og flókin 3D form úr flóknum textamerkjum á aðeins einni mínútu eða tveimur á einni GPU.
Teymið einbeitir sér að þeirri áskorun að breyta texta í þrívídd, sem er mikilvægt til að lýðræðisfæra þrívíddarefnissköpun fyrir raunveruleg forrit, allt frá sýndarveruleika og leikjum til iðnaðarhönnunar.Núverandi aðferðir til að umbreyta texta í þrívídd falla í tvo flokka, sem hver um sig hefur sína galla: 1) hægt er að nota kynslóðalíkön til að búa til sýnishorn á skilvirkan hátt, en geta ekki skalað á skilvirkan hátt fyrir fjölbreytt og flókin textamerki;2) fyrirfram þjálfað texta-myndalíkan til að takast á við flóknar og fjölbreyttar textavísbendingar, en þessi nálgun er reikningsfrek og líkanið getur auðveldlega festst í staðbundnum lágmarksmörkum sem samsvara ekki merkingarbærum eða samfelldum þrívíddarhlutum.
Þess vegna kannaði teymið aðra nálgun sem miðar að því að sameina styrkleika ofangreindra tveggja aðferða, með því að nota texta-í-mynd dreifingarlíkan sem er þjálfað á stórum hópi texta-myndarpöra (sem gerir því kleift að höndla fjölbreytt og flókin merki) og 3D mynddreifingarlíkan sem er þjálfað á smærri setti af texta-myndarpörum.mynd-3D para gagnasafn.Texta-í-mynd líkanið tekur fyrst sýnishorn af inntaksmyndinni til að búa til eina tilbúna framsetningu og mynd-í-3D líkanið býr til þrívíddarpunktaský byggt á valinni mynd.
Myndunarstafla skipunarinnar byggir á nýlega fyrirhuguðum myndramma til að búa til myndir með skilyrðum úr texta (Sohl-Dickstein o.fl., 2015; Song & Ermon, 2020b; Ho o.fl., 2020).Þeir nota GLIDE líkan með 3 milljörðum GLIDE færibreytum (Nichol o.fl., 2021), fínstillt á mynduðum þrívíddarlíkönum, sem texta-í-mynd umbreytingarlíkan sitt, og safn dreifingarlíkana sem búa til RGB punktský sem þeirra. umbreytingarlíkan.myndir í mynd.3D módel.
Þó að fyrri vinna hafi notað þrívíddararkitektúr til að vinna úr punktskýjum, notuðu vísindamennirnir einfalt líkan sem byggir á transducer (Vaswani o.fl., 2017) til að bæta skilvirkni.Í dreifingarlíkanisarkitektúr þeirra eru punktskýjamyndir fyrst færðar inn í fyrirfram þjálfað ViT-L/14 CLIP líkan og síðan eru úttaksmöskurnar færðar inn í breytirinn sem merki.
Í reynslurannsókn sinni bar teymið saman fyrirhugaða Point·E aðferð við önnur myndræn þrívíddarlíkön á stigamerkjum frá COCO hlutgreiningu, skiptingu og undirskriftargagnasettum.Niðurstöðurnar staðfesta að Point·E er fær um að búa til fjölbreytt og flókin þrívíddarform úr flóknum textamerkjum og flýta ályktunartíma um eina til tvær stærðargráður.Teymið vonast til að vinna þeirra muni hvetja til frekari rannsókna á 3D textamyndun.
Forþjálfað punktskýjaútbreiðslulíkan og matskóði eru fáanlegir á GitHub verkefnisins.Document Point-E: Kerfi til að búa til þrívíddarpunktaský úr flóknum vísbendingum er á arXiv.
Við vitum að þú vilt ekki missa af neinum fréttum eða vísindalegum uppgötvunum.Gerast áskrifandi að vinsælu Synced Global AI Weekly fréttabréfinu okkar til að fá vikulegar AI uppfærslur.


Birtingartími: 28. desember 2022