Uudised – OpenAI Point E: looge 3D-punktipilv keerulistest lainekujudest minutitega ühel GPU-l

Uues artiklis Point-E: komplekssetest signaalidest 3D-punktipilvede genereerimise süsteem tutvustab OpenAI uurimisrühm punkti E, 3D-punktipilveteksti tingimusliku sünteesisüsteemi, mis kasutab difusioonimudeleid, et luua keerukast tekstist juhitud mitmekülgseid ja keerukaid 3D-kujundeid. vihjeid.minutitega ühel GPU-l.
Tänapäeva tipptasemel kujutiste genereerimise mudelite hämmastav jõudlus on stimuleerinud 3D-tekstiobjektide genereerimise uurimist.Erinevalt 2D-mudelitest, mis suudavad genereerida väljundit minutite või isegi sekunditega, nõuavad objekti genereerivad mudelid tavaliselt ühe proovi genereerimiseks mitu tundi GPU tööd.
Uues artiklis Point-E: komplekssetest signaalidest 3D-punktipilvede genereerimise süsteem esitleb OpenAI uurimisrühm 3D-punktipilvede tekstilist tingimuslikku sünteesisüsteemi Point·E.See uus lähenemisviis kasutab levimismudelit, et luua keerulistest tekstisignaalidest mitmekesiseid ja keerulisi 3D-kujundeid ühe või kahe minuti jooksul ühel GPU-l.
Meeskond on keskendunud teksti 3D-vormingusse teisendamise väljakutsele, mis on kriitilise tähtsusega 3D-sisu loomise demokratiseerimiseks reaalmaailma rakenduste jaoks, alates virtuaalsest reaalsusest ja mängudest kuni tööstusdisainini.Olemasolevad meetodid teksti teisendamiseks 3D-vormingusse jagunevad kahte kategooriasse, millest igaühel on omad puudused: 1) generatiivseid mudeleid saab kasutada näidiste tõhusaks genereerimiseks, kuid neid ei saa tõhusalt skaleerida erinevate ja keerukate tekstisignaalide jaoks;2) eelkoolitatud teksti-kujutise mudel keeruliste ja mitmekesiste tekstivihjete käsitlemiseks, kuid see lähenemine on arvutusmahukas ja mudel võib kergesti takerduda kohalikesse miinimumidesse, mis ei vasta tähenduslikele või sidusatele 3D-objektidele.
Seetõttu uuris meeskond alternatiivset lähenemisviisi, mille eesmärk on ühendada ülaltoodud kahe lähenemisviisi tugevad küljed, kasutades teksti-pildi difusioonimudelit, mis on koolitatud suurel hulgal teksti-pildi paaridel (võimaldab tal käsitleda erinevaid ja keerulisi signaale) ja 3D-kujutise difusioonimudel, mis on treenitud väiksemal teksti-kujutise paaridel.pildi-3D paari andmestik.Tekst-pildiks mudel proovib esmalt sisendkujutist, et luua üks sünteetiline esitus, ja pilt-3D-mudel loob valitud pildi põhjal 3D-punktipilve.
Käsu generatiivne virn põhineb hiljuti välja pakutud generatiivsetel raamistikel kujutiste tingimuslikuks genereerimiseks tekstist (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).Nad kasutavad 3 miljardi GLIDE-parameetriga GLIDE-mudelit (Nichol et al., 2021), mis on viimistletud renderdatud 3D-mudelitel, oma tekstist pildiks teisendusmudelina ja difusioonimudelite komplekti, mis genereerivad RGB-punktipilvi. teisendusmudel.pildid pildile.3D mudelid.
Kui varasemates töödes kasutati punktipilvede töötlemiseks 3D-arhitektuure, siis tõhususe parandamiseks kasutasid teadlased lihtsat anduripõhist mudelit (Vaswani et al., 2017).Nende difusioonimudeli arhitektuuris sisestatakse punktipilvekujutised esmalt eelkoolitatud ViT-L/14 CLIP mudelisse ja seejärel suunatakse väljundvõrgud markeritena konverterisse.
Oma empiirilises uuringus võrdles meeskond pakutud Point·E meetodit teiste generatiivsete 3D-mudelitega COCO objektide tuvastamise, segmenteerimise ja signatuuride andmekogumite signaalide hindamisel.Tulemused kinnitavad, et Point·E suudab keerukatest tekstisignaalidest genereerida mitmekesiseid ja keerulisi 3D-kujundeid ning kiirendada järeldusaega ühe kuni kahe suurusjärgu võrra.Meeskond loodab, et nende töö inspireerib edasisi uuringuid 3D-teksti sünteesi alal.
Eelkoolitatud punktipilvede levimudel ja hindamiskood on saadaval projekti GitHubis.Document Point-E: ArXiv-is on süsteem 3D-punktipilvede loomiseks keerulistest vihjetest.
Teame, et te ei taha jääda ilma ühestki uudisest ega teadusavastusest.Iganädalaste tehisintellekti värskenduste saamiseks tellige meie populaarne Synced Global AI Weekly uudiskiri.

Postitusaeg: 28. detsember 2022