Revoluția AI: calitatea imaginii într-o clipă cu noua metodă a MIT

April 7, 2024

By aurora

Inteligența artificială revoluționează modul în care sunt generate imaginile de înaltă calitate. Datorită noilor dezvoltări în domeniul modelelor de difuzie, algoritmii de inteligență artificială pot genera acum imagini de o calitate comparabilă cu cele obținute prin metode tradiționale, dar într-un timp mult mai scurt. În această lucrare, vom explora o nouă abordare introdusă de Massachusetts Institute of Technology(MIT) care simplifică procesul de generare a imaginilor, reducând timpul necesar și menținând sau îmbunătățind calitatea imaginilor generate.

Evoluția modelelor de difuzie

În era actuală ainteligenței artificiale, computerele pot genera “artă ” folosind modele de difuzie. Aceste modele adaugă progresiv structură unei stări inițiale zgomotoase până când se obține o imagine sau un videoclip clar. Cu toate acestea, modelele tradiționale de difuzie necesită un proces complex și de lungă durată, cu numeroase iterații pentru a rafina imaginea.

Pentru a aborda aceste limitări, cercetătorii de la MIT au introdus un nou cadru numit Distribution Matching Distillation(DMD). Acest cadru simplifică procesul de generare a imaginii, reducând etapele necesare modelelor tradiționale de difuzie la o singură etapă. Rezultatul este o creștere semnificativă a vitezei de generare a imaginilor, de până la 30 de ori mai rapidă, menținând sau depășind în același timp calitatea imaginilor generate.

Metoda MIT și avantajele sale

Metoda DMD se bazează pe un model profesor-elev. În practică, un nou model de calculator este învățat să imite comportamentul unor modele mai complexe de generare a imaginilor. Acest lucru se realizează prin utilizarea pierderii de regresie, care garantează o structură aproximativă a imaginilor generate, și a pierderii de potrivire a distribuției, care garantează că probabilitatea de generare a unei anumite imagini cu modelul elevului corespunde frecvenței de apariție a acesteia în lumea reală.

Sistemul DMD realizează o generare mai rapidă prin antrenarea unei noi rețele pentru a reduce divergența de distribuție dintre imaginile generate și cele din setul de date de antrenament utilizat de modelele tradiționale de difuzie. Acest lucru este realizat prin utilizarea a două modele de difuzie ca ghiduri, care ajută sistemul să facă distincția între imaginile reale și cele generate și fac posibilă antrenarea generatorului într-o singură etapă.

Abordarea de generare a imaginilor într-o singură etapă oferită de cadrul DMD ar putea avea numeroase aplicații și avantaje. De exemplu, ar putea îmbunătăți instrumentele de proiectare, permițând crearea mai rapidă a conținutului. În plus, ar putea sprijini progresele în domeniul descoperirii de medicamente și al modelării 3D, unde oportunitatea și eficiența sunt esențiale.

Rezultate și criterii de referință

Metoda MIT a fost testată pe mai multe criterii de referință și a demonstrat performanțe constante. De exemplu, pe ImageNet, unul dintre cele mai populare criterii de referință pentru generarea de imagini pe baza unor clase specifice, DMD a avut performanțe comparabile cu modele mai complexe, cu un scor al distanței de incipiență Fréchet (FID) de numai 0,3. Acest scor indică calitatea și diversitatea imaginilor generate. În plus, DMD excelează în generarea de imagini pe scară largă bazate pe text și atinge performanțe de ultimă generație într-o singură etapă.

Limitări și evoluții viitoare

Este important de remarcat faptul că performanța imaginilor generate prin metoda MIT depinde de capacitățile modelului de profesor utilizat în timpul procesului de distilare. În prezent, sistemul utilizează modelul Stable Diffusion v1.5 ca model profesor și are unele limitări, cum ar fi redarea portretelor text detaliate și a fețelor mici. Cu toate acestea, imaginile generate de sistemul DMD pot fi îmbunătățite în continuare prin utilizarea unor modele de profesor mai avansate.

Viitorul generării de imagini

Generarea de imagini de înaltă calitate într-o singură etapă reprezintă un pas înainte major în domeniul inteligenței artificiale. Datorită cadrului DMD introdus de MIT, este posibil să se genereze imagini cu un timp de calcul semnificativ redus, menținând sau îmbunătățind în același timp calitatea imaginii. Acest lucru ar putea deschide calea pentru noi aplicații și posibilități în domeniul designului de conținut, al descoperirii de medicamente și în multe alte domenii.