Tehnologie, tendințe pe internet, jocuri video, big data

EMO de la Alibaba: revoluția videoclipurilor care vorbesc și cântă

EMO de la Alibaba: revoluția videoclipurilor care vorbesc și cântă

By aurora

Recent, experții de la Institutul pentru calcul inteligent al Alibaba au dezvoltat un nou sistem de inteligență artificială numit “EMO“. Acest sistem este capabil să anime o singură fotografie portret și să genereze videoclipuri în care persoana din fotografie vorbește sau cântă într-un mod uimitor de realist.

Cum funcționează EMO

Sistemul EMO utilizează un model de difuzie a inteligenței artificiale, care a demonstrat o capacitate remarcabilă de a genera imagini sintetice realiste. Experții Alibaba au antrenat modelul pe un set mare de date de peste 250 de ore de videoclipuri cu persoane care vorbesc, din discursuri, filme, programe TV și spectacole de canto.

Spre deosebire de metodele tradiționale, care se bazează pe modele faciale 3D sau pe amestecarea formelor pentru a aproxima mișcările faciale, EMO convertește direct unda audio în cadre video. Acest lucru face posibilă captarea mișcărilor subtile și a particularităților specifice identității asociate cu limbajul natural.

Avantajele EMO

EMO reprezintă un important pas înainte în generarea de clipuri video ghidate audio ale persoanelor care vorbesc. Conform experimentelor descrise în lucrarea lor de cercetare, EMO depășește semnificativ metodele existente în ceea ce privește calitatea video, păstrarea identității și expresivitatea.

Cercetătorii Alibaba au realizat, de asemenea, un studiu de utilizator care a arătat că videoclipurile generate de EMO sunt mai naturale și mai emoționale decât cele produse de alte sisteme.

Generarea de videoclipuri cu oameni care cântă

Pe lângă videoclipurile conversaționale, EMO poate anima și portrete de persoane care cântă, creând mișcări adecvate ale gurii și expresii faciale sugestive sincronizate cu cântatul. Sistemul poate genera videoclipuri cu o durată arbitrară, în funcție de durata sunetului de intrare.

Rezultatele experimentale arată că EMO este capabil să producă nu numai videoclipuri convingătoare cu persoane care vorbesc, ci și videoclipuri cu persoane care cântă în diferite stiluri, depășind semnificativ metodologiile existente în ceea ce privește expresivitatea și realismul.

Implicații etice

În ciuda progreselor remarcabile realizate de EMO și de tehnologii similare, există implicații etice care trebuie luate în considerare. Capacitatea de a sintetiza un conținut video personalizat pornind de la o simplă fotografie și un fragment audio ridică probleme legate de utilizarea abuzivă a acestei tehnologii pentru a personifica persoane fără consimțământul acestora sau pentru a răspândi informații false.

Experții Alibaba spun că intenționează să exploreze metode de detectare a videoclipurilor sintetice pentru a contracara potențiala răspândire a conținutului fals.