VAATA VIDEOT ⟩ Microsoft suudab nüüd ühe pildi ja helilõiguga luua inimesest ehedaid võltsvideoid

tehnika.postimees.ee

22. aprill 2024, 12:05

Ära usu midagi: tehisaru võib panna vaid ühe foto põhjal inimese rääkima oma häälega, mis on loodud lühikesest heliklipist. Rääkima võib panna ükskõik kelle ükskõik mis teksti. Foto: Microsoft

Microsoft Research Asia avalikustas eelmisel nädalal uue tehisintellekti mudeli VASA-1, mis suudab ühest fotost ja olemasolevast heliribast luua video inimesest rääkimas või laulmas. Tulevikus võib niimoodi kasutada virtuaalseid avatare, mis ei vaja näidiseks videoklippe ega esineda videokoosolekul kellegi teisena. Samas võib panna ükskõik kelle rääkima ükskõik mida, kui temast on olemas vaid üks foto ja kõnesalvestus.

VASA-1 uus mudel on võimeline mitte ainult jäljendama huulte liigutusi, mis on heliga sünkroniseeritud, vaid imiteerib ka näo ja pea liigutusi, mis aitavad tajuda videot ehedana ning petavad vaataja ära, nii et ei märgatagi süvavõltsingut.

Selleks et liigutusi tundma õppida, söödeti tehisarule ette ligi 6000 prominentse inimese videote valik Youtube'ist. Need sisalduvad andmekogumis VoxCeleb2, mille lõid 2018. aastal kolm Oxfordi ülikooli teadlast. VoxCeleb2 veebisaidi andmetel sisaldab see andmekogum YouTube'i üles laaditud videotest ekstraheeritud üle miljoni ütluse 6112 kuulsuselt.

Märksõnad

Tagasi üles