PROOVI ISE JÄRGI ⟩ See Apple´i uus tarkvaraarendus suudab lamedast pildist teha hetkega ruumilise

Tehnika

tehnika.postimees.ee

15. oktoober 2024, 18:50

Apple on avaldanud ise mõned näited nende tehisaru Depth Pro analüüsist: tavaliste piltide pealt leitakse lähemad ja kaugemad objektid ning need on tähistatud erinevate värvidega. Mida lähemal, seda soojem värv. Lahendust saab kasutada liitreaalsuse prillides, autode ja robotite navigatsioonis ning muidugi ka kahemõõtmeliste fotode kolmemõõtmeliseks tegemisel. Foto: Apple

Apple´i masinõppe uurimisrühm on välja töötanud uue tehisintellekti mudeli, mis laseb üheainsa kahemõõtmelise pildi põhjal luua kiirelt ja täpselt kolmemõõtmelisi sügavuskaarte. Depth Pro mudel kasutab sügavushinnangut, millega saab luua täpsed 3D pildid vähem kui sekundiga.

Inimaju töötleb visuaalset infot kahe silma kaudu, kusjuures kumbki silm pakub veidi erinevat vaadet maailmast. Nende erinevuste abil moodustataksegi nii-öelda ruumiline stereopilt, mis aitab meil määrata asjade kaugusi.

Paljud kaamerad ja nutitelefonid kasutavad aga vaid ühte objektiivi, ent nende tehtud tavaliste kahemõõtmeliste fotode peidetud metaandmete, nagu fookuskauguse ja sensori info abil on võimalik luua ka kolmemõõtmelisi sügavuskaarte või kasutada mitut pilti ühe ruumilise loomiseks.

Depth Pro süsteem jätab kõik need võimalused kõrvale, genereerides 2,25-megapikslise 3D sügavuskaardi vaid 0,3 sekundiga tavalise graafikaprotsessori abil ning vaid üht kahemõõtmelist pilti vaadates.

Mudel sisaldab nn mitmemõõtmelist visioonitransformaatorit (multi-scale vision transformer), mis suudab ühel ajal töödelda nii kogu pildi üldist konteksti kui ka peenemaid detaile, näiteks juuksekarvu või karvkatet.

Samuti suudab see hinnata nii suhtelist kui ka absoluutset sügavust, mis aitab mudelil pakkuda välja päris maailma mõõteandmeid, et näiteks liitreaalsuse (AR) rakendused saaksid täpselt tõsta virtuaalseid objekte füüsilisse ruumi, kui neid läbi vastavate prillide vaadata.

Proovisime järgi täna avaldatud artikli juurest pärit Vespa tankitõrjerolleri pildiga: paremal on näha sügavuskaart, mis silma järgi tundub täitsa õige. Foto: C.Galliani / Registro Italiano Veicoli Abitativi Ricreazionali Storici / Wikimedia Commons / Apple

See tehisaru mudel saavutab aga tulemuse ilma ressursimahuka spetsiaalsete andmekogumite peal treenimiseta, kasutades nullõppimist (zero-shot learning).

IBM kirjeldab seda kui masinõppestsenaariumit, kus tehisaru mudel suudab tuvastada ja kategoriseerida tundmatuid asju ilma eelnevalt märgistatud näideteta. See muudab Depth Pro äärmiselt mitmekülgseks.

Kasutusvõimalusi on sellisel lahendusel muidugi palju. Lisaks AR-rakendustele võib Depth Pro lihtsustada fototöötlust ja viia isegi reaalajas 3D-kujutiste loomiseni ühe objektiiviga kaamerate abil. Samuti võib see olla abiks autonoomsete sõidukite ja robotite navigatsioonis, aidates neil paremini tajuda ümbritsevat ruumilist keskkonda.

Kuigi projekt on veel uurimisjärgus, on Apple teinud haruldase sammu, pakkudes programmikoodi ja tugidokumente avatud lähtekoodina GitHubis. See lubab ka teistel arendajatel, teadlastel ja programmeerijatel tehnoloogiat edasi arendada.

Samuti on avaldatud selle kohta teadusartikkel ning igaüks, kes soovib, saab proovida mudeli praegust versiooni oma fotodega veebidemos.

PROOVI ISE JÄRGI ⟩ See Apple´i uus tarkvaraarendus suudab lamedast pildist teha hetkega ruumilise

Märksõnad