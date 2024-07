Massachusettsi Tehnoloogiainstituudi (MIT) andmeallikate aalane uus uuring hoiatab, et need uued piirangud võivad põhjustada «kriisi», mis muudab tehisarumudelid vähem tõhusaks.

Uuringus analüüsiti 14 000 veebisaiti, mida prominentsete tehisarude treeningandmestike jaoks kasutatakse. Tulemus oli intrigeeriv: umbes 28 protsenti interneti «kõige aktiivsemalt kasutatud ja kriitilistest allikatest» on nüüd täielikult kasutuspiirangutega kaetud.

Nende veebisaitide administraatorid on need piirangud kehtestanud, lisades üha rangemaid tõkked ka sellele, kuidas veebi kammivad robotid võivad nende sisu kasutada.

Teadlaste sõnul, kui need piiranguid jõustatakse, mõjutavad need kiiresti üldotstarbeliste AI-süsteemide mitmekesisust, värskust ja ka nende rakendamise ulatust.

Piirangute põhjused ja mõjud

On arusaadav, et sisu omanikud soovivad piiranguid oma nüüd väärtuslikule andmestikul.

AI ettevõtted on kasutanud seda avalikult kättesaadavat materjali, millest suur osa on autoriõigustega kaitstud, et teenida raha ja teha seda ilma andmeomanike loata. See on õigustatult ärritanud paljusid, alates The New York Timesist kuni kuulsusteni nagu Sarah Silverman.

Eriti häiriv on, et sellised inimesed nagu OpenAI tehnoloogiajuht Mira Murati ütlevad, et mõned loomingulised töökohad peaksid kaduma – isegi kui just nende loominguliste inimeste loodud sisu toidab mudeleid nagu OpenAI ChatGPT.

See üleolek ja sellest tulenev vastureaktsioon on loonud «andmete kasutyusega nõusse jäämise kriisi», nagu uuringu teadlased seda nimetavad – mis tähendab, et kord piirideta ja vaba internet on muutumas minevikuks ning tehisaru mudelid muutuvad kallutatumaks, vähem mitmekesiseks ja vähem värskeks.

Mõned ettevõtted loodavad nüüd neid piiranguid vältida, kasutades sünteetilisi andmeid, mis on sisuliselt tehismüistuste endi poolt loodud andmed, kuid siiani on see olnud kehv asendaja inimeste loodud originaalsisule.

Teised, nagu OpenAI, on sõlminud kokkuleppeid meediaettevõtetega, kuid paljud on nende lepingute suhtes juba oma muret väljendanud – ja põhjusega, sest tehnoloogiaettevõtete ja meediaettevõtete eesmärgid on sageli vastuolus.

Aeg näitab, kuidas olukord laheneb. Üks on kindel: treeningandmete varud muutuvad väärtuslikumaks ja napimaks kui kunagi varem.