Aasta tagasi avaldas sellest probleemist artikli MIT Technology Review, kuid siis olid suured keelemudelid, pildigeneraatorid ja muud suurandmete peal algoritme treenivad masinad alles alustamas. Nüüdseks on neile enamasti kõik, mis ette sööta sai, ette söödetud, sealhulgas ka selle peale pahaste loomeinimeste tööd, mille pealt on kunstmõistust treenitud inimesest aru saama.
Millest siis puudu jääb?
Tõepoolest, maailma kuulsaima vestlusroboti ja tehisintellekti ChatGPT teadmistepagasisse kuulub 570 gigabaiti teksti. See pole kaugeltki kogu Internet, kuid on 300 miljardit sõna kõigist keeltest, sealhulgas ka eesti keelest, mis lubab ChatGPT-l pea ükskõik mis keeles esitatud küsimustele samas keeles vastata. Tõsi, vastuse koostamine käib tavaliselt inglise keele kaudu.
Samamoodi hakkab kuivale jääma pildigeneraatorite mootor ehk difusioonialgoritm, mis on paljude tehisintellekti abil pilti loovate rakenduste, nagu DALL-E, Lensa ja Midjourney, aluseks. Kasutusel olnud 5,8 miljardit pildi-teksti paarist koosnevat LIAON-5B andmestikku hakkavad edaspidi andma ebatäpseid või madala kvaliteediga väljundeid, kui «värsket verd» peale ei tule.
«Üks lahendus on ka andmed välja mõelda.»
Rob Toews, Forbes
Muidugi saaks öelda, et Internet on täis kõikvõimalikku jama ja seda toodetakse massiivselt juurde, kuid tähtis on ka andmekvaliteet: lihtsalt niisama sotsiaalmeediapostitusi või untsu läinud suvalisi fotosid ei saa masinõppeks kasutada, sest siis võib juhtuda see, mille Microsoft läbi elas: Twitteri postituste põhjal muutus tehisintellekt kiiresti rassistlikuks ja ropendavaks.