Päevatoimetaja:
Kaido Einama

Suur probleem apla tehisintellektiga: sellele pole enam piisavalt andmeid ette sööta (1)

Copy
Aina aplamaks muutuvad kõnerobotid tahavad nüüd aina rohkem andmeid, sest senistest enam ei piisa. Pilt nunnust robotist on illustratiivne.
Aina aplamaks muutuvad kõnerobotid tahavad nüüd aina rohkem andmeid, sest senistest enam ei piisa. Pilt nunnust robotist on illustratiivne. Foto: Laura Musikanski / Pexels

Juba aasta tagasi hoiatasid teadlased, et tehisintellekti koolitamiseks vajalikud andmed saavad varsti otsa. Nüüd on see aeg käes – kõik, mille me oleme kunagi digitaalselt salvestanud ja netti üles pannud, on juba läbi uuritud ja aina suurema isuga masinõppele pole enam midagi ette kühveldada. 

Aasta tagasi avaldas sellest probleemist artikli MIT Technology Review, kuid siis olid suured keelemudelid, pildigeneraatorid ja muud suurandmete peal algoritme treenivad masinad alles alustamas. Nüüdseks on neile enamasti kõik, mis ette sööta sai, ette söödetud, sealhulgas ka selle peale pahaste loomeinimeste tööd, mille pealt on kunstmõistust treenitud inimesest aru saama.

Millest siis puudu jääb?

Tõepoolest, maailma kuulsaima vestlusroboti ja tehisintellekti ChatGPT teadmistepagasisse kuulub 570 gigabaiti teksti. See pole kaugeltki kogu Internet, kuid on 300 miljardit sõna kõigist keeltest, sealhulgas ka eesti keelest, mis lubab ChatGPT-l pea ükskõik mis keeles esitatud küsimustele samas keeles vastata. Tõsi, vastuse koostamine käib tavaliselt inglise keele kaudu. 

Samamoodi hakkab kuivale jääma pildigeneraatorite mootor ehk difusioonialgoritm, mis on paljude tehisintellekti abil pilti loovate rakenduste, nagu DALL-E, Lensa ja Midjourney, aluseks. Kasutusel olnud 5,8 miljardit pildi-teksti paarist koosnevat LIAON-5B andmestikku hakkavad edaspidi andma ebatäpseid või madala kvaliteediga väljundeid, kui «värsket verd» peale ei tule.

«Üks lahendus on ka andmed välja mõelda.»

Rob Toews, Forbes

Muidugi saaks öelda, et Internet on täis kõikvõimalikku jama ja seda toodetakse massiivselt juurde, kuid tähtis on ka andmekvaliteet: lihtsalt niisama sotsiaalmeediapostitusi või untsu läinud suvalisi fotosid ei saa masinõppeks kasutada, sest siis võib juhtuda see, mille Microsoft läbi elas: Twitteri postituste põhjal muutus tehisintellekt kiiresti rassistlikuks ja ropendavaks.

Tehisintellekti senised tööpõhimõtted tuleb üle vaadata

Teadlaste uuringu järgi jookseb tehisintellekt kuivale enne 2026. aastat, kui uusi andmeid ei saa või kui masinat seniste tööpõhimõtete asemel kuidagi uutmoodi treenima ei hakata. Seesama teadustöö soovitab kokkuvõtteks masinõppe mudelitele, mis tohututel andmekogudel tehisintellekti treenivad, uusi andmeallikaid sisse sööta. Aga kust neid võtta? Teine lahendus on leida uued tehisintellekti õpetamise tööriistad, mille jaoks pole kogu aeg aina uusi andmeid vaja.

Üks lahendus on ka andmed välja mõelda, kirjutab Forbes. Nii-öelda sünteetiliste andmetega saab masinõpet edasi teha, kui midagi uut pole pakkuda. Kuid nende andmete loomine on parajalt keeruline.

Veel üks lahendus on tehisintellektifirmade kavatsus uusi andmeid kinnistest andmekogudest osta. Näiteks Reuters vahendas uudist, et meediaettevõte News Corp, millele kuulub ka Wall Street Journal, võib anda oma mahukad ajakirjandusliku sisuga täidetud andmebaasid OpenAI-le ChatGPT või Google´ile Bardi treenimiseks. Selliseid kinniseid andmeallikaid on veelgi, kuid nende kasutamine läheb tehisintellektikompaniidele juba palju kulukamaks kui Internetist tasuta kokkurehitsemine.

Tagasi üles