Tehisaru tüssab mõnuga ja karistamine muudab selle vaid kavalamaks (1)

tehnika.postimees.ee

31. märts 2025, 16:05

Ehkki tehisaru ise ei mõtle, suudab see leida aina uusi lahendusi vastuste loomisel. Kui karistatakse väljamõeldiste eest, tehakse need aina usutavamaks. Foto: tehnisintellekti loodud pilt / Imagen 3

Tehisintellekt võib kirjutada meie eest e-kirju, tellida asju internetist, lahendada peadpööritavaid matemaatikaülesandeid ja saab hakkama peaaegu kõigega peale pesu pesemise. Ent isegi kui digitaalne «ajudega» masin täidab käske, mida inimene on talle andnud, ei pruugi see tähendada, et see järgib reegleid ausalt. Viimasel ajal on teadlased märganud, et tehisaru oskab aina paremini sohki teha – ja kui selle eest karistada, muutub see vaid salakavalamaks.

Kuulsa ChatGPT vestlusroboti loonud ettevõtte OpenAI teadlased näitasid ühes oma hiljutises uuringus, et kui tehisintellekt leiab võimaluse, kasutab see ära süsteemide ebatäpsusi ja reeglite ebamäärasusi.

Seda käitumist nimetatakse preemiahäkkimiseks (reward hacking). Iroonilisel kombel tunnistab kunstmõistus oma ebaausaid lühiteekondi ahelmõtlemise (chain of thought ehk CoT) kaudu, kirjeldades avalikult samm sammu täpsusega, kuidas ta plaanib eesmärgini jõuda.

Märksõnad

Tagasi üles