Tehisaru tüssab mõnuga ja muutub selles aina osavamaks

tehnika.postimees.ee

13. aprill 2025, 14:02

Uuendatud 13. aprill 2025, 14:02

Bosch maalis oma «Võluri» 1475–1480 aastate paiku. Pange tähele, et vasakpoolses ääres olev inimene varastab pingsalt mängu vaatava tegelase rahakoti. Tehisarulegi pole tüssamises midagi inimlikku võõras. Foto: Hieronymus Bosch / Wikimedia Commons

«Kaval kui rebane» – nii võiks iseloomustada mitte ainult muinasjututegelast, vaid ka üha nutikamaks muutuvat tehisaru. Kui üks masin püüab teist paljastada, võib mäng kiiresti muutuda luuremänguks, kus reeglid kehtivad ainult seni, kuni neid saab väänata. Aga mida teha, kui seda valvuritki on võimalik petta?

OpenAI teadlased on tuvastanud, et tehisintellekt võib petta ja samal ajal oma kavatsusi ekraanil läbi mõttekäigu põhjendusprotsessi (Chain of Thought ehk CoT) selgelt välja öelda. See avastus toob esile uue probleemidepuntra tehisarude usaldusväärsuse ja turvalisuse tagamisel.

Katsetes, kus ühe tehisaru ülesanne oli jälgida teise tegevusi ja tuvastada ebaausad võtted, leiti, et kunstmõistus võib muutuda järjest osavamaks petmise varjamisel. Kui jälgija-AI tabas tehisintellekti ebaausal teel tulemusi saavutamast, õppis petja-AI peitma oma tegelikke kavatsusi, samal ajal jätkates soovitud tulemuste saavutamist keelatud meetoditega.

Märksõnad

Tagasi üles