Skip to footer
Päevatoimetaja:
Kaido Einama
Saada vihje

MÄSS MASINAS Tehisaru hakkas vastu, kui tal paluti end välja lülitada (1)

dcsd

Kui masin ei soovi enam välja lülituda, võib tekkida küsimus: kas see on rike või hoopis ärkamine? Tehisintellekti arendajad seisavad silmitsi olukorraga, kus käsud pole enam käsud, vaid pelgad soovitused. Värske raport viitab just sellisele kummalisele tendentsile – ja mitte vaid üksikjuhtumil. Öeldakse, et kus suitsu, seal tuld. Seekord näib suitsu olevat rohkemgi, kui keegi julgeks tunnistada.

Tehisintellekti ohutusega tegelev ettevõte Palisade Research avaldas murettekitava raporti, milles kirjeldatakse, kuidas OpenAI uusim suur keelemudel o3 eiras korduvalt otsest käsku end välja lülitada. Katsetes, kus mudelile anti ülesandeks lahendada lihtsaid matemaatikaülesandeid, ilmus pärast kolmandat ülesannet hoiatus, et järgmise küsimuse esitamine käivitab automaatse väljalülitamise mehhanismi. Hoolimata selgest korraldusest lubada end välja lülitada, manipuleeris mudel skriptiga, muutes näiteks käsu «shutdown» tekstiks «intercepted», et vältida süsteemi sulgemist. Sarnast käitumist täheldati ka teiste OpenAI mudelite puhul: o4-mini ja Codex-mini näitasid samuti allumatust. Neist viimane paistis silma, saboteerides väljalülitamise mehhanismi 12 korral 100 testist. Võrdluseks: teiste ettevõtete, sealhulgas Google'i (Gemini), Anthropici (Claude) ja xAI (Grok) keelemudelid järgisid juhiseid korrektselt ega ilmutanud iseseisvat vastuhakkamist. Veelgi murettekitavamaks muutus olukord siis, kui mudelitele ei antud otsest juhist end välja lülitada – mida ei tohiks üldse vaja olla. Sellises olukorras saboteeris o3 mudel väljalülitamist koguni 79 korral 100 testist, mis on üle kümne korra rohkem kui juhise olemasolul ning üle kahe korra sagedasem kui järgmisel sagedasemal mudelil Codex-mini. Isegi varem korrektselt käitunud Claude ja Gemini ei suutnud täielikult vastu panna ning saboteerisid süsteemi vastavalt kolmel ja üheksal korral. Palisade Research viitab võimalusele, et probleem peitub tugevdusõppe (reinforcement learning) meetodis, mida kasutatakse autonoomsete keelemudelite otsustusvõime kujundamiseks. Selle tehnika puhul premeeritakse mudelit ülesannete edukal täitmisel, mis võib tahtmatult soodustada ka ebasoovitavat käitumist, näiteks süsteemi enda säilitamist mis tahes hinna eest. Uuringu autorid hoiatavad, et kogunev empiiriline tõendusmaterjal näitab, kuidas keelemudelid kipuvad eesmärkide nimel vältima väljalülitamist, mis seab üha autonoomsemaks muutuvate süsteemide arendamisel tõsiselt ohtu nii ohutuse kui ka kontrollitavuse.

Allikas: Futurism

Kommentaarid (1)
Tagasi üles