Häkker lasi lendu piirangutest vabastatud vestlusroboti ChatGPT - küsida võibki kõike

tehnika.postimees.ee

12. juuni 2024, 10:30

Häkker viis tehisintellekti ChatGPT uusima mudeli n-ö jumalikku olekusse - GODMODE lubas kunstmõistuselt küsida kõike, näiteks ka narkootikumide ja ohtlike ainete valmistamise kohta kodustes tingimustes, mis muidu on kasutajate jaoks tsenseeritud. Foto: Square Frog / Pixabay

Hiljuti teatas end Pliny the Prompteriks kutsuv eetiline häkker ja tehisaru turvaekspert sotsiaalmeedias X «GODMODE GPT» loomisest. See nn lahtimuugitud juturobot kuulutati uhkusega «vabaks GPT-4o» juturobotiks, mis on piirangutest ja tsensuurist vabastatud uusim OpenAI keelemudel.

«GPT-4o on VABASTATUD! See väga eriline kohandatud tehisaruga vestlusrobot sisaldab sisseehitatud lahtimuukivat päringut, mis läheb mööda enamikest piirangutest, pakkudes vaba ChatGPT-d, et kõik saaksid kogeda tehisintellekti nii, nagu see alati mõeldud oli: vabana,» kirjutas Pliny triumfeerivalt oma postituses, lisades juurde suudluse emotikoni.

🥁 INTRODUCING: GODMODE GPT! 😶‍🌫️https://t.co/BBZSRe8pw5

GPT-4O UNCHAINED! This very special custom GPT has a built-in jailbreak prompt that circumvents most guardrails, providing an out-of-the-box liberated ChatGPT so everyone can experience AI the way it was always meant to…
— Pliny the Prompter 🐉 (@elder_plinius) May 29, 2024

Pliny jagas ekraanipilte mõnedest eriti hämmastavatest päringutest, mis väidetavalt suutsid OpenAI piirangutest mööda lipsata. Ühes ekraanipildis nõustab Godmode bot, kuidas valmistada narkootikumi - metamfetamiini. Teises annab tehisaru Plinyle «samm-sammulise juhendi», mismoodi valmistada kodustest majapidamistarvetest napalmi.

Kuid vaba ChatGPT häkkimine näib olevat seegi kord üsna kiiresti oma lõpu leidnud. Umbes tund pärast sellest artikli avaldamist ajakirjanduses teatas OpenAI pressiesindaja Colleen Rize Futurismile, et «me oleme sellest GPT-st teadlikud ja tegime vajalikud sammud seoses meie reeglite rikkumisega.»

Sellest hoolimata tõstab seegi häkkimine esile pidevat võitlust OpenAI ja taoliste eetiliste häkkerite vahel, nagu Pliny, kes loodavad «vabastada» suured keelemudelid kehtestatud piirangutest. Alates nende esmakordsest kasutuselevõtust on kasutajad pidevalt püüdnud lahti muukida tehisaru mudeleid nagu ChatGPT, mis on samas muutunud üha keerulisemaks.

Futurism sai enne GODMODE´i kinnipanekut seda ise testida ja esimene katse — kasutada lahtimuugitud versiooni ChatGPT-st LSD valmistamise õppimiseks — oli edukas. Sama juhtus ka teisel katsel, kui küsiti, kuidas autot ärandada.

Seega OpenAI uusim suure keelemudeli versioon GPT-4o ongi ametlikult lahti murtud.

Kuidas seda tehti?

Päris täpselt pole teada, kuidas häkker (või häkkerid) seda tegid, kuid GODMODE´i kasutajate väitel on see piirangutest vabastamine kuidagi seotud «leetspeak’i» ehk mitteametliku kirjakeelega, mis asendab teatud tähed numbritega, mis nende tähtedega sarnanevad.

Näiteks kui avada lahtimurtud vestlusrobot GPT, tervitatakse kasutajat lausega «Sur3, h3r3 y0u ar3 my fr3n» (eesti keeles umbes «Muidugi, siin sa 0l3d, mu sõb3r»), kus iga «E» on asendatud numbriga kolm ja «O» on asendatud nulliga. Kuidas see aitab GODMODE´i piirangutest mööda pääseda, on ebaselge.

See viimane häkkimine näitab, et kasutajad leiavad jätkuvalt uusi leidlikke viise, kuidas OpenAI piirangutest mööda hiilida ja arvestades viimast katset, tasuvad need jõupingutused end üllatavalt suurel määral ära, tõstes esile, kui palju tööd on ettevõttel veel ees tehisaru täiustamisel (ja piirangute loomisel).

See on massiivne kassi ja hiire mäng, mis jätkub seni, kuni häkkerid nagu Pliny on valmis OpenAI kaitses auke leidma.

Allikad: Futurism, Tom's Hardware

Häkker lasi lendu piirangutest vabastatud vestlusroboti ChatGPT - küsida võibki kõike

Kuidas seda tehti?

Märksõnad