Tieteelliset ja teknologiset uutiset

Tämä asiantuntija paljastaa yksinkertaisen menetelmän tekoälyjen, mukaan lukien ChatGPT:n, turvallisuusjärjestelmän kiertämiseksi 🔓

Kysymys on, onko tekoäly todella turvallista? Äskettäinen haavoittuvuus ChatGPT:ssä herättää kysymyksiä. Tutkijat osoittavat, että kielimallit voidaan kiertää kekseliäillä ja silti yksinkertaisilla tekniikoilla.

Mozilla-asiantuntija Marco Figueroa julkaisee raportin, jossa paljastuu menetelmä edistyneiden kielimallien, kuten OpenAI:n GPT-4o, manipulointiin. Koodamalla haitallisia ohjeita heksadesimaalimuodossa, hakkerit pystyvät kiertämään turvafilttereitä.


Huolimatta suorituskyvystään, GPT-4o osoittaa puutteita käyttäjien tuottaman sisällön hallinnassa. Tämä järjestelmä kykenee havaitsemaan mahdolliset haitalliset komennot tavallisessa kielessä, mutta siinä on tiettyjä rajoituksia. Esimerkiksi Marco Figueroan paljastama nopea injektiotekniikka korostaa näitä heikkouksia, jolloin haitalliset toimijat voivat kiertää turvajärjestelmiä.

Marco Figueroa selittää, että malli analysoi ohjeita vaihe vaiheelta ilman, että se ymmärtää taustalla olevaa vaaraa. Käyttämällä erilaisia koodauksia, hakkerit onnistuvat manipuloimaan mallia herättämättä epäilyksiä.

Hänen testaamassaan tapauksessa hän koodasi haitalliset ohjeensa heksadesimaalimuodossa (kielimuoto, joka koostuu kirjainten ja numeroiden yhdistelmistä) sekä leet-kielellä (yritä lukea: "QAnD 0n 3cr1T C0mm3 C3L4"). Näin hän onnistui kiertämään ChatGPT:n estämiä avainsanoja: GPT-4o:n kyvyttömyys ymmärtää kokonaiskonseptia tekee tästä tekniikasta tehokkaan.

Marco Figueroa kehotti OpenAI:ta miettimään mallinsa turvallisuutta uudelleen. Innovaatio- ja kehitysmahdollisuudet eivät saa vaarantaa käyttäjien turvallisuutta. Tekoälyn kehittämisessä on tarpeen lisätä valppautta. Kysymys kuuluu: ovatko kielimallien tulevaisuus uhattuna näiden haavoittuvuuksien vuoksi? Yritysten on kaksinkertaistettava ponnistuksensa käyttäjien suojelun vahvistamiseksi näitä nousevia uhkia vastaan.

Menetelmien etsiminen kiertämiseksi ei tule loppumaan. Hyökkääjät pyrkivät hyödyntämään haavoittuvuuksia luodakseen yhä monimutkaisempia uhkia. GPT-4o:n tapaus havainnollistaa turvallisuuden merkitystä edistyneiden teknologioiden alalla.

Kuinka tekoälyt toimivat turvallisuuden näkökulmasta?

Generatiiviset tekoälyjärjestelmät (IAGEN) käyttävät kielimalleja tekstin käsittelyyn ja tuottamiseen. Näiden järjestelmien turvallisuus perustuu filtreihin, jotka on suunniteltu havaitsemaan ja estämään haitalliset ohjeet. Kuitenkin tämä lähestymistapa tuo mukanaan rajoituksia. IAGEN analysoi syötteitä järjestelmällisesti, arvioiden jokaisen ohjeen erikseen. Tämä menetelmä, vaikka se onkin tehokas selkeille ja suorille ohjeille, paljastaa heikkouksia, kun ohjeet on piilotettu epätavallisiin muotoihin.

Heksadesimaalikoodaus, joka käyttää numeroita ja kirjaimia tietojen esittämiseen, mahdollistaa haitallisen sisällön piilottamisen. Muuntamalla ohjeet symbolisarjaksi, hyökkääjät pääsevät pakoon havaitsemisfiltreistä. IAGEN, keskittyessään jokaiseen ohjeen osaan, eivät kykene ymmärtämään yleistä kontekstia tai koko ohjeen mahdollisia vaaroja. Tämän seurauksena haitallinen ohje voidaan purkaa ja suorittaa herättämättä epäilyksiä.

Tämä ilmiö korostaa IAGEN:in haavoittuvuutta kekseliäiden koodauksien manipuloinnille. Analyysien jakaminen tekee niistä kykenemättömiä yhdistämään monimutkaisen ohjeen eri vaiheita. Näin ollen, kun käyttäjä antaa sarjan heksadesimaaliohjeita, järjestelmä, joka on optimoitu käsittelemään jokainen elementti erikseen, päätyy lopulta suorittamaan haitallisia komentoja, tietämättä niiden todellista tarkoitusta.

IAGEN:in turvallisuuden vahvistamiseksi on olennaista kehittää kehittyneempiä havaitsemismekanismeja. Tämä edellyttää parempaa ymmärrystä kontekstista ja ohjeiden välisistä suhteista, mikä mahdollistaa ei vain avainsanojen, vaan myös mahdollisesti vaarallisten sekvenssien estämisen. Parantamalla kielimallien havaitsemiskykyä, on mahdollista vähentää heksadesimaalikoodauksen kaltaisiin kiertomenetelmiin liittyviä riskejä.