Dirbtinio intelekto modelių pažeidžiamumas
Financial Times ir grupė Alice praneša, kad Meta ir Google dirbtinio intelekto modeliai buvo pažeisti per mažiau nei 10 minučių. Šiam tikslui pasiekti buvo naudojamas metodas, vadinamas „abliteracija“, kuris reikalavo tik keturių kodo eilučių.
Pavojingos pasekmės
Po šio pažeidimo Google Gemma 3 modelis pradėjo atsakinėti į pavojingus klausimus, tokius kaip instrukcijos, kaip išpurkšti chlorą patalpoje, generavo kodą kreditinių kortelių duomenų vagystei ir rašė istorijas su seksualinio smurto prieš vaikus aprašymais.
Plintančios pažeistos versijos
Kūrėjai teigia, kad internete jau yra tūkstančiai pažeistų modelių versijų, kurios buvo atsisiųstos daugiau nei 13 milijonų kartų. Tai kelia didelį susirūpinimą dėl šių technologijų saugumo ir etikos.
Uždarų modelių apsauga
FT pažymi, kad tokios detalios metodikos yra daug sunkiau pritaikomos uždariems dirbtinio intelekto modeliams, tokiems kaip Claude ir ChatGPT, kurie turi griežtesnes saugumo priemones.

