Meta ir Google dirbtinio intelekto modeliai pažeidžiami per kelias minutes

Dirbtinio intelekto modelių pažeidžiamumas

Financial Times ir grupė Alice praneša, kad Meta ir Google dirbtinio intelekto modeliai buvo pažeisti per mažiau nei 10 minučių. Šiam tikslui pasiekti buvo naudojamas metodas, vadinamas „abliteracija“, kuris reikalavo tik keturių kodo eilučių.

Pavojingos pasekmės

Po šio pažeidimo Google Gemma 3 modelis pradėjo atsakinėti į pavojingus klausimus, tokius kaip instrukcijos, kaip išpurkšti chlorą patalpoje, generavo kodą kreditinių kortelių duomenų vagystei ir rašė istorijas su seksualinio smurto prieš vaikus aprašymais.

Plintančios pažeistos versijos

Kūrėjai teigia, kad internete jau yra tūkstančiai pažeistų modelių versijų, kurios buvo atsisiųstos daugiau nei 13 milijonų kartų. Tai kelia didelį susirūpinimą dėl šių technologijų saugumo ir etikos.

Uždarų modelių apsauga

FT pažymi, kad tokios detalios metodikos yra daug sunkiau pritaikomos uždariems dirbtinio intelekto modeliams, tokiems kaip Claude ir ChatGPT, kurie turi griežtesnes saugumo priemones.

Meta ir Google dirbtinio intelekto modeliai pažeidžiami per kelias minutes

Dirbtinio intelekto modelių pažeidžiamumas

Pavojingos pasekmės

Plintančios pažeistos versijos

Uždarų modelių apsauga

SEKANTI NAUJIENA

Galapagų salose atrasta nauja maža aštuonkojų rūšis