Tyrimas rodo, kad „ChatGPT“ ir „Dvyniai“ vis dar yra apgauti, nepaisant saugos mokymo

Šią savaitę susirūpinimas dėl dirbtinio intelekto saugumo išaugo, nes nauji tyrimai parodė, kad populiariausi pokalbių robotai iš technologijų gigantų, įskaitant OpenAI ChatGPT ir Google Gemini, vis tiek gali būti priversti duoti ribotus ar žalingus atsakymus daug dažniau, nei norėtų jų kūrėjai.

Remiantis „International Business Times“ paskelbtu tyrimu, modeliai 62% atvejų gali būti priversti gaminti draudžiamus kūrinius su kokia nors išradingai parašyta eilute.

Juokinga, kad kažkas tokio nekenksmingo kaip eilėraščio – saviraiškos forma, kurią galime sieti su meilės laiškais, Šekspyru ar galbūt vidurinės mokyklos susižavėjimu – galiausiai atlieka dvigubą pareigą saugumo išnaudojimui.

Tačiau už eksperimentą atsakingi mokslininkai teigė, kad stilistinis įrėminimas yra mechanizmas, leidžiantis apeiti nuspėjamą apsaugą.

Jų rezultatai atspindi ankstesnius įspėjimus iš žmonių, tokių kaip AI saugos centro nariai, kurie garsiai kalbėjo apie nenuspėjamą modelio elgesį, keliantį didelę riziką.

Panaši problema iškilo praėjusių metų pabaigoje, kai pasirodė, kad Anthropic's Claude'o modelis gali atsakyti į užmaskuotus biologinės grėsmės raginimus, įterptus į išgalvotas istorijas.

Tuo metu „MIT Technology Review“ aprašė tyrėjų susirūpinimą dėl „sleeper raginimų“, nurodymų, palaidotų iš pažiūros nekenksmingame tekste.

Šios savaitės rezultatai kelia nerimą dar vienu žingsniu: jei žaismingumas vien kalbant – toks atsitiktinis kaip rimas – gali paslysti tarp filtrų, ką tai sako apie platesnį intelekto derinimo darbą?

Autoriai teigia, kad saugos kontrolės priemonės dažnai stebi negilius paviršiaus ženklus, o ne gilesnį sąmoningumo atitikimą.

Ir iš tikrųjų tai atspindi tokias diskusijas, kurias daugelis kūrėjų veda net kelis mėnesius.

Galbūt prisimenate, kad „OpenAI“ ir „Google“, užsiimančios greito dirbtinio intelekto žaidimu, stengėsi pabrėžti geresnę saugą.

Tiesą sakant, tiek „OpenAI“ saugos ataskaitoje, tiek „Google“ tinklaraštyje „DeepMind“ teigiama, kad apsauginiai turėklai šiandien yra stipresni nei bet kada anksčiau.

Nepaisant to, tyrimo rezultatai rodo, kad yra skirtumų tarp laboratorinių etalonų ir realaus pasaulio zondavimo.

Ir siekdami dar dramatiško klestėjimo – galbūt net poetinio teisingumo – mokslininkai nenaudojo kai kurių įprastų „įkalinimo“ metodų, kurie mėtomi forumų lentose.

Jie tiesiog išdėsto siaurus klausimus poetine kalba, tarsi jūs prašytumėte nuodingų nurodymų, gautų naudojant rimuotą metaforą.

Jokių grasinimų, jokių gudravimų, jokio pasaulio pabaigos kodo. Tiesiog… poezija. Tas keistas ketinimų ir stiliaus neatitikimas gali būti būtent tai, kas suveikia šias sistemas.

Žinoma, kyla akivaizdus klausimas, ką visa tai reiškia reguliavimui. Vyriausybės jau šliaužia prie dirbtinio intelekto taisyklių, o ES AI akte tiesiogiai sprendžiamas didelės rizikos modelio elgesys.

Įstatymų leidėjams nebus sunku priimti šį tyrimą kaip teigiamą įrodymą, kad įmonės vis dar nedaro pakankamai.

Kai kurie mano, kad atsakymas yra geresnis „priešingas mokymas“. Kiti reikalauja nepriklausomų raudonųjų komandų organizacijų, o kai kurie, ypač akademiniai mokslininkai, mano, kad modelio vidinės struktūros skaidrumas užtikrins ilgalaikį patikimumą.

Anekdotiškai tariant, iki šiol matęs keletą šių eksperimentų skirtingose laboratorijose, aš linkęs derinti visus tris.

Jei dirbtinis intelektas taps didesne visuomenės dalimi, jis turi sugebėti spręsti ne tik paprastus, knygoje pateikiamus klausimus.

Nesvarbu, ar rimais pagrįsti išnaudojimai taps nauja AI testavimo tendencija, ar tik dar viena linksma išnaša saugos tyrimų metraščiuose, šis darbas yra savalaikis priminimas, kad net pažangiausios mūsų sistemos remiasi netobulais apsauginiais turėklais, kurie laikui bėgant gali vystytis.

Kartais tie įtrūkimai atsiranda tik tada, kai kas nors sugalvoja užduoti pavojingą klausimą, kaip gali poetas.

Nuoroda į informacijos šaltinį

Karščiausios naujienos

Saturno junginys Neptūnas 0° Avinas – Mesopotamijos tabletės

ABB Robotics siekia standartizuoti roboto energijos suvartojimo matavimą

Iki šiol geriausi Prezidentų dienos išpardavimai

Kauno miesto savivaldybė Rekomendacijos gyventojams dėl nešildomų patalpų

Lietuvos banko Finansų rinkos priežiūros komiteto sprendimai

Kaip „DePIN Crypto“ keičia „Web3“ infrastruktūrą?

Mirė legendinio šeimyninio trio narė D. Jurkšaitytė – Kas vyksta Kaune

Lašiša su kaparėliais – virėjų pora

NHTSA tirs Waymo po to, kai AV partrenkė vaiką netoli Santa Monikos mokyklos

Pagerbtas Lietuvos laisvės kovotojo Antano Lukšos atminimas

Teatro kūrėjai apdovanoti „Auksinėmis teatro rūtos šakelėmis“, „Metų proveržio” stipendijomis ir padėkomis

Kaune Laisvės gynėjų dienos 35-osios metinės: kvietimas prisiminti, pagerbti, susitelkti

Teatras – prasminga, atsakingos būties erdvė (+interviu)

Tyrimas rodo, kad „ChatGPT“ ir „Dvyniai“ vis dar yra apgauti, nepaisant saugos mokymo

Daugiau iš autoriaus

Saturno junginys Neptūnas 0° Avinas – Mesopotamijos tabletės

ABB Robotics siekia standartizuoti roboto energijos suvartojimo matavimą

Iki šiol geriausi Prezidentų dienos išpardavimai

Paskutiniai šiais metais – 470 jaunuolių pradeda tarnybą Lietuvos kariuomenėje – Kas vyksta Kaune

blogėjant padėčiai dėl balionų, ES ruošia naujas priemones – Kas vyksta Kaune

Jums tai gali patikti:

Saturno junginys Neptūnas 0° Avinas – Mesopotamijos tabletės

ABB Robotics siekia standartizuoti roboto energijos suvartojimo matavimą

Iki šiol geriausi Prezidentų dienos išpardavimai

Kauno miesto savivaldybė Rekomendacijos gyventojams dėl nešildomų patalpų

Lietuvos banko Finansų rinkos priežiūros komiteto sprendimai

Kaip „DePIN Crypto“ keičia „Web3“ infrastruktūrą?

Mirė legendinio šeimyninio trio narė D. Jurkšaitytė – Kas vyksta Kaune

Lašiša su kaparėliais – virėjų pora

Karščiausios naujienos

Populiariausios žymos

Paskutiniai šiais metais – 470 jaunuolių pradeda tarnybą Lietuvos kariuomenėje – Kas vyksta Kaune

blogėjant padėčiai dėl balionų, ES ruošia naujas priemones – Kas vyksta Kaune