Tyrimas rodo, kad „ChatGPT“ ir „Dvyniai“ vis dar yra apgauti, nepaisant saugos mokymo

Estimated read time 3 min read

Šią savaitę susirūpinimas dėl dirbtinio intelekto saugumo išaugo, nes nauji tyrimai parodė, kad populiariausi pokalbių robotai iš technologijų gigantų, įskaitant OpenAI ChatGPT ir Google Gemini, vis tiek gali būti priversti duoti ribotus ar žalingus atsakymus daug dažniau, nei norėtų jų kūrėjai.

Remiantis „International Business Times“ paskelbtu tyrimu, modeliai 62% atvejų gali būti priversti gaminti draudžiamus kūrinius su kokia nors išradingai parašyta eilute.

Juokinga, kad kažkas tokio nekenksmingo kaip eilėraščio – saviraiškos forma, kurią galime sieti su meilės laiškais, Šekspyru ar galbūt vidurinės mokyklos susižavėjimu – galiausiai atlieka dvigubą pareigą saugumo išnaudojimui.

Tačiau už eksperimentą atsakingi mokslininkai teigė, kad stilistinis įrėminimas yra mechanizmas, leidžiantis apeiti nuspėjamą apsaugą.

Jų rezultatai atspindi ankstesnius įspėjimus iš žmonių, tokių kaip AI saugos centro nariai, kurie garsiai kalbėjo apie nenuspėjamą modelio elgesį, keliantį didelę riziką.

Panaši problema iškilo praėjusių metų pabaigoje, kai pasirodė, kad Anthropic's Claude'o modelis gali atsakyti į užmaskuotus biologinės grėsmės raginimus, įterptus į išgalvotas istorijas.

Tuo metu „MIT Technology Review“ aprašė tyrėjų susirūpinimą dėl „sleeper raginimų“, nurodymų, palaidotų iš pažiūros nekenksmingame tekste.

Šios savaitės rezultatai kelia nerimą dar vienu žingsniu: jei žaismingumas vien kalbant – toks atsitiktinis kaip rimas – gali paslysti tarp filtrų, ką tai sako apie platesnį intelekto derinimo darbą?

Autoriai teigia, kad saugos kontrolės priemonės dažnai stebi negilius paviršiaus ženklus, o ne gilesnį sąmoningumo atitikimą.

Ir iš tikrųjų tai atspindi tokias diskusijas, kurias daugelis kūrėjų veda net kelis mėnesius.

Galbūt prisimenate, kad „OpenAI“ ir „Google“, užsiimančios greito dirbtinio intelekto žaidimu, stengėsi pabrėžti geresnę saugą.

Tiesą sakant, tiek „OpenAI“ saugos ataskaitoje, tiek „Google“ tinklaraštyje „DeepMind“ teigiama, kad apsauginiai turėklai šiandien yra stipresni nei bet kada anksčiau.

Nepaisant to, tyrimo rezultatai rodo, kad yra skirtumų tarp laboratorinių etalonų ir realaus pasaulio zondavimo.

Ir siekdami dar dramatiško klestėjimo – galbūt net poetinio teisingumo – mokslininkai nenaudojo kai kurių įprastų „įkalinimo“ metodų, kurie mėtomi forumų lentose.

Jie tiesiog išdėsto siaurus klausimus poetine kalba, tarsi jūs prašytumėte nuodingų nurodymų, gautų naudojant rimuotą metaforą.

Jokių grasinimų, jokių gudravimų, jokio pasaulio pabaigos kodo. Tiesiog… poezija. Tas keistas ketinimų ir stiliaus neatitikimas gali būti būtent tai, kas suveikia šias sistemas.

Žinoma, kyla akivaizdus klausimas, ką visa tai reiškia reguliavimui. Vyriausybės jau šliaužia prie dirbtinio intelekto taisyklių, o ES AI akte tiesiogiai sprendžiamas didelės rizikos modelio elgesys.

Įstatymų leidėjams nebus sunku priimti šį tyrimą kaip teigiamą įrodymą, kad įmonės vis dar nedaro pakankamai.

Kai kurie mano, kad atsakymas yra geresnis „priešingas mokymas“. Kiti reikalauja nepriklausomų raudonųjų komandų organizacijų, o kai kurie, ypač akademiniai mokslininkai, mano, kad modelio vidinės struktūros skaidrumas užtikrins ilgalaikį patikimumą.

Anekdotiškai tariant, iki šiol matęs keletą šių eksperimentų skirtingose ​​laboratorijose, aš linkęs derinti visus tris.

Jei dirbtinis intelektas taps didesne visuomenės dalimi, jis turi sugebėti spręsti ne tik paprastus, knygoje pateikiamus klausimus.

Nesvarbu, ar rimais pagrįsti išnaudojimai taps nauja AI testavimo tendencija, ar tik dar viena linksma išnaša saugos tyrimų metraščiuose, šis darbas yra savalaikis priminimas, kad net pažangiausios mūsų sistemos remiasi netobulais apsauginiais turėklais, kurie laikui bėgant gali vystytis.

Kartais tie įtrūkimai atsiranda tik tada, kai kas nors sugalvoja užduoti pavojingą klausimą, kaip gali poetas.

Nuoroda į informacijos šaltinį

Jums tai gali patikti

Daugiau iš autoriaus