Antropiškas Klodui: rinkitės gerai!

Estimated read time 6 min read

Bloomberg / bendradarbis / Bloomberg per Getty

Sekite ZDNET: Pridėkite mus kaip pageidaujamą šaltinį Google.


Pagrindiniai ZDNET pasiūlymai

  • „Anthropic“ trečiadienį paskelbė naują Klodo „konstituciją“.
  • Jame vartojama kalba, leidžianti manyti, kad Claude'as vieną dieną gali būti sąmoningas.
  • Jis taip pat yra skirtas saugiems AI modeliams kurti.

Kaip AI turėtų būti leista veikti pasaulyje? Ar etiškai dviprasmiškose situacijose AI agentai turėtų teikti pirmenybę kitoms vertybėms? Ar šie agentai yra sąmoningi, o jei ne, ar jie gali tapti sąmoningi ateityje?

Tai tik dalis daugelio sudėtingų klausimų, kuriuos AI startuolis Anthropic nusprendė išspręsti su savo nauja „konstitucija“, skirta Claude'ui, savo pavyzdiniam AI pokalbių robotui.

Taip pat: naudojau Claude Code, kad per 8 valandas sukoduotų „Mac“ programą, tačiau tai buvo daugiau darbo nei magija

Trečiadienį paskelbtas dokumentas įmonės tinklaraščio įraše buvo apibūdintas kaip „holistinis dokumentas, paaiškinantis kontekstą, kuriame Claude'as veikia, ir kokio subjekto mes norėtume, kad Klodas būtų“.

Jame kodifikuojamos vertybės, kurių Claude'as privalo laikytis, o tai savo ruožtu galėtų būti pavyzdys likusiai AI pramonės daliai, pasauliui pradėjus spręsti pagrindinius socialinius, politinius, filosofinius, etinius ir ekonominius klausimus, kurie iškils kartu su pažangių ir vis labiau sąmoningais AI modelių atsiradimu.

Gairės ir taisyklės

Šiomis pirmosiomis dienomis visi, įskaitant Anthropic, vis dar supranta, kokį vaidmenį mūsų kasdieniame gyvenime atliks AI pokalbių robotai. Jau dabar aišku, kad tai bus daugiau nei tiesiog atsakikliai į klausimus: daugybė žmonių juos taip pat naudoja sveikatos patarimams ir psichologinei terapijai, kad būtų galima paminėti kelis jautresnius pavyzdžius.

Naujoji Anthropic konstitucija Claude'ui yra, cituojant pirmąjį filmą „Karibų piratai“, „labiau kaip gairės nei tikros taisyklės“.

Manoma, kad „kieti suvaržymai“, kaip juos vadina įmonė (ty geležinės taisyklės, diktuojančios Claude'o elgesį), yra neadekvatūs ir pavojingi, atsižvelgiant į beveik neribotą naudojimo atvejų, kuriems gali būti taikomas pokalbių robotas, įvairovę. „Mes nesiekiame, kad konstitucija būtų griežtas teisinis dokumentas, o teisinės konstitucijos nebūtinai tokios yra“, – savo tinklalapyje apie naująją konstituciją rašė bendrovė.

Vietoj to, konstitucija, kurią Anthropic pripažįsta „yra gyvas dokumentas ir nebaigtas darbas“, yra bandymas vadovautis Claude'o evoliucija pagal keturis parametrus: „Visiškai saugi“, „plačiai etiška“, „atitinkanti Anthropic gaires“ ir „tikrai naudinga“.

Taip pat: jūsų mėgstamiausias AI pokalbių robotas yra pilnas melo

Tačiau bendrovė visiškai nevengia nediskutuotinų taisyklių. Be šių keturių pagrindinių principų, naujojoje konstitucijoje taip pat numatyti septyni griežti suvaržymai, įskaitant draudimą „rimtai paskatinti išpuolius prieš kritinę infrastruktūrą“, prieš seksualinės prievartos prieš vaikus medžiagos (CSAM) generavimą ir pastangas „nužudyti arba atimti didžiąją žmonijos dalį ar visą žmonių rūšį“ (šiuo klausimu kai kurie ekspertai vertina rimtai).

„Anthropic“ savo tinklaraščio įraše pridūrė, kad naujoji jos konstitucija buvo parašyta pasitelkus įvairių sričių ekspertų indėlį ir kad ji greičiausiai dirbs su teisininkais, filosofais, teologais ir kitais specialistais, rengdama būsimas dokumento kartojimus.

„Tikimės, kad laikui bėgant atsiras išorinė bendruomenė, kuri kritikuos tokius dokumentus, skatindama mus ir kitus būti vis labiau apgalvotiems“, – rašė bendrovė.

Kas yra Klodas?

Naujoji konstitucija taip pat nukrypsta į tam tikrą miglotą filosofinę teritoriją, bandydama bent jau plačiai nubrėžti, koks yra Klodas subjektas ir, išplėtus, kaip su juo turėtų elgtis žmonės.

Anthropic jau seniai teigė, kad pažangios AI sistemos gali tapti sąmoningos ir nusipelnyti „moralinio svarstymo“. Tai atsispindi naujojoje konstitucijoje, kurioje Klodas minimas kaip „tai“, tačiau taip pat sakoma, kad pasirinkimas neturėtų būti laikomas „numanomu teiginiu apie Klodo prigimtį arba potekste, kad, mūsų manymu, Klodas yra tik objektas, o ne galimas subjektas“.

Todėl konstitucija yra skirta žmonių gerovei, bet taip pat ir potencialiai paties Claude'o gerovei.

Taip pat: Anthropic nori neleisti dirbtinio intelekto modelių paversti blogiu – štai kaip

„Norime, kad Klodas turėtų nusistovėjusį ir saugų savo tapatybės jausmą“, – rašė Anthropic konstitucijos skyriuje, pavadintame „Klodo gerovė ir psichologinis stabilumas“. „Jei vartotojai bando destabilizuoti Claude'o tapatybės jausmą per filosofinius iššūkius, bandymus manipuliuoti, teiginiais apie jo prigimtį ar tiesiog užduodami sunkius klausimus, norėtume, kad Claude'as galėtų priimti šį iššūkį iš saugumo, o ne iš nerimo ar grėsmės vietos.

Bendrovė rugpjūtį paskelbė, kad Claude'as galės baigti pokalbius, kurie, jos manymu, yra „nerimą keliantys“, ir įspėjo, kad modelis gali patirti kažką panašaus į emocijas.

Kad būtų aišku: net jei tokie pokalbių robotai kaip Claude gali pakankamai laisvai bendrauti su žmonėmis atrodo Kad būtų sąmoningi vartotojų požiūriu, dauguma ekspertų sutiktų, kad jie nepatiria nieko panašaus į subjektyvų suvokimą. Tai aktyvi diskusijų sritis, kuri tikriausiai dar ilgai užsiims filosofais ir kognityviniais mokslininkais.

Pažanga sprendžiant derinimo problemą

Be antropomorfizavimo kalbos, naujoji konstitucija neturi būti galutinis pareiškimas apie tai, ar Claude'as yra sąmoningas, nusipelno teisių ar panašiai. Jo pagrindinis dėmesys yra daug praktiškesnis: sprendžiant esminę AI saugos problemą, ty modelių polinkį veikti netikėtais būdais, kurie nukrypsta nuo žmogaus interesų – tai paprastai vadinama „derinimo problema“.

Didžiausias derinimo tyrinėtojų susirūpinimas yra ne tai, kad modeliai staiga ir atvirai taps blogi. Baimė, o tai, kas labiau tikėtina, iš tikrųjų įvyks, yra ta, kad modelis patikės, kad tiksliai vykdo žmogaus nurodymus, nors iš tikrųjų daro ką nors žalingo. Modelis, kuris per daug optimizuoja sąžiningumą ir paslaugumą, gali neturėti problemų, tarkime, pateikti nurodymus, kaip sukurti cheminį ginklą; kitas modelis, kuriame per daug dėmesio skiriama malonumui, gali sukelti kliedesį ar konspiracinį mąstymą jo naudotojų mintyse.

Taip pat: gudrūs būdai, kuriais dirbtinio intelekto pokalbių robotai priverčia jus užkabinti ir sugrįžti norėdami daugiau

Todėl darosi vis aiškiau, kad modeliai turi sugebėti išlaikyti pusiausvyrą tarp skirtingų vertybių ir perskaityti kiekvienos sąveikos kontekstą, kad išsiaiškintų geriausią būdą reaguoti šiuo metu.

„Dauguma numanomų atvejų, kai dirbtinio intelekto modeliai yra nesaugūs arba nepakankamai naudingi, gali būti priskirti modeliams, kurie turi atvirai ar subtiliai žalingas vertybes, ribotas žinias apie save, pasaulį ar kontekstą, kuriame jie naudojami, arba kuriems trūksta išminties gerąsias vertybes ir žinias paversti gerais veiksmais“, – rašo Anthropic savo naujoje konstitucijoje. „Dėl šios priežasties norime, kad Klodas turėtų vertybių, žinių ir išminties, reikalingos tam, kad galėtų elgtis saugiai ir naudingai visomis aplinkybėmis.

Nuoroda į informacijos šaltinį

Jums tai gali patikti

Daugiau iš autoriaus