Anthropic pristato Opus 4.8, kurio žudikas yra sąžiningumas

Estimated read time 5 min read

Primakovas/Shutterstock

Sekite ZDNET: Pridėkite mus kaip pageidaujamą šaltinį „Google“.


Pagrindiniai ZDNET pasiūlymai

  • Claude Opus 4.8 žada sąžiningesnius AI atsakymus.
  • Dinaminės darbo eigos gali paleisti šimtus Claude subagentų.
  • Greitasis režimas tampa pigesnis, o įprastos „Opus“ kainos išlieka.

Diogenas buvo ketvirto amžiaus prieš Kristų graikų filosofas, žinomas dėl savo performanso meno. Teigiama, kad jis vidury dienos klajojo Atėnų gatvėmis, nešinas uždegtu žibintu ir šaukė: „Ieškau sąžiningo žmogaus“. Jei šis mitas būtų modernizuotas iki šių dienų, mes visi ieškotume sąžiningo AI.

Anthropic skelbia ir išleidžia Claude Opus 4.8 – didelį kalbos modelį, kuris, jo nuomone, galėjo patenkinti Diogeno užduotį.

„Vienas ryškiausių Opus 4.8 patobulinimų yra jo sąžiningumas“, – ketvirtadienį tinklaraščio įraše teigė bendrovė.

Taip pat: jūsų Claude agentai gali „svajoti“ dabar – kaip veikia nauja Anthropic funkcija

Galbūt dabar šis naujas pasienio modelis elgsis geriau. „Anthropic“ praneša, kad „Opus 4.8“ mažiau pateiks nepagrįstų teiginių. Taip pat labiau tikėtina, kad jis jums pasakys, kai nėra tikras dėl atsakymo.

„Tai patvirtina mūsų vertinimai, kurie rodo, kad „Opus 4.8“ yra maždaug 4 kartus mažesnė nei jo pirmtako tikimybė, kad parašyto kodo trūkumai nepastebėtų“, – teigė bendrovė.

„Claude Code“ radau, kad „Opus 4.7“ yra esminis patobulinimas, palyginti su 4.6. Nors 4.6 dažnai neteisingai interpretuoja instrukcijas arba pateikia klaidingus rezultatus, Opus 4.7 nuolat man sako, kad tai, kaip ji pirmą kartą pažvelgė į problemą, neveikė ir imasi kitokios taktikos. Naujausios projektų užduotys parodė daug didesnį supratimą nei 4.6.

Taigi, atsižvelgiant į kokybės šuolį nuo 4,6 iki 4,7, kuris subjektyviai buvo gana pastebimas per daugelį seansų, tikiuosi, kad tą patį pamatysime ir peršokdami nuo 4,7 iki 4,8.

Taip pat: 5 mitai apie agentinę kodavimo apokalipsę

Atrodytų, taip yra, bent jau pasak Tomo Pritchardo, „Spotify“ personalo inžinieriaus, kuris jau išbandė „Opus 4.8“.

“Claude Opus 4.8 turi pastebimai geresnį mąstymą. Claude Code jis užduoda teisingus klausimus, pastebi savo klaidas, stumia atgal, kai planas nėra pagrįstas, ir ugdo pasitikėjimą dėl sudėtingų kelių paslaugų tyrinėjimų prieš atliekant didelius pakeitimus. Tai puikus modelis, pagal kurį galima kurti”, – sakė jis tinklaraščio įraše.

Tai bus malonu.

Pastangų reikalas

Claude'as Code'as turėjo galimybę dėti pastangas bent nuo 4.7 (bent jau tada aš tai pirmą kartą pastebėjau). Pastangos iš esmės yra matas, nurodantis, kiek dirbtinio intelekto spartos modelis išmeta problemą, matuojant žetonais.

„Opus 4.8“ Claude Code'o numatytoji didelės pastangos sukuria tai, ką, bendrovės teigimu, yra „geriausias bendras kokybės ir vartotojo patirties balansas“. Atliekant kodavimo užduotis, šis numatytasis žetonų skaičius išleidžiamas panašus į Claude Code Opus 4.7 siūlomą numatytąjį lygį, tačiau geresnis našumas.

Taip pat: Anthropic's Mythos vystosi greičiau nei tikėtasi, praneša AI saugos agentūra

Ši pastangų galimybė dabar perkeliama į Claude.ai ir Cowork. Su didesnių pastangų nustatymu Claude'as „galvos dažniau ir giliau“. Naudojant mažesnes pastangas, Claude'as reaguoja greičiau, o naudotojai pastebės, kad jų dirbtinio intelekto patirtis yra mažesnė.

Dinaminės darbo eigos

Paleidimo metu ši funkcija nebuvo visiškai apibrėžta, tačiau ji įdomi. Paleidžiama kaip tyrimo peržiūra, Opus 4.8 gali planuoti darbą, paleisti šimtus lygiagrečių subagentų per vieną seansą ir patikrinti rezultatus prieš pranešdama. Ši funkcija skirta labai didelio masto užduotims. Anthropic pateiktas pavyzdys buvo kodų bazės masto migravimas per šimtus tūkstančių eilučių.

Atrodo, kad Claude'as gali generuoti ir valdyti darbo eigą, kai užduotis vystosi. Užuot vykdydami fiksuotą planą, agentai gali keisti savo prioritetus ir užduotis pagal tai, ką randa dirbdami. Tai gali būti galinga.

Taip pat: naujasis Anthropic Claude Security įrankis nuskaito jūsų kodų bazę, ar nėra trūkumų, ir padeda nuspręsti, ką pirmiausia taisyti

Anthropic teigė, kad subagentai patikrina savo rezultatus prieš pranešdami vartotojams. Jei Claude'as koordinuoja šimtus antrinių agentų, vartotojai turi pastebėti netikrumą, blogas prielaidas ir nesėkmingus rezultatus.

Įdomu tai, kad tai tiesiogiai susiję su sąžiningumo teiginiais, aptartais straipsnio pradžioje. Jei Claude'as ketina paleisti „tūkstančius agentų“, labai svarbu gauti patikimus ir patikrintus rezultatus, nes žmogaus priežiūra niekaip negali neatsilikti nuo savęs.

Dinaminės darbo eigos galimybė bus prieinama Claude Code naudotojams, turintiems Enterprise, Team ir Max planus.

Kaina ir prieinamumas

„Anthropic“ teigė, kad „Claude Opus 4.8“ ketvirtadienį pasiekiamas visur per „Claude“ ir „Claude API“ kaip „claude-opus-4-8“.

Praktiškai, ypač jei naudojate Claude Code, galite pastebėti, kad turėsite iš naujo paleisti sesiją arba palaukti maždaug dieną, kol Claude Code tai pastebės. Kai Anthropic peršoko Opus 4.6 į 4.7, aš nuolat klausiau Claude Code, kokį modelį jis naudoja, ir tik kitą rytą jis nustojo pranešti apie Opus 4.6 ir pradėjo pranešti apie Opus 4.7.

Bendra kaina nepasikeitė nuo Opus 4.7. Įprasta žetonu pagrįsta kaina išlieka 5 USD už milijoną įvesties žetonų ir 25 USD už milijoną išvesties žetonų.

Taip pat: šis vykdytojas siūlo 4 būdus, kaip tapti sėkmingu novatoriumi agentinio AI amžiuje

Bendrovė teigė, kad greitasis režimas, leidžiantis modeliui dirbti 2,5 karto didesniu greičiu nei įprastas režimas, bus „tris kartus pigesnis nei ankstesni modeliai“. Nors neišlaidauju greitajam režimui, matau patrauklumą. Aš žiūrėjau a daug „YouTube“, valanda po valandos laukdami, kol Claude'as Code atsakys į raginimą.

Ar norėtumėte, kad Claude'as greičiau reaguotų įdėdamas mažiau pastangų, ar ilgiau galvotų su didesnėmis pastangomis? Praneškite mums toliau pateiktuose komentaruose.


Galite sekti mano kasdienius projekto atnaujinimus socialiniuose tinkluose. Būtinai užsiprenumeruokite mano savaitinį naujienlaiškį ir sekite mane Twitter/X adresu @DavidGewirtz„Facebook“ adresu Facebook.com/DavidGewirtz, „Instagram“ adresu Instagram.com/DavidGewirtz, „Bluesky“ adresu @DavidGewirtz.com ir „YouTube“ adresu YouTube.com/DavidGewirtzTV.

Nuoroda į informacijos šaltinį

Jums tai gali patikti

Daugiau iš autoriaus