Sekite ZDNET: Pridėkite mus kaip pageidaujamą šaltinį Google.
Pagrindiniai ZDNET pasiūlymai
- Ši programa užtikrina, kad vartotojai gali perkelti AI darbo krūvius iš vieno „Kubernetes“ paskirstymo į kitą.
- „Kubernetes“ pagaliau palaikys grįžimą į veikiančią grupę, jei kas nors negerai.
- Keletas kitų patobulinimų padarys „Kubernetes“ dar patogesnę dirbtinio intelekto darbo krūviams.
Daugiau nei prieš dešimtmetį buvo daug alternatyvų Kubernetes konteinerių orkestravimui. Šiandien, nebent ilgą laiką naudojote debesų kompiuteriją, jums būtų sunku pavadinti bet kurį iš jų. Taip yra todėl, kad „Kubernetes“ buvo neabejotinai geriausias pasirinkimas.
Tuomet „Docker“ dėka konteineriai buvo populiariausia nauja technologija. Pasukite dešimtmetį į priekį, o technologija, kurią sukūrė visi, yra AI. Tuo tikslu „Cloud Native Computing Foundation“ (CNCF) „KubeCon North America 2025“ Atlantoje pristatė sertifikuotą Kubernetes AI atitikties programą (CKACP) kaip standartizuotą AI darbo krūvio Kubernetes klasteriuose diegimo būdą.
Saugi, universali platforma dirbtinio intelekto darbo krūviams
CKACP tikslas – sukurti bendruomenės apibrėžtus atvirus standartus, skirtus nuosekliai ir patikimai vykdyti AI darbo krūvius įvairiose Kubernetes aplinkose.
Taip pat: Kodėl net JAV technologijų milžinas dabar pradeda „suverenią paramą“ Europai
CNCF CTO Chrisas Aniszczykas sakė: „Ši atitikties programa sukurs bendrus kriterijus, kurie užtikrins, kad dirbtinio intelekto darbo krūviai būtų nuspėjami įvairiose aplinkose. Ji remiasi tuo pačiu sėkmingu bendruomenės pagrindu vykdomu procesu, kurį naudojome su Kubernetes, kad padėtų užtikrinti nuoseklumą daugiau nei 100 Kubernetes sistemų kaip AI pritaikymo skalės.
Konkrečiai, iniciatyva skirta:
- Užtikrinkite dirbtinio intelekto ir mašininio mokymosi (ML) darbo krūvių perkeliamumą ir suderinamumą viešuosiuose debesyse, privačioje infrastruktūroje ir hibridinėse aplinkose, kad organizacijos galėtų išvengti tiekėjo blokavimo perkeldamos dirbtinio intelekto darbo krūvius ten, kur reikia.
- Sumažinkite susiskaidymą nustatydami bendrų galimybių ir konfigūracijų, kurias platformos turi palaikyti, bazę, kad įmonėms būtų lengviau saugiai pritaikyti ir keisti AI sistemoje Kubernetes.
- Suteikite pardavėjams ir atvirojo kodo bendradarbiams aiškų tikslą laikytis atitikties, kad užtikrintumėte, jog jų technologijos veiktų kartu ir paremtų gamybai paruoštą AI diegimą.
- Suteikite galutiniams vartotojams galimybę greitai diegti naujoves, užtikrindami, kad sertifikuotos platformos įdiegė geriausią išteklių valdymo, GPU integravimo ir pagrindinių AI infrastruktūros poreikių praktiką, kurią išbandė ir patvirtino CNCF.
- Puoselėkite patikimą, atvirą dirbtinio intelekto kūrimo ekosistemą, kurioje standartai leidžia efektyviai padidinti, optimizuoti ir valdyti AI darbo krūvius, kai naudojimas didėja įvairiose pramonės šakose.
Trumpai tariant, iniciatyva orientuota į tai, kad įmonėms ir tiekėjams būtų suteikta bendra, patikrinta sistema, užtikrinanti, kad AI veiktų patikimai, saugiai ir efektyviai bet kurioje sertifikuotoje Kubernetes platformoje.
Jei šis metodas skamba pažįstamas, taip turėtų būti, nes jis pagrįstas sėkminga CNCF sertifikuota Kubernetes atitikties programa. Dėl to 2017 m. plano ir susitarimo, jei nesate patenkintas, tarkime, Red Hat OpenShift, galite pasiimti konteinerinius darbo krūvius ir perkelti juos į Mirantis Kubernetes Engine arba „Amazon Elastic Kubernetes“ paslauga nesijaudindami dėl nesuderinamumo. Dėl šio perkeliamumo, savo ruožtu, „Kubernetes“ yra daugelio hibridinių debesų pagrindas.
Taip pat: kodavimas naudojant AI? Mano 5 geriausi patarimai, kaip patikrinti jo rezultatus ir išvengti problemų
Kadangi 58 % organizacijų jau naudoja AI darbo krūvį Kubernetes, tikimasi, kad naujoji CNCF programa žymiai supaprastins komandų DI diegimą, valdymą ir naujovių diegimą. Siūlydami bendrus testavimo kriterijus, etalonines architektūras ir patvirtintas GPU ir greitintuvo palaikymo integracijas, programa siekia padaryti AI infrastruktūrą tvirtesnę ir saugesnę kelių tiekėjų, kelių debesų aplinkoje.
Kaip Kubecon sakė Kubernetes ir GKE inžinerijos direktorius Jago Macleodas, „Google Cloud“ gavo Kubernetes AI atitikties sertifikatą, nes manome, kad nuoseklumas ir perkeliamumas yra būtini norint keisti AI. Anksti suderinę šį standartą, kūrėjams ir įmonėms palengviname DI infrastruktūros kūrimą be perkeliamų, perkeliamų DI infrastruktūros ir perkeliamumo. dislokavimas“.
„Kubernetes“ patobulinimų supratimas
Tai toli gražu nebuvo vienintelis dalykas, kurį Macleodas turėjo pasakyti apie Kuberneteso ateitį. „Google“ ir CNCF turi kitų planų, susijusių su rinkoje pirmaujančiu konteinerių orkestru. Pagrindiniai būsimi patobulinimai apima atšaukimo palaikymą, galimybę praleisti naujinimus ir naujus žemo lygio GPU ir kitos AI būdingos aparatinės įrangos valdiklius.
Savo pagrindinėje kalboje MacLeod paaiškino, kad pirmą kartą Kubernetes vartotojai dabar turi patikimą nedidelės versijos atkūrimo funkciją. Ši funkcija reiškia, kad grupes po naujovinimo galima saugiai grąžinti į žinomą gerą būseną. Ši galimybė užbaigia ilgalaikę „vienpusės gatvės“ problemą, susijusią su Kubernetes valdymo plokštumos atnaujinimu. Atšaukimas smarkiai sumažins svarbių naujų funkcijų ar skubių saugos pataisų įdiegimo riziką.
Be šio patobulinimo, Kubernetes vartotojai dabar gali praleisti konkrečius atnaujinimus. Šis metodas suteikia administratoriams daugiau lankstumo ir kontrolės planuojant versijų perkėlimą arba reaguojant į gamybos incidentus.
Be CKACP, „Kubernetes“ yra pertvarkoma taip, kad atitiktų AI darbo krūvio poreikius. Šis palaikymas reiškia, kad „Kubernetes“ suteiks vartotojams išsamią aparatinės įrangos, pvz., GPU, TPU ir pasirinktinių greitintuvų, valdymą. Ši galimybė taip pat atitinka didžiulę šiuolaikinės AI aparatinės įrangos įvairovę ir masto reikalavimus.
Taip pat: „SUSE Enterprise Linux 16“ yra čia, o jos žudikiška funkcija yra skaitmeninis suverenitetas
Be to, renginyje buvo paskelbtos naujos API ir atvirojo kodo funkcijos, įskaitant Agent Sandbox ir Multi-Tier Checkpointing. Šios funkcijos dar labiau paspartins išvadas, mokymą ir agentines AI operacijas grupėse. Tokios naujovės, kaip resursų paskirstymas mazgo lygiu, dinaminis GPU aprūpinimas ir AI aparatinės įrangos planavimo optimizavimas, tampa pagrindiniu tiek mokslininkų, tiek įmonių, valdančių kelių nuomininkų grupes, pagrindu.
Agent Sandbox yra atvirojo kodo sistema ir valdiklis, leidžiantis valdyti izoliuotas, saugias aplinkas, taip pat žinomas kaip smėlio dėžės, skirtas vykdyti būseną pavienius darbo krūvius, pvz., autonominius AI agentus, kodų interpretatorius ir kūrimo įrankius. Pagrindinės „Agent Sandbox“ savybės yra šios:
- Izoliacija ir saugumas: Kiekviena smėlio dėžė yra stipriai izoliuota tiek branduolio, tiek tinklo lygiu, naudojant tokias technologijas kaip gVisor arba Kata Containers, todėl saugu paleisti nepatikimą kodą (pvz., sugeneruotą didelių kalbų modelių) nepažeidžiant pagrindinės sistemos ar klasterio vientisumo.
- Deklaracinės API: vartotojai gali deklaruoti smėlio dėžės aplinkas ir šablonus naudodami vietinius „Kubernetes“ išteklius („Sandbox“, „SandboxTemplate“, „SandboxClaim“), kad būtų galima greitai ir pakartotinai kurti ir valdyti atskirus atvejus.
- Mastelis ir našumas: Agent Sandbox palaiko tūkstančius vienu metu veikiančių būseną turinčių smėlio dėžių su greitu aprūpinimu pagal pareikalavimą. Ši galimybė bus puiki dirbtinio intelekto agento darbo krūviams, kodo vykdymui ar nuolatinei kūrėjo aplinkai.
- Momentinė nuotrauka ir atkūrimas: „Google Kubernetes Engine“ (GKE) „Agent Sandbox“ gali naudoti „Pod Snapshots“, kad būtų galima greitai nustatyti tikrinimo tašką, užmigdyti ir akimirksniu atnaujinti, smarkiai sumažindama paleidimo delsą ir optimizuodama AI darbo krūvių išteklių naudojimą.
Šiandien Kubernetes kelių pakopų patikros taškas pirmiausia pasiekiamas GKE. Ateityje šis mechanizmas leis patikimai saugoti ir valdyti kontrolinius punktus treniruojant didelio masto ML modelius.
Taip pat: įmonės nėra pasirengusios kenkėjiškų AI agentų pasauliui
Štai trumpas eskizas, kaip veikia kelių pakopų kontrolinis taškas:
- Kelios saugojimo pakopos: Kontroliniai taškai pirmiausia saugomi greitoje vietinėje saugykloje (pvz., atmintyje arba vietiniame mazgo diske), kad būtų galima greitai pasiekti ir greitai atkurti.
- Replikacija tarp mazgų: Patikrinimo taško duomenys replikuojami į klasterio lygiaverčius mazgus, siekiant apsaugoti nuo mazgų gedimų.
- Nuolatinė debesies saugyklos atsarginė kopija: Periodiškai tikrinimo taškų atsarginės kopijos sukuriamos patvarioje saugykloje debesyje, kad būtų užtikrintas patikimas atsarginis gedimas visos grupės gedimų atveju arba tais atvejais, kai vietinės kopijos nepasiekiamos.
- Orkestruotas valdymas: Sistema automatizuoja kontrolinio taško išsaugojimą, replikavimą, atsarginių kopijų kūrimą ir atkūrimą, sumažindama rankinio įsikišimo treniruotės metu.
AL ir ML darbo krūvių pranašumas yra tas, kad kelių pakopų kontrolinis taškas leidžia greitai atnaujinti mokymą nuo paskutinio kontrolinio taško neprarandant reikšmingos pažangos. Mechanizmas taip pat užtikrina atsparumą gedimams, apsaugodamas mokymo darbus nuo dažnų pertrūkių, užtikrindamas, kad kontroliniai punktai būtų saugiai saugomi ir kartojami.
Be viso to, kelių pakopų tikrinimo taškas suteikia mastelio keitimo palaikydamas dideles paskirstytas mokymo užduotis, vykdomas tūkstančiuose mazgų. Galiausiai, ši funkcija, žinoma, veikia su visomis pagrindinėmis AI sistemomis, tokiomis kaip JAX ir PyTorch, ir integruojama su jų patikros mechanizmais.
Su atšaukimu, pasirinktiniu atnaujinimo praleidimu ir gamybinio lygio AI aparatinės įrangos valdymu, „Kubernetes“ yra pasirengęs aprūpinti reikliausias pasaulyje AI ir įmonių platformas. CNCF paleista Kubernetes AI atitikties programa dar labiau sustiprina ekosistemos vaidmenį nustatant suderinamumo, patikimumo ir našumo standartus artimiausioje debesų AI ateityje.
Taip pat: 6 pagrindinės taisyklės, kaip panaudoti AI programinės įrangos kūrimo procese – ir rizika Nr. 1
Pirmasis „Kubernetes“ dešimtmetis buvo susijęs su IT perkėlimu nuo pliko metalo ir virtualių mašinų (VM) į konteinerius. Ateinantį dešimtmetį nulems jos gebėjimas valdyti AI planetiniu mastu, užtikrinant saugumą, greitį ir lankstumą naujai darbo krūvių klasei.