Nuo EVO 1 iki EVO 2: kaip nvidija iš naujo apibrėžia genomo tyrimus ir AI skatinamas biologines naujoves

Estimated read time 6 min read

Įsivaizduokite pasaulį, kuriame galėtume numatyti gyvenimo elgesį tik analizuodami raidžių seką. Tai nėra mokslinė fantastika ar stebuklingas pasaulis, o tikras pasaulis, kuriame mokslininkai stengėsi pasiekti šį tikslą metų metus. Šiose sekose, sudarytose iš keturių nukleotidų (A, T, C ir G), yra pagrindinės gyvybės žemėje nurodymai, pradedant nuo mažiausio mikrobo iki didžiausio žinduolio. Šių sekų dekodavimas gali atrakinti sudėtingus biologinius procesus, keičiant tokias sritis kaip individualizuota medicina ir aplinkos tvarumas.

Nepaisant šio didžiulio potencialo, dekodavimas net ir paprasčiausi mikrobų genomai yra labai sudėtinga užduotis. Šiuos genomus sudaro milijonai DNR bazinių porų, kurios reguliuoja DNR, RNR ir baltymų sąveiką – tris pagrindinius molekulinės biologijos centrinės dogmos elementus. Šis sudėtingumas egzistuoja keliais lygmenimis, pradedant atskiromis molekulėmis ir baigiant visais genomais, sukuriant didžiulį genetinės informacijos lauką, kuris išsivystė per milijardus metų.

Tradicinės skaičiavimo priemonės stengėsi sutvarkyti biologinių sekų sudėtingumą. Tačiau padidėjus generatyviniam AI, dabar įmanoma padidinti trilijonus sekų ir suprasti sudėtingus ryšius tarp žetonų sekų. Remdamiesi šia pažanga, ARC instituto, Stanfordo universiteto ir NVIDIA tyrėjai dirbo kuriant AI sistemą, kuri galėtų suprasti biologines sekas, tokias kaip didelių kalbos modeliai, supranta žmogaus tekstą. Dabar jie sukūrė novatorišką vystymąsi, sukurdami modelį, kuris atspindi tiek centrinės dogmos multimodalinį pobūdį, tiek evoliucijos sudėtingumą. Ši naujovė gali paskatinti numatyti ir suprojektuoti naujas biologines sekas, pradedant atskiromis molekulėmis ir baigiant visais genomais. Šiame straipsnyje mes ištirsime, kaip veikia ši technologija, jos galimas pritaikymas, iššūkiai, su kuriais susiduria, ir genomo modeliavimo ateitį.

EVO 1: novatoriškas genomo modeliavimo modelis

Šis tyrimas sulaukė dėmesio 2024 m. Pabaigoje, kai NVIDIA ir jo bendradarbiai pristatė EVO 1 – novatorišką modelį, skirtą analizuoti ir generuoti biologines sekas DNR, RNR ir baltymuose. Išmokytas 2,7 mln. Prokariotinių ir fagų genomų, iš viso 300 milijardų nukleotidų žetonų, modelis buvo nukreiptas į molekulinės biologijos centrinės dogmos integravimą, modeliuojant genetinės informacijos srautą iš DNR į RNR į baltymus. Jos dryžuotahyena architektūra, hibridinis modelis, naudojant konvoliucinius filtrus ir vartus, efektyviai tvarkė ilgus kontekstus iki 131 072 žetonų. Šis dizainas leido EVO 1 susieti nedidelius sekos pokyčius su platesniu visos sistemos ir organizmo lygio efektais, užpildant atotrūkį tarp molekulinės biologijos ir evoliucijos genomikos.

EVO 1 buvo pirmasis žingsnis modeliuojant biologinę evoliuciją. Tai sėkmingai numatė molekulinę sąveiką ir genetinius pokyčius analizuodama genetinių sekų evoliucijos modelius. Tačiau kadangi mokslininkai siekė jį pritaikyti sudėtingesniams eukariotų genomams, modelio apribojimai tapo aiškūs. „Evo 1“ kovojo su vieno nukleotidų skiriamąja geba per ilgas DNR sekas ir buvo skaičiuojant brangiai didesniems genomams. Šie iššūkiai lėmė, kad reikia sudėtingesnio modelio, galinčio integruoti biologinius duomenis per kelias skales.

EVO 2: Pagrindinis genomo modeliavimo modelis

Remdamiesi „EVO-1“ pamokomis, tyrėjai 2025 m. Vasario mėn. Pradėjo „EVO 2“, tobulindami biologinės sekos modeliavimo sritį. Modelis, išmokęs stulbinančias 9,3 trilijono DNR bazinių porų, išmoko suprasti ir numatyti genetinių pokyčių funkcines pasekmes visose gyvenimo srityse, įskaitant bakterijas, archaea, augalus, grybelius ir gyvūnus. Turėdamas daugiau nei 40 milijardų parametrų, „Evo-2“ modelis gali valdyti precedento neturintį sekos ilgį iki 1 milijono bazinių porų, to, ko ankstesni modeliai, įskaitant EVO-1, negalėjo valdyti.

Išskyrus „EVO 2“, išskyrus jo pirmtakus, yra jo sugebėjimas modeliuoti ne tik DNR sekas, bet ir DNR, RNR ir baltymų sąveiką – visą molekulinės biologijos centrinę dogmą. Tai leidžia „EVO 2“ tiksliai numatyti genetinių mutacijų poveikį, pradedant nuo mažiausių nukleotidų pokyčių iki didesnių struktūrinių variacijų, būdais, kurių anksčiau buvo neįmanoma.

Pagrindinė „Evo 2“ bruožas yra stipri nulinio šūvio numatymo galimybė, leidžianti numatyti mutacijų funkcinį poveikį nereikalaujant konkrečios užduoties derinimo. Pavyzdžiui, jis tiksliai klasifikuoja kliniškai reikšmingus BRCA1 variantus, esminį krūties vėžio tyrimų veiksnį, analizuojant vien DNR sekas.

Galimas pritaikymas biomolekuliniuose moksluose

„Evo 2“ galimybės atveria naujas genomikos, molekulinės biologijos ir biotechnologijų ribas. Kai kurios perspektyviausios programos apima:

  • Sveikatos priežiūra ir narkotikų atradimas: EVO 2 gali numatyti, kurie genų variantai yra susiję su specifinėmis ligomis, padedančiomis vystytis tiksliniam gydymui. Pavyzdžiui, atliekant testus su su krūties vėžiu susijusio geno BRCA1 variantais, EVO 2 pasiekė daugiau nei 90% tikslumą numatant, kurios mutacijos yra gerybinės, palyginti su potencialiai patogeniškomis. Tokios įžvalgos galėtų pagreitinti naujų vaistų kūrimą ir individualizuotą gydymą. ​
  • Sintetinė biologija ir genetinė inžinerija: EVO 2 gebėjimas generuoti ištisus genomus atveria naujus būdus projektuojant sintetinius organizmus su norimais bruožais. Tyrėjai gali naudoti „Evo 2“ inžinerijos genams, turinčioms specifines funkcijas, tobulindami biokurą, ekologiškus chemikalus ir naujus terapinius vaistus.
  • Žemės ūkio biotechnologijos: Jis gali būti naudojamas kuriant genetiškai modifikuotus augalus, turinčius patobulintus bruožus, tokius kaip atsparumas sausrai ar atsparumas kenkėjams, prisidedant prie pasaulinio maisto saugumo ir žemės ūkio tvarumo.
  • Aplinkos mokslas: „EVO 2“ gali būti pritaikytas projektuojant biokurą ar inžinierių baltymus, kurie suskaido aplinkos teršalus, tokius kaip nafta ar plastikas, ir prisideda prie tvarumo pastangų.

Iššūkiai ir ateities kryptys

Nepaisant įspūdingų galimybių, „Evo 2“ susiduria su iššūkiais. Viena pagrindinių kliūčių yra skaičiavimo sudėtingumas, susijęs su modelio mokymu ir vykdymu. EVO 2, turint 1 milijono bazinių porų ir 40 milijardų parametrų konteksto langą, reikalauja reikšmingų skaičiavimo išteklių, kad būtų galima efektyviai veikti. Dėl to mažesnėms tyrimų komandoms sunku visiškai išnaudoti savo galimybes, neturėdamas galimybės naudotis aukštos kokybės skaičiavimo infrastruktūra.

Be to, nors „EVO 2“ išsiskiria prognozuojant genetinių mutacijų poveikį, vis dar reikia daug sužinoti, kaip jį naudoti kuriant naujas biologines sistemas nuo nulio. Realistiškų biologinių sekų generavimas yra tik pirmasis žingsnis; Tikrasis iššūkis yra supratimas, kaip panaudoti šią galią kuriant funkcines, tvarias biologines sistemas.

AI prieinamumas ir demokratizavimas genomikoje

Vienas įdomiausių „EVO 2“ aspektų yra jo atvirojo kodo prieinamumas. Norėdami demokratizuoti prieigą prie pažangių genomo modeliavimo priemonių, NVIDIA viešai prieinami modelio parametrai, mokymo kodas ir duomenų rinkiniai. Šis atviros prieigos požiūris leidžia iš viso pasaulio tyrėjams ištirti ir plėsti „Evo 2“ galimybes, spartinant naujoves visoje mokslo bendruomenėje.

Esmė

„Evo 2“ yra reikšmingas tobulinimas modeliuojant genominį modelį, naudojant AI, kad iššifruotų sudėtingą genetinę gyvenimo kalbą. Jos gebėjimas modeliuoti DNR sekas ir jų sąveiką su RNR ir baltymais atveria naujas sveikatos priežiūros, vaistų atradimo, sintetinės biologijos ir aplinkos mokslo galimybes. „Evo 2“ gali numatyti genetines mutacijas ir suprojektuoti naujas biologines sekas, siūlančias individualizuotos medicinos transformacinį potencialą ir tvarius sprendimus. Tačiau jo skaičiavimo sudėtingumas kelia iššūkių, ypač mažesnėms tyrimų komandoms. Padarydama „EVO 2“ atvirojo kodo, „Nvidia“ suteikia galimybę tyrėjams visame pasaulyje ištirti ir išplėsti savo galimybes, skatinti naujoves genomikos ir biotechnologijose. Toliau tobulėjant technologijoms, ji turi galimybę pakeisti biologinių mokslų ir aplinkos tvarumo ateitį.


Source link

Jums tai gali patikti

Daugiau iš autoriaus