Naujas AI modelis Orion-100B treniruotas decentralizuotai visame pasaulyje

Orion-100B: naujas požiūris į AI modelių treniravimą

Macrocosmos, remdamasi Bittensor tinklu, pristatė Orion-100B – 100 mlrd. parametrų kalbos modelį, treniruotą naudojant geografiškai išsklaidytas Nvidia A100 GPU. Šis pasiekimas buvo įgyvendintas neturint milijardų dolerių vertės duomenų centro.

Decentralizuotos treniruotės privalumai

Jų sistema, vadinama IOTA, padalina modelį į daugelį mašinų naudojant 16 lygiagrečių etapų, skirtingai nei ankstesni decentralizuoti metodai, kurie dažnai reikalavo, kad kiekvienas dalyvis laikytų visą modelį. Rezultatas – daugiau nei 30% modelio FLOP panaudojimo ir apie 65% efektyvumo, palyginti su tradiciniu duomenų centru.

Techniniai iššūkiai ir pasiekimai

Macrocosmos susidūrė su rimtais techniniais iššūkiais: reikėjo sumažinti didžiulį tarpusavio GPU srautą, tvarkyti nestabilius mazgus, dirbti su nevienalyčiais aparatais ir išlaikyti treniravimo procesą decentralizuotame tinkle. Jų ResBM aktyvavimo suspaudimo technika sumažino srautą nuo 150MB iki 2.2MB per etapą.

Ekonomikos ir rinkos potencialas

Jei šis metodas pasiteisins, tai galėtų pakeisti AI treniravimo ekonomiją. Orion-100B modelis, treniruotas su išsklaidytomis A100 GPU, rodo, kad didelio masto AI treniravimas nebūtinai reikalauja vieno milijardo dolerių vertės GPU klasterio. Be to, Bittensor sluoksnis sukuria paskatų sistemą, leidžiančią GPU savininkams užsidirbti už skaičiavimo galios suteikimą, panašiai kaip Airbnb monetizuoja nenaudojamus kambarius.

Ateities perspektyvos

Decentralizuotas AI treniravimas dažnai buvo laikomas nepraktišku. Tačiau Orion-100B įrodo, kad ši idėja nusipelno daugiau dėmesio. Kitas etapas – leidimas dalyvauti vartotojų aparatūrai – bus tikrasis išbandymas. Jei tai pavyks, AI infrastruktūros žemėlapis gali tapti daug labiau išsklaidytas, nei daugelis tikėjosi.