Orion-100B: naujas požiūris į AI modelių treniravimą
Macrocosmos, remdamasi Bittensor tinklu, pristatė Orion-100B – 100 mlrd. parametrų kalbos modelį, treniruotą naudojant geografiškai išsklaidytas Nvidia A100 GPU. Šis pasiekimas buvo įgyvendintas neturint milijardų dolerių vertės duomenų centro.
Decentralizuotos treniruotės privalumai
Jų sistema, vadinama IOTA, padalina modelį į daugelį mašinų naudojant 16 lygiagrečių etapų, skirtingai nei ankstesni decentralizuoti metodai, kurie dažnai reikalavo, kad kiekvienas dalyvis laikytų visą modelį. Rezultatas – daugiau nei 30% modelio FLOP panaudojimo ir apie 65% efektyvumo, palyginti su tradiciniu duomenų centru.
Techniniai iššūkiai ir pasiekimai
Macrocosmos susidūrė su rimtais techniniais iššūkiais: reikėjo sumažinti didžiulį tarpusavio GPU srautą, tvarkyti nestabilius mazgus, dirbti su nevienalyčiais aparatais ir išlaikyti treniravimo procesą decentralizuotame tinkle. Jų ResBM aktyvavimo suspaudimo technika sumažino srautą nuo 150MB iki 2.2MB per etapą.
Ekonomikos ir rinkos potencialas
Jei šis metodas pasiteisins, tai galėtų pakeisti AI treniravimo ekonomiją. Orion-100B modelis, treniruotas su išsklaidytomis A100 GPU, rodo, kad didelio masto AI treniravimas nebūtinai reikalauja vieno milijardo dolerių vertės GPU klasterio. Be to, Bittensor sluoksnis sukuria paskatų sistemą, leidžiančią GPU savininkams užsidirbti už skaičiavimo galios suteikimą, panašiai kaip Airbnb monetizuoja nenaudojamus kambarius.
Ateities perspektyvos
Decentralizuotas AI treniravimas dažnai buvo laikomas nepraktišku. Tačiau Orion-100B įrodo, kad ši idėja nusipelno daugiau dėmesio. Kitas etapas – leidimas dalyvauti vartotojų aparatūrai – bus tikrasis išbandymas. Jei tai pavyks, AI infrastruktūros žemėlapis gali tapti daug labiau išsklaidytas, nei daugelis tikėjosi.

