Сапраўдны кошт DeepSeek, кітайскага чат-боту, што абваліў фондавы рынак ЗША, аказаўся зусім не такім
Сцвярджэнні распрацоўшчыкаў кітайскай нейрасеткі DeepSeek, што яе стварэнне заняло ўсяго два месяцы і абышлося ў 6 мільёнаў даляраў, істотна абвалілі акцыі ўсіх буйных заходніх тэхналагічных кампаній. Але гэты кошт «кітайскага забойцы ChatGPT» аказаўся вельмі заніжаным.
Кітайскі чат-бот DeepSeek, які перавярнуў свет штучнага інтэлекту, стаў прадметам дэталёвага аналізу ў новым дакладзе незалежнай даследчай кампаніі SemiAnalysis.
У справаздачы аспрэчваюцца сцвярджэнні распрацоўшчыкаў DeepSeek пра кошт стварэння і навучання іх мадэлі V3, а таксама вылічваюцца рэальныя выдаткі на распрацоўку падобнага ШІ на аснове як афіцыйных даных ад кітайскай кампаніі, так і агульнадаступнай інфармацыі аб актуальных цэнах эксплуатацыі аналагічных ШІ-мадэляў заходніх кампаній, піша навуковы партал Interesting Engineering.
«DeepSeek прадставіла сваю ШІ-мадэль V3 на бясплатнай аснове і з адкрытым зыходным кодам, заявіўшы, што на яе стварэнне і навучанне пайшло ўсяго два месяцы і менш як $6 млн. Але гэтая лічба ў асноўным улічвае толькі выдаткі на падрыхтоўку GPU (графічных працэсараў), але не бярэ ва ўвагу інвестыцыі ў даследаванні і распрацоўкі, стварэнне і падтрымку астатняй інфраструктуры і іншыя крытычныя выдаткі.
Фактычныя выдаткі DeepSeek значна большыя. Па нашых даных, агульныя капітальныя выдаткі кітайскай кампаніі на серверы дасягаюць уражальных $1,3 мільярда. Большая частка гэтых сродкаў накіравана на эксплуатацыю і абслугоўванне шырокіх GPU-кластараў, якія з'яўляюцца асновай вылічальнай магутнасці нейрасеткі», — адзначаецца ў дакладзе SemiAnalysis.
Гэта даражэй за кошт стварэння і навучання ChatGPT, якое каштуе каля $1 мільярда. Галоўнае адрозненне ад кітайскай DeepSeek у тым, што ChatGPT для эксплуатацыі і абслугоўвання ўласных сервераў выкарыстоўвае дата-цэнтры і іншую інфраструктуру кампаній Microsoft, Oracle і SoftBank (але пераважна Microsoft), у той час як кітайская кампанія будуе і забяспечвае сваю ўласную інфраструктуру, дадаткова сутыкаючыся з наступствамі тэхналагічных санкцый Захаду супраць Кітая.
DeepSeek, паводле справаздачы SemiAnalysis, мае доступ прыкладна да 50 тысяч графічных працэсараў пакалення Hopper ад кампаніі Nvidia, сярод якіх ёсць магутныя працэсары версій H100 і H800, а таксама H20 — спецыяльнай версіі ад Nvidia для кітайскага рынку, распрацаваную ў адказ на абмежаванні з боку ЗША на тэхналагічны экспарт.
Для параўнання, ChatGPT-4 (які быў выпушчаны ў 2023 годзе) выкарыстоўваў ад 20 да 25 тысяч яшчэ менш дасканалых працэсараў A100 (таксама Nvidia), але цяпер кампанія OpenAI набліжаецца да паказчыка ў 100 тысяч працэсараў Nvidia GB200 (лепшыя за ўсе вышэйпералічаныя).
Пры гэтым, як адзначае SemiAnalysis, кітайскі DeepSeek, нягледзячы на вялікі кошт утрымання інфраструктуры, дэманструе параўнальныя з апошнімі версіямі ChatGPT дакладнасць адказаў і магчымасці да разважанняў. А валоданне ўласнымі серверамі можа даць DeepSeek перавагу ў стабільнасці працы яе мадэлі і большую гнуткасць у скарачэнні выдаткаў у будучыні.
Каментары