Навчання моделі ШІ DeepSeek R1 обійшлося у $294K

Китайський розробник ШІ DeepSeek 18 вересня опублікував у журналі Nature детальні витрати на навчання своєї моделі міркування R1. Компанія витратила $294,000 на навчання моделі, використавши 512 GPU Nvidia H800 протягом 80 годин.
Компанія з Ханчжоу надала ці цифри у додаткових матеріалах до рецензованої статті. Процесори H800 — це модифіковані версії потужніших чипів Nvidia, створені спеціально для китайського ринку після того, як експортні обмеження США обмежили доступ до процесорів H100 і A100.
DeepSeek також повідомила, що володіє чипами A100, які використовувалися на підготовчих етапах до початку основного навчання R1 на кластері H800. Раніше посадовці США ставили під сумнів, як компанія отримала доступ до обладнання з обмеженим доступом. Nvidia заявляла, що DeepSeek придбала чипи H800 через легальні канали.
Стаття у Nature порушує тяглу дискусію щодо «дистиляції» — техніки, за якої моделі навчаються на інших системах ШІ. DeepSeek визнала, що навчальні дані для її моделі V3 містили вебсторінки з «значною кількістю відповідей, згенерованих моделями OpenAI». Компанія охарактеризувала це включення як випадкове, а не навмисне.
«Щодо наших досліджень DeepSeek-R1, ми використовували GPU A100 для підготовки до експериментів із меншою моделлю», — написали автори в додаткових матеріалах. Основне навчання R1 потім тривало загалом 80 годин на кластері H800.
Вартість навчання у $294,000 різко контрастує з показниками американських конкурентів. Генеральний директор OpenAI Сем Альтман заявляв, що навчання передових систем ШІ коштує набагато більше ніж $100 мільйонів, хоча його компанія не оприлюднювала конкретної деталізації бюджету.
Випуск R1 у січні спричинив помітну реакцію ринку: інвестори занепокоїлися, що дешевші конкуренти можуть кинути виклик усталеним компаніям зі ШІ. Детальне розкриття витрат дає перше офіційне уявлення про те, як DeepSeek досягла конкурентної продуктивності за частки від повідомлюваних у США бюджетів на навчання.
Рекомендуємо
