Обучение модели ИИ DeepSeek R1 обошлось в $294K

Китайский разработчик ИИ DeepSeek 18 сентября опубликовал в журнале Nature подробные расходы на обучение своей модели рассуждения R1. Компания потратила $294,000 на обучение модели, использовав 512 GPU Nvidia H800 в течение 80 часов.

Компания из Ханчжоу предоставила эти цифры в дополнительных материалах к рецензируемой статье. Процессоры H800 — это модифицированные версии более мощных чипов Nvidia, созданные специально для китайского рынка после того, как экспортные ограничения США ограничили доступ к процессорам H100 и A100.

DeepSeek также сообщила, что владеет чипами A100, которые использовались на подготовительных этапах до начала основного обучения R1 на кластере H800. Ранее официальные лица США ставили под сомнение, как компания получила доступ к оборудованию с ограниченным доступом. Nvidia заявляла, что DeepSeek приобрела чипы H800 через легальные каналы.

Статья в Nature поднимает продолжающуюся дискуссию о «дистилляции» — технике, при которой модели обучаются на других системах ИИ. DeepSeek признала, что обучающие данные для ее модели V3 содержали веб-страницы со «значительным количеством ответов, сгенерированных моделями OpenAI». Компания охарактеризовала это включение как случайное, а не преднамеренное.

«В отношении наших исследований DeepSeek-R1, мы использовали GPU A100 для подготовки к экспериментам с меньшей моделью», — написали авторы в дополнительных материалах. Основное обучение R1 затем «продолжалось в общей сложности 80 часов» на кластере H800.

Стоимость обучения в $294 000 резко контрастирует с показателями американских конкурентов. Генеральный директор OpenAI Сэм Альтман заявлял, что обучение передовых систем ИИ стоит «гораздо больше» чем $100 миллионов, хотя его компания не обнародовала конкретной детализации бюджета.

Выпуск R1 в январе вызвал заметную реакцию рынка: инвесторы обеспокоились, что более дешевые конкуренты могут бросить вызов устоявшимся компаниям с ИИ. Подробное раскрытие расходов дает первое официальное представление о том, как DeepSeek достигла конкурентоспособной производительности при доле от сообщаемых в США бюджетов на обучение.