В прошлом месяце финансовые рынки США обрушились после того, как китайский стартап DeepSeek заявил, что разработал одну из самых мощных систем искусственного интеллекта в мире, используя гораздо меньшее количество компьютерных чипов, чем считалось ранее.
Компании, работающие в сфере ИИ, обычно обучают свои чат-боты на суперкомпьютерах, оснащенных 16 000 или более специализированными чипами. Однако DeepSeek заявила, что ей потребовалось всего около 2000 чипов. Инженеры DeepSeek, подробно описав свои достижения в исследовательской статье, опубликованной сразу после Рождества, использовали несколько технологических трюков, чтобы значительно сократить затраты на создание своей системы. Им потребовалось около 6 миллионов долларов на чистые вычислительные мощности, что составляет примерно одну десятую от того, что потратила компания Meta* на создание своей последней ИИ-технологии.
Как именно DeepSeek удалось этого добиться? Вот краткий обзор.
Как создаются технологии ИИ?
Передовые технологии ИИ основываются на так называемых нейронных сетях — математических системах, которые обучаются, анализируя огромные объемы данных.
Наиболее мощные системы проводят месяцы, анализируя почти весь текст на английском языке в интернете, а также множество изображений, звуков и других мультимедийных данных, требующих огромных вычислительных мощностей.
Примерно 15 лет назад исследователи в области ИИ поняли, что специализированные компьютерные чипы, называемые графическими процессорами (GPU), представляют собой эффективный способ проведения анализа данных. Эти чипы, изначально разработанные компанией Nvidia для визуализации графики в видеоиграх, также хорошо справлялись с математическими вычислениями, необходимыми для нейронных сетей.
Компании стали оснащать свои дата-центры все большим количеством GPU, что позволяло их системам ИИ анализировать больше данных.
Однако лучшие GPU стоят около 40 000 долларов и требуют огромных объемов электроэнергии. Передача данных между чипами может потреблять больше электроэнергии, чем работа самих чипов.
Каким образом DeepSeek удалось снизить затраты?
Они использовали множество подходов. Наиболее заметным стало использование метода, называемого «смесь экспертов».
Компании обычно создавали одну нейронную сеть, которая обучалась на всех возможных данных в интернете. Это было дорогостоящим, так как требовало перемещения огромных объемов данных между чипами GPU.
Метод «смеси экспертов» решил эту проблему, разделив систему на множество нейронных сетей: одну для поэзии, другую для программирования, третью для биологии и так далее. Всего могло быть сотня таких «экспертных» систем. Каждый эксперт мог сосредоточиться на своей конкретной области.
Многие компании столкнулись с трудностями при реализации этого подхода, но DeepSeek удалось преуспеть. Их уловкой было сочетание этих небольших «экспертных» систем с «генералистской» системой.
Экспертам все равно нужно было обмениваться некоторой информацией между собой, и генералист, имеющий общее, но не глубокое понимание каждого предмета, мог помочь координировать взаимодействия между экспертами.
Это немного похоже на редактора, руководящего новостной редакцией, заполненной специалистами.
Это действительно более эффективно?
Гораздо более эффективно. Но это не единственное, что сделала DeepSeek. Они также освоили простой трюк с десятичными дробями, который может понять любой, кто помнит школьный курс математики.
Это связано с математикой?
Вспомните, как ваш учитель математики объяснял концепцию числа пи, обозначаемого как π — это число, которое никогда не кончается: 3.14159265358979 …
Поскольку используемое в большинстве случаев укорачивается до нескольких десятичных знаков: 3.14, число π становится весьма полезным для проведения расчетов, например, для определения длины окружности.
DeepSeek провела аналогию и использовала меньшие масштабы, обучая свои технологии ИИ.
Математика, используя которую нейронная сеть идентифицирует закономерности в тексте, на самом деле представляет собой обильное россыпь операции умножения. Мы говорим о длительных месяцах умножения на тысячах компьютерных чипов.
Как правило, чипы умножают числа, вмещающие 16 бит памяти, однако DeepSeek сжала многочисленное количество чисел до 8 бит, что равносильно удвоению имеющегося пространства. Другими словами, они отбросили несколько десятичных знаков каждого числа.
Это означало, что каждая калькуляция была менее точной. Но это не имело значения. Результаты считались достаточно точными для создания мощной нейронной сети.
Это всё?
Ну, они использовали и другую уловку.
После сжатия каждого числа до 8 бит памяти DeepSeek выбрала другой путь при умножении чисел друг на друга. При расчете ответа на каждую задачу по умножению, помогавшей определить работу нейронной сети, она распределяла ответ на 32 бита памяти, сохраняли больше десятичных знаков, обеспечивая более точный ответ.
Таким образом, возможно, старшекласснику это удалось бы?
Нет. Инженеры DeepSeek продемонстрировали, что они также очень умели вновь освежать письменный, сильно сложный код, сказавший GPU что делать. Они знали, как выжать ещё больше эффективности из чипов.
Мало кто обладает подобными навыками. Однако серьёзные исследовательские лаборатории в области ИИ имеют инженеров, необходимых для того, чтобы соответствовать тому, что сделала DeepSeek.
Тогда почему они этого еще не сделали?
Некоторые исследовательские лаборатории ИИ могли бы приобрести немногие из малых трюков. Компании, такие как OpenAI, часто не раскрывают, чем они занимаются «за закрытыми дверями».
На деле многие были удивлены находками DeepSeek. Сделанная стартапом вещь — труднодоступна. Для экспериментов, необходимых для поиска подобного прорыва, требуются миллионы — а иногда и миллиарды — в электрических мощностях.
Другими словами, требуются значительные риски.
«Вы должны вложить много денег, чтобы попробовать новое, и часто они заканчиваются провалом. О вот почему мы не видим много инноваций, люди бояться потерять миллионы в попытке данных провести неудачно расположенный опыт», — говорит Тим Детмерс, исследователь из института ИИ Аллена в Сиэтле, специализирующийся на создании эффективных систем ИИ и ранее работавший исследователем ИИ в Meta*.
Многие критики указали на то, что 6 миллионов долларов, о которых говорит стартап DeepSeek, покрывают затраты только на финальную версию системы. В своей статье инженеры DeepSeek говорят о дополнительных затратах на исследования и эксперименты, предшествовавшие финальному запуску обучения. Но это относится и к любому проекту ведущей компании участника ИИ.
DeepSeek экспериментировала и их труды оправдались. Теперь благодаря тому, что китайский стартап поделился своими методами с другими исследователями ИИ, их технологии и трюки могут заметно снизить стоимость создания ИИ.
Источник: NYTimes