DeepSeek-R1 и Qwen3-8B: китайский ИИ выходит на глобальный уровень

DeepSeek-R1 и Qwen3-8B: китайский ИИ выходит на глобальный уровень

Китайская компания DeepSeek продолжает удивлять AI-сообщество, выпустив обновленную версию своей модели рассуждений R1. Новая версия DeepSeek-R1-0528 демонстрирует значительные улучшения в логическом мышлении и приближается по производительности к лидерам рынка — OpenAI o3 и Google Gemini 2.5 Pro. Особенно примечательно, что в отличие от закрытых решений конкурентов, DeepSeek предоставляет открытый доступ к весам модели.

DeepSeek-R1-0528: технический прорыв

Обновленная версия DeepSeek-R1-0528 получила существенные улучшения архитектуры — количество параметров увеличилось с 671 миллиарда до 685 миллиардов. Основополагающие изменения касаются алгоритмических оптимизаций в процессе пост-тренинга, что позволило модели значительно углубить процесс рассуждений.

Результаты впечатляют: в тесте AIME 2025 точность модели выросла с 70% в предыдущей версии до 87.5% в текущей. Это достижение стало возможным благодаря увеличению глубины анализа — если ранее модель использовала в среднем 12K токенов на задачу, то новая версия потребляет 23K токенов на вопрос. Максимальная длина генерации составляет 64K токенов. Помимо улучшений в логических рассуждениях, разработчики снизили частоту галлюцинаций, улучшили поддержку вызова функций и оптимизировали генерацию кода. Модель демонстрирует выдающуюся производительность в математике, программировании и общей логике.

Отметим, что модель доступна непосредственно на портале DeepSeek. Несмотря на то, что сама по себе модель «не знает» о том, кем является, на ресурсе функционируют именно она. На вопрос о том, с какой версией модели имеет дело пользователь, DeepSeek-R1-0528 не отвечает в силу особенностей своего обучения.

Дистиллированная версия: мощность в компактном формате

Параллельно с основной моделью DeepSeek представила дистиллированную версию DeepSeek-R1-0528-Qwen3-8B, созданную на базе модели Qwen3-8B от Alibaba. Эта компактная модель демонстрирует поразительные результаты для своего размера. В математическом бенчмарке AIME 2025 DeepSeek-R1-0528-Qwen3-8B превзошла Google Gemini 2.5 Flash. В другом тесте математических навыков HMMT модель практически сравнялась с недавно представленной Microsoft Phi 4 Plus — специализированной моделью рассуждений от Microsoft.

Источник: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B

Процесс создания дистиллированной версии включал генерацию текстов основной моделью R1-0528 с последующей тонкой настройкой Qwen3-8B на этих данных. Результат — компактная модель, которая сохраняет значительную часть возможностей старшего брата при кратно меньших требованиях к ресурсам.

Вычислительная эффективность и доступность

Главное преимущество дистиллированной версии — кардинально меньшие требования к вычислительным ресурсам. Согласно данным облачной платформы NodeShift, DeepSeek-R1-0528-Qwen3-8B может работать на одном GPU с 40-80GB памяти (например, Nvidia H100). Для сравнения, полноразмерная R1-0528 требует около дюжины GPU с объемом памяти 80GB каждый.

Обе модели доступны под лицензией MIT, что позволяет использовать их в коммерческих проектах без ограничений. DeepSeek-R1-0528-Qwen3-8B уже интегрирована в несколько платформ, в том числе LM Studio, и доступна через API. На Hugging Face модель позиционируется в качестве решения для академических исследований и промышленной разработки малых моделей.

Дальнейшие перспективы развития

Успех DeepSeek бросает вызов доминированию закрытых моделей OpenAI и Google. Китайская компания доказывает, что качественные решения для рассуждений могут быть одновременно открытыми, доступными и при этом эффективными. Философия открытого ИИ позволяет исследователям изучать архитектуру, модифицировать модели и интегрировать их в собственные проекты.

Однако, несмотря на технические достижения, модели DeepSeek имеют свои особенности. По данным разработчиков, новая версия демонстрирует более строгую цензуру контента, что в определенных случаях может ее стать препятствием к использованию модели в тех или иных регионах мира. Тем не менее выпуск R1-0528 и компактной версии представляет важную веху в развитии открытого искусственного интеллекта.

Невозможно отрицать того факта, что успех DeepSeek усиливает конкуренцию на рынке ИИ-моделей и заставляет пересмотреть устоявшиеся представления о необходимости огромных ресурсов для создания продвинутого искусственного интеллекта. Компания показывает, что инновации в архитектуре зачастую могут оказаться намного важнее грубой вычислительной силы. Появление эффективных открытых моделей создает предпосылки для более широкого внедрения ИИ в различных сферах. С помощью таких решений стартапы получают доступ к технологиям уровня технологических гигантов, а отдельные разработчики — к основе для создания специализированных решений.

DeepSeek R1-0528 и ее дистиллированная версия знаменуют новый этап в демократизации искусственного интеллекта. Новые модели делают передовые технологии доступными более широкому кругу пользователей и открывают путь для инноваций в самых разных областях.

Интересно? Поделиться:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять