DeepSeek-R1 и Qwen3-8B: китайский ИИ выходит на глобальный уровень

DeepSeek-R1 и Qwen3-8B: китайский ИИ выходит на глобальный уровень

Китайская компания DeepSeek продолжает удивлять AI-сообщество, выпустив обновленную версию своей модели рассуждений R1. Новая версия DeepSeek-R1-0528 демонстрирует значительные улучшения в логическом мышлении и приближается по производительности к лидерам рынка — OpenAI o3 и Google Gemini 2.5 Pro. Особенно примечательно, что в отличие от закрытых решений конкурентов, DeepSeek предоставляет открытый доступ к весам модели.

DeepSeek-R1-0528: технический прорыв

Обновленная версия DeepSeek-R1-0528 получила существенные улучшения архитектуры — количество параметров увеличилось с 671 миллиарда до 685 миллиардов. Основополагающие изменения касаются алгоритмических оптимизаций в процессе пост-тренинга, что позволило модели значительно углубить процесс рассуждений.

Результаты впечатляют: в тесте AIME 2025 точность модели выросла с 70% в предыдущей версии до 87.5% в текущей. Это достижение стало возможным благодаря увеличению глубины анализа — если ранее модель использовала в среднем 12K токенов на задачу, то новая версия потребляет 23K токенов на вопрос. Максимальная длина генерации составляет 64K токенов. Помимо улучшений в логических рассуждениях, разработчики снизили частоту галлюцинаций, улучшили поддержку вызова функций и оптимизировали генерацию кода. Модель демонстрирует выдающуюся производительность в математике, программировании и общей логике.

Отметим, что модель доступна непосредственно на портале DeepSeek. Несмотря на то, что сама по себе модель «не знает» о том, кем является, на ресурсе функционируют именно она. На вопрос о том, с какой версией модели имеет дело пользователь, DeepSeek-R1-0528 не отвечает в силу особенностей своего обучения.

Дистиллированная версия: мощность в компактном формате

Параллельно с основной моделью DeepSeek представила дистиллированную версию DeepSeek-R1-0528-Qwen3-8B, созданную на базе модели Qwen3-8B от Alibaba. Эта компактная модель демонстрирует поразительные результаты для своего размера. В математическом бенчмарке AIME 2025 DeepSeek-R1-0528-Qwen3-8B превзошла Google Gemini 2.5 Flash. В другом тесте математических навыков HMMT модель практически сравнялась с недавно представленной Microsoft Phi 4 Plus — специализированной моделью рассуждений от Microsoft.

Источник: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B

Процесс создания дистиллированной версии включал генерацию текстов основной моделью R1-0528 с последующей тонкой настройкой Qwen3-8B на этих данных. Результат — компактная модель, которая сохраняет значительную часть возможностей старшего брата при кратно меньших требованиях к ресурсам.

Вычислительная эффективность и доступность

Главное преимущество дистиллированной версии — кардинально меньшие требования к вычислительным ресурсам. Согласно данным облачной платформы NodeShift, DeepSeek-R1-0528-Qwen3-8B может работать на одном GPU с 40-80GB памяти (например, Nvidia H100). Для сравнения, полноразмерная R1-0528 требует около дюжины GPU с объемом памяти 80GB каждый.

Обе модели доступны под лицензией MIT, что позволяет использовать их в коммерческих проектах без ограничений. DeepSeek-R1-0528-Qwen3-8B уже интегрирована в несколько платформ, в том числе LM Studio, и доступна через API. На Hugging Face модель позиционируется в качестве решения для академических исследований и промышленной разработки малых моделей.

Дальнейшие перспективы развития

Успех DeepSeek бросает вызов доминированию закрытых моделей OpenAI и Google. Китайская компания доказывает, что качественные решения для рассуждений могут быть одновременно открытыми, доступными и при этом эффективными. Философия открытого ИИ позволяет исследователям изучать архитектуру, модифицировать модели и интегрировать их в собственные проекты.

Однако, несмотря на технические достижения, модели DeepSeek имеют свои особенности. По данным разработчиков, новая версия демонстрирует более строгую цензуру контента, что в определенных случаях может ее стать препятствием к использованию модели в тех или иных регионах мира. Тем не менее выпуск R1-0528 и компактной версии представляет важную веху в развитии открытого искусственного интеллекта.

Невозможно отрицать того факта, что успех DeepSeek усиливает конкуренцию на рынке ИИ-моделей и заставляет пересмотреть устоявшиеся представления о необходимости огромных ресурсов для создания продвинутого искусственного интеллекта. Компания показывает, что инновации в архитектуре зачастую могут оказаться намного важнее грубой вычислительной силы. Появление эффективных открытых моделей создает предпосылки для более широкого внедрения ИИ в различных сферах. С помощью таких решений стартапы получают доступ к технологиям уровня технологических гигантов, а отдельные разработчики — к основе для создания специализированных решений.

DeepSeek R1-0528 и ее дистиллированная версия знаменуют новый этап в демократизации искусственного интеллекта. Новые модели делают передовые технологии доступными более широкому кругу пользователей и открывают путь для инноваций в самых разных областях.

Интересно? Поделиться:

6 комментариев к “DeepSeek-R1 и Qwen3-8B: китайский ИИ выходит на глобальный уровень

  1. Данная статья подчеркивает значительный прогресс в развитии китайских искусственных интеллектов. Эти модели демонстрируют не только техническое совершенство, но и растущее влияние Китая в сфере передовых технологий. Важно отметить, что такие достижения способствуют глобальному обмену знаниями и стимулируют конкуренцию, что в конечном итоге может привести к более инновационным и универсальным решениям. Однако также стоит учитывать вопросы этики, безопасности и регулирования использования мощных ИИ, чтобы обеспечить их развитие во благо общества. В целом, это позитивный шаг к более интегрированному и технологически продвинутому будущему.

  2. Китайские ИИ-модели, такие как **DeepSeek-R1** и **Qwen3-8B**, действительно показывают, что Китай стремительно догоняет лидеров в сфере искусственного интеллекта и уже начинает формировать собственную экосистему технологий мирового уровня. Особенно впечатляет, что акцент делается не только на мощности моделей, но и на их практическом применении — от анализа данных до разработки решений для бизнеса. Конкуренция с западными ИИ-платформами будет только усиливаться, и это выгодно всем пользователям: чем больше игроков на рынке, тем быстрее развивается качество технологий и появляются новые инструменты.

  3. С ума сойти, как DeepSeek за пару месяцев подтянул R1 до уровня, где он уже конкурирует с O3 и Gemini. OpenAI опять будут ныть. Когда-то же начнётся эра, где даже стартапы смогут использовать такие мощные модели без гигантских кластеров. DeepSeek явно показал, что будущее уже на подходе.

  4. А готовы ли мы к новой эре технологий? Сможет ли он изменить наш мир к лучшему или принести новые вызовы? Разве не пора задуматься о том, как мы используем эти мощные инструменты? И что ждет человечество в будущем, когда ИИ станет неотъемлемой частью нашей жизни?

  5. DeepSeek пошла путем инноваций и новой архитектуры своих моделей ИИ. В отличие от гигантов OpenAI o3 и Google Gemini 2.5 Pro новые модели ИИ от DeepSeek не требуют огромных ресурсов и работают с открытым кодом. А значит более доступны для всех, в том числе и для коммерческого использования. Думаю это правильные решения и без накруток. По аналогии: первые ЭВМ занимали целые здания и комнаты, а теперь аналоги помещаются в умных часах, а значит более доступны.

  6. Интересная тема для обсуждения. Китайцы конечно молодцы, сделали и делают все дешево и сердито. В отличии от запада, который тратит миллиарды на совершенствование и создание своих ИИ. Толк конечно же есть, отрицать не буду, но слишком больших денег стоит все это у них. Китаю гораздо дешевле все это обходится, и толку больше.

Обсуждение закрыто.

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять