DeepSeek представила превью новой модели: почти уровень лидеров — и заметно дешевле

Китайская ИИ-лаборатория DeepSeek выпустила две превью-версии своей новейшей большой языковой модели DeepSeek V4 — долгожданного обновления прошлогодней модели V3.2 и сопутствующей рассуждающей модели R1, которые произвели фурор в мире ИИ.

Компания заявляет, что и DeepSeek V4 Flash, и V4 Pro — это модели типа mixture-of-experts с контекстными окнами по 1 миллион токенов каждая, чего достаточно, чтобы использовать в промптах крупные кодовые базы или документы. Подход mixture-of-experts предполагает активацию лишь определённого числа параметров для каждой задачи, чтобы снизить стоимость инференса.

Смотрите видео на удобном для вас ресурсе!

Модель Pro имеет в общей сложности 1,6 триллиона параметров (49 миллиардов активных), что делает её крупнейшей доступной моделью с открытыми весами, превосходящей Kimi K 2.6 (1,1 триллиона) от Moonshot AI, M1 (456 миллиардов) от MiniMax и более чем вдвое — DeepSeek V3.2 (671 миллиард). Меньшая V4 Flash имеет 284 миллиарда параметров (13 миллиардов активных).

DeepSeek утверждает, что обе модели более эффективны и производительны, чем DeepSeek V3.2, благодаря архитектурным улучшениям, и почти «сократили разрыв» с нынешними ведущими моделями — как открытыми, так и закрытыми — в бенчмарках на рассуждение.

Компания заявляет, что её новая модель V4-Pro-Max превосходит своих опенсорсных конкурентов по бенчмаркам на рассуждение и на некоторых задачах опережает GPT-5.2 от OpenAI и Gemini 3.0 Pro. В бенчмарках соревнований по программированию DeepSeek сообщила, что производительность обеих моделей V4 «сопоставима с GPT-5.4».

Источник изображения: DeepSeek

Однако, судя по всему, в тестах на знания модели немного уступают передовым frontier-моделям, в частности GPT-5.4 от OpenAI и последней Gemini 3.1 Pro от Google. Это отставание указывает на «траекторию развития, отстающую от самых современных frontier-моделей примерно на 3–6 месяцев», — написала лаборатория.

Обе модели, V4 Flash и V4 Pro, поддерживают только текст, в отличие от многих закрытых конкурентов, которые предлагают поддержку понимания и генерации аудио, видео и изображений.

Примечательно, что DeepSeek V4 значительно доступнее по цене, чем любая из доступных сегодня frontier-моделей. Меньшая модель V4 Flash стоит $0,14 за миллион входных токенов и $0,28 за миллион выходных токенов, обходя по цене GPT-5.4 Nano, Gemini 3.1 Flash, GPT-5.4 Mini и Claude Haiku 4.5. Более крупная модель V4 Pro, в свою очередь, стоит $0,145 за миллион входных токенов и $3,48 за миллион выходных токенов, также обходя по цене Gemini 3.1 Pro, GPT-5.5, Claude Opus 4.7 и GPT-5.4.

Запуск состоялся на следующий день после того, как США обвинили Китай в краже интеллектуальной собственности американских ИИ-лабораторий в промышленных масштабах с использованием тысяч прокси-аккаунтов. Сам DeepSeek был обвинён Anthropic и OpenAI в «дистилляции» — по сути, копировании — их ИИ-моделей.

Источник: TechCrunch

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Рекомендуем почитать

Роботакси Baidu Apollo в Ухане, Китай Новости

Роботакси Baidu массово «зависли» в Ухане, заперев пассажиров и спровоцировав аварии и пробки

05.04.2026 2
Многочисленные роботакси, эксплуатируемые китайским технологическим гигантом Baidu, во вторник «зависли» в крупном городе, из-за чего, как сообщается, пассажиры оказались заперты…

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности