Стартап в области аппаратного обеспечения AI, компания Cerebras, разработал новое решение для AI-инференса, которое потенциально может составить конкуренцию графическим процессорам Nvidia для предприятий.
Инструмент Cerebras Inference основывается на Wafer-Scale Engine компании и обещает обеспечить потрясающую производительность. По данным источников, инструмент достигает скорости 1,800 токенов в секунду для модели Llama 3.1 8B и 450 токенов в секунду для Llama 3.1 70B. Cerebras утверждает, что эти скорости не только превосходят обычные гиперскейл облачные продукты, требуемые для генерации таких систем с использованием графических процессоров Nvidia, но и являются более экономичными.
Это значительный сдвиг, который обращает внимание на рынок генеративного AI, как отметил аналитик Gartner Арун Чандрасекарaн. В то время как ранее внимание на этом рынке было сосредоточено на обучении, в настоящее время оно смещается к стоимости и скорости инференса. Это изменение обусловлено ростом использования AI в корпоративной среде и предоставляет отличную возможность для таких поставщиков AI-продуктов и услуг, как Cerebras, соревноваться на основе производительности.
Как отмечает Майка Хилл-Смит, соучредитель и CEO Artificial Analysis, компания Cerebras действительно проявила себя в своих тестах на производительность AI-инференса. Измерения компании достигли более 1,800 токенов на выходе в секунду для модели Llama 3.1 8B, а результат для Llama 3.1 70B составил более 446 токенов на выходе в секунду. Таким образом, они установили новые рекорды в обоих тестах.
Тем не менее, несмотря на потенциальные преимущества в производительности, Cerebras сталкивается со значительными трудностями на корпоративном рынке. Программное и аппаратное обеспечение Nvidia доминирует в отрасли и широко используется предприятиями. Дэвид Николсон, аналитик Futurum Group, отмечает, что хотя система Cerebras с технологией на уровне пластин может обеспечить высокую производительность по более низкой стоимости, чем Nvidia, ключевой вопрос заключается в том, готовы ли предприятия адаптировать свои инженерные процессы к работе с системой Cerebras.
Выбор между Nvidia и такими альтернативами, как Cerebras, зависит от нескольких факторов, включая масштаб операций и доступный капитал. Более мелкие компании склонны выбирать Nvidia, поскольку она предлагает уже зарекомендовавшие себя решения. В то же время крупные компании с большим капиталом могут выбрать последний вариант для повышения эффективности и экономии затрат.
С развитием рынка аппаратного обеспечения для искусственного интеллекта Cerebras также столкнется с конкуренцией со стороны специализированных облачных провайдеров, гипермасштаберов, таких как Microsoft, AWS и Google, а также специализированных провайдеров инференса, таких как Groq. Баланс между производительностью, стоимостью и легкостью внедрения, вероятно, будет формировать решения предприятий по принятию новых технологий инференса.
Появление высокоскоростного инференса AI, способного обрабатывать более 1000 токенов в секунду, эквивалентно развитию широкополосного интернета и может открыть новые границы для приложений AI. 16-битная точность и более быстрые возможности инференса Cerebras могут способствовать созданию будущих приложений AI, где целые AI-агенты должны работать быстро, многократно и в реальном времени.
С ростом области искусственного интеллекта рынок аппаратного обеспечения для AI-инференса также расширяется. Составляя около 40% от общего объема рынка аппаратного обеспечения для AI, этот сегмент становится все более привлекательной целью в рамках более широкой индустрии AI. Учитывая, что более крупные компании занимают большую часть этого сегмента, многим новичкам следует тщательно рассмотреть важные аспекты этого конкурентного ландшафта, принимая во внимание конкурентный характер и значительные ресурсы, необходимые для успешной навигации в корпоративной среде.
Источник: Artificial Intelligence News