Обновление Ray Serve LLM от Anyscale обеспечивает отказоустойчивость DP-группы для развертываний vLLM WideEP, снижая риск простоя для распределенных систем AI-инференса. (ReadОбновление Ray Serve LLM от Anyscale обеспечивает отказоустойчивость DP-группы для развертываний vLLM WideEP, снижая риск простоя для распределенных систем AI-инференса. (Read

Ray 2.55 добавляет отказоустойчивость для крупномасштабных развертываний AI-моделей

2026/04/03 02:35
3м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Ray 2.55 добавляет отказоустойчивость для крупномасштабных развертываний моделей ИИ

Joerg Hiller 18:35, 02 апреля 2026

Обновление Ray Serve LLM от Anyscale обеспечивает отказоустойчивость группы DP для развертываний vLLM WideEP, снижая риск простоя для распределенных систем вывода ИИ.

Ray 2.55 добавляет отказоустойчивость для крупномасштабных развертываний моделей ИИ

Anyscale выпустила значительное обновление своего фреймворка Ray Serve LLM, которое решает критическую операционную проблему для организаций, выполняющих крупномасштабные рабочие нагрузки вывода ИИ. Ray 2.55 представляет отказоустойчивость группы параллельных данных (DP) для развертываний vLLM Wide Expert Parallelism — функцию, которая предотвращает падение целых кластеров обслуживания моделей из-за отказов отдельных GPU.

Обновление нацелено на конкретную болевую точку в обслуживании моделей Mixture of Experts (MoE). В отличие от традиционных развертываний моделей, где каждая реплика работает независимо, архитектуры MoE, такие как DeepSeek-V3, распределяют экспертные слои по группам GPU, которые должны работать коллективно. Когда один GPU в этих конфигурациях выходит из строя, вся группа — потенциально охватывающая от 16 до 128 GPU — становится неработоспособной.

Техническая проблема

Модели MoE распределяют специализированные «экспертные» нейронные сети по нескольким GPU. DeepSeek-V3, например, содержит 256 экспертов на слой, но активирует только 8 на токен. Токены маршрутизируются к тем GPU, которые содержат необходимых экспертов, через операции диспетчеризации и объединения, требующие, чтобы все участвующие ранги были работоспособными.

Ранее отказ одного ранга нарушал эти коллективные операции. Запросы продолжали маршрутизироваться к выжившим репликам в затронутой группе, но каждый запрос завершался неудачей. Восстановление требовало перезапуска всей системы.

Как Ray решает эту проблему

Ray Serve LLM теперь обрабатывает каждую группу DP как атомарную единицу посредством группового планирования. Когда один ранг выходит из строя, система помечает всю группу как неработоспособную, прекращает маршрутизацию трафика к ней, разбирает вышедшую из строя группу и перестраивает её как единое целое. Другие работоспособные группы продолжают обслуживать запросы на протяжении всего процесса.

Функция поставляется включенной по умолчанию в Ray 2.55. Существующие развертывания DP не требуют изменений в коде — фреймворк автоматически обрабатывает проверки работоспособности на уровне группы, планирование и восстановление.

Автомасштабирование также соблюдает эти границы. Операции масштабирования вверх и вниз происходят с шагом размером группы, а не отдельными репликами, предотвращая создание частичных групп, которые не могут обслуживать трафик.

Операционные последствия

Обновление создает важное соображение для проектирования: ширина группы против количества групп. Согласно тестам vLLM, цитируемым Anyscale, пропускная способность на GPU остается относительно стабильной при размерах экспертного параллелизма 32, 72 и 96. Это означает, что операторы могут настраивать в сторону меньших групп без ущерба для эффективности — а меньшие группы означают меньший радиус поражения при возникновении отказов.

Anyscale отмечает, что эта устойчивость на уровне оркестрации дополняет работу по эластичности на уровне движка, происходящую в сообществе vLLM. RFC vLLM Elastic Expert Parallelism рассматривает, как среда выполнения может динамически настраивать топологию внутри группы, в то время как Ray Serve LLM управляет тем, какие группы существуют и получают трафик.

Для организаций, развертывающих модели в стиле DeepSeek в масштабе, практическая выгода очевидна: отказы GPU становятся локализованными инцидентами, а не системными сбоями. Примеры кода и шаги воспроизведения доступны в репозитории GitHub Anyscale.

Источник изображения: Shutterstock
  • ray
  • vllm
  • инфраструктура ИИ
  • машинное обучение
  • распределенные вычисления
Возможности рынка
Логотип Raydium
Raydium Курс (RAY)
$0.8549
$0.8549$0.8549
+0.80%
USD
График цены Raydium (RAY) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Акции TeraWulf (WULF): доходы от ИИ удвоились, а доходы от майнинга Bitcoin упали на 50% в первом квартале 2026 года

Акции TeraWulf (WULF): доходы от ИИ удвоились, а доходы от майнинга Bitcoin упали на 50% в первом квартале 2026 года

TLDR TeraWulf зафиксировала чистый убыток в размере 427 млн $ в Q1 2026 года, по сравнению с 61,4 млн $ годом ранее. Выручка от аренды HPC выросла на 117% квартал к кварталу до 21 млн $, составив ~60% от общего объёма
Поделиться
Coincentral2026/05/10 18:03
Акции Trump Media (DJT) обвалились на 90% после списания криптоактивов, спровоцировавшего убыток в $406 млн в первом квартале

Акции Trump Media (DJT) обвалились на 90% после списания криптоактивов, спровоцировавшего убыток в $406 млн в первом квартале

Акции Trump Media (DJT) упали на 90% — в Q1 зафиксирован убыток 405,9M$ из-за списания BTC. Компания держит 9 542 BTC, купленных по пиковым ценам около 108 000$ каждый. The post Trump
Поделиться
Blockonomi2026/05/10 17:38
CME Group устанавливает дату запуска фьючерсов на волатильность Bitcoin 1 июня, ожидая одобрения CFTC

CME Group устанавливает дату запуска фьючерсов на волатильность Bitcoin 1 июня, ожидая одобрения CFTC

TLDR: CME Group планирует запустить фьючерсы на Волатильность Bitcoin 1 июня 2026 года, при условии рассмотрения и одобрения регулятором CFTC. Контракты рассчитываются по индексу BVX, представляющему собой 30
Поделиться
Blockonomi2026/05/10 18:10

Глобальный дебют KAIO

Глобальный дебют KAIOГлобальный дебют KAIO

Торгуйте KAIO с 0 комиссией и используйте бум RWA