🚨 BREAKING: OpenAI заключили инфраструктурную сделку на $10 млрд с Cerebras
OpenAI договорились с Cerebras о поставке вычислительных мощностей для инференса (работы модели в продакшене). Речь про до 750 МВт вычислительной мощности.
Почему это важно:
- Cerebras использует wafer-scale процессоры — один огромный чип размером с пластину, где и вычисления, и память находятся на одном кристалле
- Это снимает часть проблем узких мест межсоединений (когда GPU-кластер тормозит из-за передачи данных между видеокартами)
- OpenAI будет подключать эти мощности в свой инференс-стек (инфраструктуру обслуживания запросов) поэтапно — под разные нагрузки
- Поставка мощности пойдёт частями (траншами) и растянется до 2028 года
Общий тренд очевиден:
как и в истории с Nvidia ↔ Groq, компании усиливают инференс не только GPU, а специализированным железом с низкой задержкой.
📱 Наш Телеграм канал: https://t.me/bninstrum
🔵 Канал VK: https://vk.ru/club195425868
🚨 BREAKING: OpenAI заключили инфраструктурную сделку на $10 млрд с Cerebras
OpenAI договорились с Cerebras о поставке вычислительных мощностей для инференса (работы модели в продакшене). Речь про до 750 МВт вычислительной мощности. Это огромный шаг, демонстрирующий стремление OpenAI к масштабированию и оптимизации своих сервисов искусственного интеллекта. Ранее OpenAI в основном полагалась на инфраструктуру NVIDIA, но диверсификация с помощью Cerebras указывает на стратегическое решение снизить зависимость и повысить эффективность.
Почему это важно:
- Cerebras использует wafer-scale процессоры — один огромный чип размером с пластину, где и вычисления, и память находятся на одном кристалле. Это принципиально иной подход к архитектуре, чем традиционные GPU. Представьте себе один гигантский чип площадью с планшет, где все компоненты работают в тесной взаимосвязи. Это позволяет добиться невероятной скорости вычислений, особенно при работе с большими языковыми моделями (LLM). Преимущество wafer-scale архитектуры заключается в минимизации задержек, связанных с передачей данных между отдельными чипами в кластере.
- Это снимает часть проблем узких мест межсоединений (когда GPU-кластер тормозит из-за передачи данных между видеокартами). В традиционных GPU-кластерах данные должны перемещаться между множеством отдельных чипов по сети, что создает узкие места и снижает общую производительность. Cerebras, благодаря своей архитектуре, устраняет эти узкие места, обеспечивая более быструю и эффективную обработку данных. Это критически важно для инференса, где скорость ответа на запросы пользователей является ключевым фактором. Представьте, что вы задаете вопрос ChatGPT, и ответ приходит мгновенно – это во многом заслуга оптимизированной инфраструктуры инференса.
- OpenAI будет подключать эти мощности в свой инференс-стек (инфраструктуру обслуживания запросов) поэтапно — под разные нагрузки. Это разумный подход, позволяющий OpenAI постепенно интегрировать новые вычислительные ресурсы и оптимизировать их использование. Развертывание будет осуществляться с учетом различных рабочих нагрузок, обеспечивая максимальную эффективность и минимизацию затрат. OpenAI сможет гибко распределять нагрузку между различными типами оборудования, оптимизируя производительность и стоимость.
- Поставка мощности пойдёт частями (траншами) и растянется до 2028 года. Долгосрочное соглашение подчеркивает уверенность OpenAI в технологии Cerebras и ее стратегическую важность для будущего компании. Поэтапная поставка позволяет OpenAI адаптироваться к изменяющимся потребностям и внедрять новые технологии по мере их разработки. Такой подход также снижает финансовые риски и позволяет более эффективно управлять капиталом.
Общий тренд очевиден:
как и в истории с Nvidia ↔ Groq, компании усиливают инференс не только GPU, а специализированным железом с низкой задержкой. Тенденция заключается в диверсификации вычислительных ресурсов и использовании специализированного оборудования, разработанного для конкретных задач, таких как инференс LLM. Groq, с их чипами, ориентированными на инференс, уже продемонстрировали высокую производительность и низкую задержку. Cerebras предлагает аналогичные преимущества, но с другой архитектурой. Этот тренд подчеркивает важность оптимизации для инференса, который становится все более важным для прибыльности и масштабируемости сервисов на основе ИИ. Компании стремятся найти наиболее эффективные и экономичные способы обработки запросов пользователей, и использование специализированного оборудования является ключевым элементом этой стратегии. Это гонка вооружений, где побеждает тот, кто быстрее и дешевле сможет предоставить доступ к своим ИИ-моделям.
📱 Наш Телеграм канал: https://t.me/bninstrum
🔵 Канал VK: https://vk.ru/club195425868