Почему AI упирается не только в GPU, но и в данные

Для AI-кластеров важны не только GPU, но и скорость, с которой данные доходят до вычислений.

Почему AI упирается не только в GPU, но и в скорость данных

Когда говорят об инфраструктуре искусственного интеллекта, почти всегда начинают с GPU. Новые чипы, кластеры, дата-центры, Blackwell, Rubin, десятки и сотни тысяч ускорителей — всё это стало привычным языком AI-рынка.

Но чем быстрее становятся сами ускорители, тем заметнее другая проблема: данные не всегда успевают до них добраться. В итоге дорогое оборудование может простаивать не из-за нехватки вычислительной мощности, а из-за того, что хранилище, сеть и память не справляются с темпом.

Именно об этом в подкасте Stack Overflow говорили Ryan Donovan и сооснователи MinIO — Garima Kapoor и Anand Babu Periasamy. Поводом стала работа MinIO с новой референсной платформой NVIDIA STX, которую можно рассматривать как попытку пересобрать data-инфраструктуру для AI-фабрик.

Главная мысль разговора простая: GPU больше нельзя рассматривать отдельно от данных. Если хранение и подача информации не успевают за вычислениями, вся система начинает тормозить.

GPU ускорились, а хранилище стало слабым звеном

За последние годы NVIDIA модернизировала почти всё вокруг вычислений: GPU, NVLink, сеть через Mellanox и Spectrum-коммутаторы. Но инфраструктура хранения во многих компаниях всё ещё опирается на обычные серверы, x86-процессоры, NVMe-диски и стандартные сетевые схемы.

Для классических задач этого достаточно. Сервер на один-два юнита, десятки NVMe-дисков, 100–400-гигабитная сеть — хорошая база для традиционной обработки данных. Но рядом с современными GPU такая система быстро начинает выглядеть тесной.

«GPU начинают простаивать, потому что данные приходят недостаточно быстро».

Здесь речь не только об обучающих датасетах. AI-системе постоянно нужны разные типы данных: тренировочные наборы, чекпоинты, контекстная память для инференса, таблицы, Parquet-файлы, Iceberg-слои, векторные представления, аудио, видео и внутренние состояния модели.

Если один участок цепочки отстаёт, проблема расходится по всей системе. Ускоритель ждёт данные, сеть забивается, память становится узким местом, а весь кластер работает хуже, чем мог бы.

Что такое NVIDIA STX

NVIDIA STX в разговоре описывается как новая референсная архитектура для хранения и подачи данных. Если DGX — это платформа для вычислений, то STX можно воспринимать как её пару для data-слоя.

«Думайте об этом как о DGX и STX: DGX — для вычислений, STX — для хранения и данных».

Обычный сервер хранения упирается сразу в несколько физических ограничений. Допустим, в коробке стоят 32 NVMe-диска, и каждый может отдавать по 8–12 ГБ/с. На бумаге получается огромный поток данных. Но дальше начинаются ограничения: не хватает PCIe-линий, сеть не вытягивает, CPU-to-memory bandwidth становится бутылочным горлышком.

Можно поставить 400-гигабитную сетевую карту. Можно попробовать поставить две. Но тогда снова упираемся в PCIe, память и архитектуру самого сервера. В какой-то момент становится ясно: проблема не решается простым добавлением ещё одного адаптера.

STX предлагает другой подход. В основе — специализированный DPU на ARM-процессоре Vera с 88 ядрами, поддержкой PCIe Gen 6, 800-гигабитной сети и высокой пропускной способностью памяти. Это уже не обычный commodity-сервер, а коробка, собранная специально для того, чтобы кормить GPU данными на высокой скорости.

Почему DPU важнее, чем кажется

DPU — это Data Processing Unit, отдельный процессор для обработки сетевых и storage-задач. В старой архитектуре много такой работы ложилось на CPU, который должен был одновременно управлять дисками, сетью, памятью и софтом.

В AI-нагрузках это плохо масштабируется. Данных слишком много, задержки слишком важны, а GPU слишком дороги, чтобы ждать, пока обычный сервер разберётся с вводом-выводом.

В STX часть этой работы уходит на специализированный DPU. Он ближе к данным, лучше приспособлен к потоковой обработке и может использовать аппаратные ускорения. По сути, NVIDIA пытается сделать с data-слоем то, что уже сделала с вычислениями: уйти от универсального подхода к специализированной архитектуре.

«NVIDIA модернизировала вычисления с помощью GPU и сеть с помощью Mellanox и Spectrum. Следующий большой шаг — специализированное DPU-оборудование, которое будет подавать данные в GPU с огромной скоростью».

Это важный сдвиг. AI-фабрика больше не состоит только из GPU-стоек. Её производительность начинает зависеть от того, насколько умно устроен путь данных от хранилища до ускорителя.

Почему MinIO оказалось готовым к этой архитектуре

В подкасте сооснователи MinIO объясняют, что их преимущество появилось не внезапно. MinIO изначально строили как лёгкое software-defined объектное хранилище, которое может работать на ARM и в ограниченных средах.

Это важная разница с традиционными storage-вендорами. У многих старых систем внутри тяжёлый программный стек, appliance-подход, закрытая архитектура и большие требования к памяти. Переносить всё это на DPU и ARM сложно не только технически, но и идеологически.

MinIO, наоборот, много лет оптимизировала код под разные архитектуры: ARM NEON, SVE, SVE2, SIMD-инструкции, потоковую обработку, низкий memory footprint. То, что когда-то выглядело как инженерное упрямство и «ремесло ради качества», в момент появления STX стало практическим преимуществом.

«Настоящая мера масштабируемости — простота. Если система усложняется, можно показать красивое демо, но в эксплуатации всё развалится».

Эта мысль хорошо ложится на AI-инфраструктуру в целом. Чем больше кластер, тем опаснее лишние слои. Чем дороже GPU, тем больнее любая неэффективность в storage, сети или памяти.

Object storage становится базой для AI

Ещё одна важная тема разговора — роль объектных хранилищ. Современная облачная инфраструктура давно построена вокруг object storage: AWS S3, Google Cloud Storage, Azure Blob Storage, MinIO и похожие системы.

Для AI это становится особенно важно. Данные больше не ограничиваются файлами в привычном смысле. В одном слое могут жить видео, аудио, документы, таблицы, Parquet-файлы, Iceberg-таблицы, чекпоинты, эмбеддинги и контекстные данные.

Parquet в этой архитектуре — не хранилище, а формат для структурированных данных. Он часто используется вместе с открытыми табличными форматами вроде Iceberg и лежит поверх object storage. Для предприятий это критично, потому что основная масса корпоративной информации — не картинки и ролики, а таблицы, события, транзакции и внутренние базы.

AI-инфраструктуре нужен слой, который умеет одинаково работать с объектами, таблицами и памятью для инференса.

Поэтому NVIDIA, по словам участников подкаста, всё серьёзнее смотрит на object store как на фундамент частных и суверенных AI-облаков. Не все данные можно унести в публичное облако, но архитектурные принципы публичных облаков всё равно становятся стандартом.

Что дают S3 over RDMA и STX на практике

В разговоре звучит конкретная цифра: MinIO видит до пятикратного ускорения чтения при использовании S3 over RDMA по сравнению с вариантом без него.

«Мы видим прирост до 5x на операциях чтения. Это очень важно для тренировочных нагрузок».

RDMA позволяет передавать данные с меньшими накладными расходами и задержками. Для обычного приложения разница может быть приятным улучшением. Для AI-кластера это уже вопрос экономики: если данные приходят быстрее, GPU меньше простаивают, а обучение и инференс работают эффективнее.

Отдельно упоминается выгрузка KV-кэша в MinIO с субмиллисекундными задержками для GPU. Это уже связано не просто с хранением датасетов, а с новым классом памяти для AI-инференса.

И здесь снова видно, что storage перестаёт быть «складом». Он всё больше становится активным участником вычисления.

G3.5 memory: память между GPU и хранилищем

Одна из самых интересных частей разговора — идея G3.5 memory. Это промежуточный слой между дорогой GPU-памятью и большим persistent storage.

В упрощённой схеме есть несколько уровней. G1 — это HBM внутри GPU. G2 — DRAM рядом с CPU. G3 — локальные NVMe-диски. G4 — большое постоянное хранилище. Но AI-инференсу всё чаще нужен слой между G3 и G4: огромный по объёму, дешевле HBM и DRAM, но достаточно быстрый для контекста и промежуточных состояний.

«Это память, которая ведёт себя как хранилище, или хранилище, которое ведёт себя как память».

Идея в том, что часть данных можно не пересчитывать каждый раз заново. Если система уже вычислила фрагменты контекста, KV-кэш или промежуточные представления, их можно сохранить и быстро достать повторно. Это снижает стоимость инференса и уменьшает задержки.

При этом такой слой не всегда требует классической enterprise-grade durability. Если отдельный фрагмент потерян, GPU может его пересчитать. Но если пропадает всё состояние при отключении питания — это уже проблема. Поэтому нужен странный на первый взгляд компромисс: память с масштабом storage и скоростью, близкой к memory-классу.

MinIO называет своё решение для этого направления AI Store Memory Edition. По замыслу, оно должно позволять хранить петабайты такой памяти на NVMe и подавать её GPU на высокой скорости.

Память для инференса и память для агентов — разные вещи

Важно не смешивать два типа AI-памяти. Первый — это техническая память для GPU-инференса: KV-cache, prefill, decode, промежуточные представления, повторное использование уже посчитанного контекста.

Второй — агентская память. Это история взаимодействий, знания о пользователе, прошлые задачи, предпочтения, накопленный контекст. Именно она нужна AI-агентам, роботам и долгоживущим ассистентам, чтобы не начинать каждый разговор с нуля.

В подкасте это объясняют на простом примере: если домашний робот каждый раз не помнит, кто перед ним, общение быстро станет мучительным. Агенту нужна память «длиной в жизнь», но это уже не то же самое, что KV-кэш для GPU.

Пока рынок только ищет подходящие API и форматы для такого слоя. Это могут быть векторы, гибридный поиск, графы, индексы, обычный текстовый поиск или комбинация всего сразу. Но направление понятно: AI-приложениям потребуется память как отдельная инфраструктурная категория.

Производительность теперь измеряется в ваттах

В подкасте отдельно поднимается тема энергопотребления. Для AI-фабрик электричество становится не просто статьёй расходов, а ограничителем роста.

Есть старый компромисс: либо быстро и энергозатратно, либо медленно и эффективно. Но AI-инфраструктура не может позволить себе такой выбор. Ей нужна высокая производительность и одновременно хорошая эффективность на ватт.

Один из главных способов экономии — уменьшить количество узлов при той же производительности. Если за счёт DPU и более плотной архитектуры задачу, которая раньше требовала условных 1000 серверов, можно выполнить на 128 узлах, выигрыш получается не только в скорости, но и в питании, охлаждении, площади и обслуживании.

«Самый большой выигрыш в энергии приходит от сокращения инфраструктуры».

Это важный момент. Быстрое хранилище экономит не только время. Оно помогает лучше использовать GPU и уменьшать инфраструктурный хвост вокруг них.

Почему закрытые appliance-системы плохо подходят для AI

Garima Kapoor в разговоре делает акцент на открытых стандартах и software-defined подходе. Для AI это особенно важно, потому что рынок меняется слишком быстро.

Если компания жёстко привязана к закрытому appliance-решению, ей сложнее использовать новые DPU, новые сетевые возможности, новые форматы данных и новые архитектуры. Железо может быть дорогим и качественным, но если оно закрыто и плохо адаптируется, оно быстро становится тормозом.

Software-defined архитектура даёт больше свободы. Можно начинать на одном типе оборудования, затем переходить на STX, BlueField, новые ARM-системы или другие reference design без полной смены логики продукта.

«Если вы software-defined, вы можете воспользоваться преимуществами нового железа, когда оно будет готово».

В AI это не просто удобство. Это способ не застрять в инфраструктуре, пока требования моделей, агентов и данных меняются каждые несколько месяцев.

STX как blueprint, а не закрытая коробка

Интересно, что NVIDIA, по словам участников разговора, не пытается сделать STX единственным закрытым продуктом. Это reference design — своего рода blueprint. NVIDIA работает с Supermicro, Dell, HP, Foxconn и другими производителями, чтобы рынок получил несколько вариантов оборудования на общей архитектурной базе.

Похожий подход уже виден в сетевом слое: Spectrum-коммутаторы лицензируются, и другие производители могут строить продукты на этой основе.

Для клиентов это важно. Если STX станет не редкой коробкой от одного поставщика, а индустриальным стандартом, у компаний будет больше выбора. А у разработчиков storage-софта появится понятная цель: оптимизироваться под новую data-инфраструктуру для AI.

Что это значит для компаний, которые строят AI

Главный практический вывод из разговора MinIO и Stack Overflow: AI-инфраструктуру нельзя планировать только от GPU. Нужно смотреть на весь путь данных.

Где лежат датасеты? Как читаются Parquet и Iceberg? Как быстро пишутся чекпоинты? Где хранится KV-кэш? Можно ли повторно использовать контекст? Что происходит при сбое? Какую сеть реально насыщает storage? Сколько энергии уходит на весь путь от диска до GPU?

Если эти вопросы не заданы заранее, дорогой кластер может работать хуже, чем ожидалось. Не потому что GPU слабые, а потому что данные идут к ним слишком медленно.

Для enterprise это особенно важно. Многие компании только начинают строить AI-приложения, и соблазн купить «коробку под AI» будет большим. Но если архитектура закрытая, плохо масштабируемая и не поддерживает открытые форматы, она может быстро стать новой проблемой.

AI-фабрика начинается с данных

Разговор о MinIO и NVIDIA STX хорошо показывает, как меняется сама карта AI-инфраструктуры. Раньше главным вопросом было: где взять больше вычислений? Теперь всё чаще звучит другой: как сделать так, чтобы эти вычисления не простаивали?

Ответ лежит не в одном продукте и не в одной технологии. Нужны быстрые объектные хранилища, RDMA, DPU, NVMe, открытые форматы, новые слои памяти, энергоэффективность и архитектура, которую можно перестраивать.

Итог получается почти бытовой: если двигатель очень мощный, ему нужен нормальный поток топлива. В AI этим топливом становятся данные. А значит, storage из фоновой системы постепенно превращается в один из главных элементов всей AI-фабрики.

Источник: Stack Overflow Blog

00 оценок
ЦитироватьПост-цитата
0Счет: 023Просмотры: 230Комментарии: 00Цитаты: 00Посты-цитаты: 00Оценки: 0

Подписка

Сейчас: Не подписан

Подписка: Не подписан
Войдите, чтобы подписаться на обсуждение.

Участники

0

Видимых участников обсуждения пока нет.

Лучшие комментарии

Лучшие комментарии появятся после первых оценок и ответов.

Активные ветки

Активные ветки появятся, когда у корневых комментариев будут ответы.

Комментарии

0 всего
Написать комментарий

Войдите, чтобы участвовать в обсуждении.

Комментариев пока нет. Можно начать ветку первым.

ymki

Цитаты из этого топика

Последние цитаты, созданные из текста топика и его комментариев.

Этот топик пока не цитировали.