Стабильность AI/ML кластеров — почему это важно

AI/ML и инференс-кластеры растут как грибы после дождя. И не только их количество, но и их размер, что обусловлено постоянно растущими потребностями выходящих на рынок LLM моделей. При этом основные проблемы, с которыми приходится сталкиваться при создании инфраструктуры таких кластеров, — это time-to-market и стабильность. Именно эти два показателя наиболее важны.

Александр расскажет:

— Как в Cloud.ru успевают создавать вычислительные кластеры в кратчайшие сроки.

— С какими проблемами при этом сталкиваются и как их решают.

— Что представляет наибольший источник проблем при создании и эксплуатации.

— На что обратить внимание, чтобы кластер был стабилен и задачи не падали (ну почти).

— Что нужно (и не нужно) делать, чтобы избежать большинства проблем.

Спикер