Run:ai Model Streamer と vLLM を使用して GKE でのモデルの読み込みを高速化する

オブジェクトストレージから GPU / TPU ノードに大規模な AI モデルをできるだけ早く読み込む必要がある ML エンジニア。 GKE でモデル提供インフラ …

Menu