まだベータ版ばい。

NVIDIA Run:ai Model Streamer を使用して GKE 上のモデルのダウンロードを高速化

NVIDIA の Run:ai Model Streamer が Google Cloud Storage に対応するようになり、Google Kubernetes Engine(GKE)上の vLLM 推論ワークロードが強化され …