Ghi Chú

Ghi chú nhanh, chia sẻ dễ dàng

Soạn thảo Đơn giản, dễ dàng. Hỗ trợ định dạng văn bản, danh sách, khối code.

Chia sẻ Chuyển sang Công khai để nhận link 5 ký tự. Có thể đặt mật khẩu bảo vệ.

Đính kèm Chèn ảnh hoặc đính kèm file từ thanh công cụ soạn thảo.

Tự động lưu Nội dung được lưu tự động sau 2 giây. Lịch sử chỉnh sửa lưu tối đa 100 phiên bản.

Nâng cao Tự xóa sau thời gian hoặc số lượt đọc. Ghim, khóa chỉ đọc từ sidebar.

Đọc trên Terminal Thêm .txt vào cuối link để xem nội dung dạng văn bản thuần trên terminal.

Series: Xây dựng nền tảng AI inference hiệu năng cao với vLLM, TensorRT-LLM và Kubernetes trên Proxmox

Tác giả: khang.nguyen92 — 21/03/2026

Series: Xây dựng nền tảng AI inference hiệu năng cao với vLLM, TensorRT-LLM và Kubernetes trên Proxmox

Series gồm 10 phần hướng dẫn chi tiết từ cơ bản đến nâng cao.

Phần 1: Chuẩn bị hạ tầng phần cứng và cài đặt Proxmox VE

Kiểm tra yêu cầu phần cứng tối thiểu cho GPU NVIDIA và RAM để chạy LLM
Cài đặt Proxmox VE từ ISO và cấu hình giao diện quản lý web
Cấu hình lưu trữ Ceph hoặc NFS để chia sẻ dữ liệu training/inference
Cài đặt driver NVIDIA và cấu hình GPU passthrough cho container VM
Tạo nhóm người dùng và cấu hình chứng chỉ SSL cho cổng quản lý

Phần 2: Xây dựng cụm Kubernetes trên Proxmox bằng KubeVirt hoặc K3s

Cài đặt và cấu hình K3s hoặc KubeVirt trên các node Proxmox
Cấu hình networking CNI (Calico hoặc Flannel) cho cụm Kubernetes
Tạo các node worker và cấu hình taint/toleration cho GPU nodes
Cài đặt NVIDIA Device Plugin để Kubernetes nhận diện GPU
Kiểm tra trạng thái cluster và xác nhận khả năng nhận GPU của pod

Phần 3: Triển khai vLLM trên Kubernetes với cơ chế PagedAttention

Tải và build Docker image vLLM có hỗ trợ CUDA và FlashAttention
Viết Helm chart hoặc Kubernetes manifest để deploy vLLM server
Cấu hình resource requests/limits để tối ưu sử dụng GPU
Tích hợp vLLM với OpenAI API compatible endpoint
Chạy test inference với model Llama 3 hoặc Mistral để kiểm tra độ trễ

Phần 4: Tối ưu hóa hiệu năng sâu với TensorRT-LLM và custom Docker image

Build Docker image TensorRT-LLM từ nguồn với các tùy chọn tối ưu hóa
Convert model từ Hugging Face sang định dạng TensorRT-LLM (Engine)
Cấu hình plugin NVIDIA và tối ưu memory usage cho engine
Triển khai TensorRT-LLM server trên Kubernetes thay thế vLLM
So sánh benchmark hiệu năng giữa vLLM và TensorRT-LLM trên cùng một GPU

Phần 5: Cấu hình Scaling tự động và cân bằng tải cho dịch vụ AI

Cài đặt KEDA (Kubernetes Event-driven Autoscaling) dựa trên số lượng request
Cấu hình HPA (Horizontal Pod Autoscaler) dựa trên độ trễ GPU hoặc CPU
Triển khai Ingress Controller (Nginx hoặc Traefik) để cân bằng tải
Cấu hình canary deployment để cập nhật model mà không gây downtime
Xử lý trường hợp OOM (Out of Memory) khi scaling up quá nhiều pod

Phần 6: Quản lý dữ liệu và caching model với NVMe và Shared Storage

Tối ưu hóa I/O với Local NVMe storage cho từng node GPU
Cấu hình Persistent Volume (PV) và PVC để lưu trữ model weights
Triển khai Distributed Cache (Redis hoặc Memcached) cho token cache
Cấu hình policy để tải model từ object storage (MinIO/S3) vào RAM/GPU
Giảm thời gian khởi động (cold start) bằng cách pre-warm model

Phần 7: Giám sát, Logging và Alerting cho hệ thống AI inference

Triển khai Prometheus và Grafana để thu thập metrics từ GPU và Pod
Cấu hình Exporter NVIDIA DCGX để theo dõi nhiệt độ và utilization GPU
Thiết lập dashboard theo dõi thông số quan trọng: TPS, Latency, KV Cache Hit Rate
Cấu hình Loki và Promtail để tập trung log từ vLLM/TensorRT-LLM
Tạo Alert rule khi độ trễ vượt ngưỡng hoặc GPU bị lỗi

Phần 8: Triển khai đa model và quản lý phiên bản với Model Registry

Tích hợp HuggingFace Hub hoặc Model Registry nội bộ
Cấu hình vLLM/TensorRT-LLM để load nhiều model cùng lúc trên một cluster
Sử dụng Dynamic Loading để thay đổi model runtime mà không restart pod
Quản lý phiên bản model và rollback nhanh chóng qua Kubernetes ConfigMap
Cấu hình route rules để định tuyến request về đúng phiên bản model

Phần 9: Bảo mật: TLS, Authentication và Network Policies cho AI Gateway

Cấu hình mTLS giữa client và AI Inference Gateway
Triển khai OAuth2/OIDC hoặc API Key validation cho endpoint inference
Áp dụng Network Policies để cô lập namespace AI khỏi các service khác
Bảo vệ GPU access và ngăn chặn root escape trong container
Audit log các request nhạy cảm và truy cập trái phép

Phần 10: Troubleshooting nâng cao và tối ưu hóa chi phí vận hành

Phân tích và xử lý lỗi OOM Killer khi chạy model lớn trên GPU hạn chế
Giải quyết vấn đề deadlock hoặc race condition trong concurrent inference
Tối ưu chi phí bằng cách sử dụng Spot Instances hoặc Node Autoscaler
Debug hiệu năng thấp do PCIe bottleneck hoặc network latency
Tổng hợp các best practices để vận hành hệ thống ổn định 24/7