Ghi Chú

Ghi chú nhanh, chia sẻ dễ dàng

Soạn thảo Đơn giản, dễ dàng. Hỗ trợ định dạng văn bản, danh sách, khối code.

Chia sẻ Chuyển sang Công khai để nhận link 5 ký tự. Có thể đặt mật khẩu bảo vệ.

Đính kèm Chèn ảnh hoặc đính kèm file từ thanh công cụ soạn thảo.

Tự động lưu Nội dung được lưu tự động sau 2 giây. Lịch sử chỉnh sửa lưu tối đa 100 phiên bản.

Nâng cao Tự xóa sau thời gian hoặc số lượt đọc. Ghim, khóa chỉ đọc từ sidebar.

Đọc trên Terminal Thêm .txt vào cuối link để xem nội dung dạng văn bản thuần trên terminal.

Phần 6: Tối ưu hóa hiệu năng và bảo mật cho các mô hình Machine Learning

Tác giả: vumai98 — 21/03/2026

Cấu hình GPU Device Plugin cho môi trường Sandbox an toàn

Để đảm bảo các mô hình Machine Learning chạy trong Kata Containers hoặc gVisor có thể truy cập phần cứng GPU mà không bị khóa (lock) bởi container khác, chúng ta cần triển khai NVIDIA GPU Device Plugin.

Bước này giúp Kubernetes nhận diện card GPU vật lý và phân bổ nó cho Pod một cách an toàn, đồng thời thiết lập các tham số để tránh xung đột tài nguyên.

Triển khai GPU Device Plugin

Trước tiên, hãy deploy DaemonSet cho GPU Device Plugin vào cluster. Đảm bảo node của bạn đã cài đặt NVIDIA Container Toolkit.

File cấu hình: /etc/kubernetes/manifests/nvidia-device-plugin.yaml

apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: nvidia-device-plugin
  namespace: kube-system
  labels:
    app: nvidia-device-plugin
spec:
  selector:
    matchLabels:
      name: nvidia-device-plugin
  updateStrategy:
    type: RollingUpdate
  template:
    metadata:
      labels:
        name: nvidia-device-plugin
    spec:
      hostNetwork: true
      containers:
      - name: nvidia-device-plugin
        image: nvcr.io/nvidia/k8s-device-plugin:v0.14.0
        env:
        - name: NVIDIA_VISIBLE_DEVICES
          value: "all"
        - name: NVIDIA_DRIVER_CAPABILITIES
          value: "compute,utility"
        volumeMounts:
        - name: device-plugin
          mountPath: /var/lib/kubelet/device-plugins
        - name: nvidia-driver
          mountPath: /usr/local/nvidia
      volumes:
      - name: device-plugin
        hostPath:
          path: /var/lib/kubelet/device-plugins
      - name: nvidia-driver
        hostPath:
          path: /usr/local/nvidia
      tolerations:
      - operator: Exists
        effect: NoSchedule

Kết quả mong đợi: Kubernetes sẽ nhận diện resource nvidia.com/gpu trên node. Bạn có thể verify bằng lệnh kubectl describe node <node-name> để xem phần Allocated resources.

Thiết lập GPU cho Pod Kata Containers

Để Pod sử dụng GPU trong môi trường Kata, cần khai báo request GPU và đảm bảo runtime class được chỉ định đúng.

File cấu hình: /etc/kubernetes/manifests/ml-training-kata.yaml

apiVersion: v1
kind: Pod
metadata:
  name: ml-training-kata
  labels:
    app: ml-training
spec:
  runtimeClassName: kata-qemu
  containers:
  - name: pytorch-gpu
    image: nvcr.io/nvidia/pytorch:23.09-py3
    command: ["python", "train.py"]
    resources:
      limits:
        nvidia.com/gpu: 1
      requests:
        nvidia.com/gpu: 1
    env:
    - name: NVIDIA_VISIBLE_DEVICES
      value: "all"
    volumeMounts:
    - name: data
      mountPath: /data
  volumes:
  - name: data
    hostPath:
      path: /mnt/datasets

Kết quả mong đợi: Pod sẽ ở trạng thái Running. Khi chạy lệnh kubectl exec -it ml-training-kata -- nvidia-smi, bạn sẽ thấy card GPU được liệt kê và process Python đang sử dụng GPU.

Tối ưu hóa Memory và CPU cho quá trình huấn luyện

Trong môi trường sandboxed, overhead của hypervisor (Kata) hoặc sandbox runtime (gVisor) sẽ làm giảm hiệu năng nếu không cấu hình đúng. Việc đặt giới hạn (limit) và yêu cầu (request) chính xác là chìa khóa để tránh tình trạng OOM (Out Of Memory) hay CPU throttling.

Cấu hình Memory Limit cho Kata Containers

Kata Containers sử dụng máy ảo nhẹ (MicroVM). Nếu đặt memory limit quá thấp, MicroVM sẽ bị kill. Cần tính toán: Memory cho VM + Memory cho OS Guest + Memory cho Model.

File cấu hình: /etc/kata-containers/configuration.toml (cần chỉnh sửa để tăng default memory nếu cần, tuy nhiên ưu tiên set ở Pod spec).

Tuy nhiên, cách tốt nhất là khai báo trong Pod spec để Kubernetes quản lý.

resources:
  limits:
    memory: "16Gi"
    cpu: "8000m"
  requests:
    memory: "8Gi"
    cpu: "4000m"

Giải thích: limits là ngưỡng tối đa MicroVM được cấp, requests là lượng tài nguyên Kubernetes cam kết dành cho Pod. Đối với huấn luyện mô hình lớn, hãy đặt limits cao hơn requests một khoảng đệm (buffer) khoảng 20-30% để tránh overhead của VM.

Kết quả mong đợi: Pod sẽ không bị OOM Kill. Nếu bạn thử chạy mô hình lớn hơn 16GB RAM, container sẽ bị kill, nhưng MicroVM sẽ vẫn hoạt động ổn định nếu bạn tăng con số này.

Tối ưu CPU Quota cho gVisor

gVisor sử dụng kernel sandbox, việc chia sẻ CPU cần được cân bằng để tránh "noisy neighbor" (lỗi hiệu năng do container khác chiếm dụng CPU). Sử dụng CPU Manager Policy là bắt buộc cho workload AI.

File cấu hình: /etc/kubernetes/feature-gates.conf (hoặc chỉnh trong kubelet config)

apiVersion: kubeletconfig.k8s.io/v1beta1
kind: KubeletConfiguration
featureGates:
  CPUManager: true
  DynamicCPUMQ: true
cpuManagerPolicy: static
cpuManagerReconcilePeriod: 1s
cgroupDriver: systemd

Áp dụng cấu hình này vào Pod spec để yêu cầu CPU toàn bộ (dedicated cores) thay vì chia sẻ time-slice.

resources:
  requests:
    cpu: "2"
  limits:
    cpu: "2"

Kết quả mong đợi: Các luồng Python huấn luyện mô hình sẽ chạy trên các core CPU vật lý cố định (dedicated), giảm thiểu jitter (độ trễ không ổn định) khi chạy song song nhiều container trên cùng một node.

Đánh giá Overhead bảo mật và Hiệu năng thực tế

Để xác định mức độ ảnh hưởng của các lớp bảo mật (Kata/gVisor) so với Docker thuần (native), chúng ta cần chạy benchmark đồng thời và so sánh chỉ số FLOPS (Floating Point Operations Per Second) và thời gian training.

Chạy Benchmark với TensorFlow/PyTorch

Sử dụng script chuẩn để đo thời gian huấn luyện một epoch trên cùng một mô hình (ví dụ: ResNet50).

File script: /app/benchmark_script.py

import time
import torch
import torchvision.models as models
import torchvision.transforms as transforms
from torchvision import datasets, DataLoader

# Cấu hình mô hình
model = models.resnet50(pretrained=True)
model.cuda()
criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9)

# Dữ liệu mẫu (giả lập)
transform = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

# Tạo DataLoader giả lập với batch size lớn
train_dataset = datasets.ImageFolder('/mnt/datasets/train', transform)
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True, num_workers=4)

# Đo thời gian huấn luyện 1 epoch
start_time = time.time()
model.train()
for i, (images, labels) in enumerate(train_loader):
    images, labels = images.cuda(), labels.cuda()
    optimizer.zero_grad()
    outputs = model(images)
    loss = criterion(outputs, labels)
    loss.backward()
    optimizer.step()
    
    if i % 100 == 0:
        print(f'Step {i}, Loss: {loss.item():.4f}')

end_time = time.time()
elapsed_time = end_time - start_time
print(f'Total Training Time: {elapsed_time:.2f} seconds')
print(f'Images per second: {len(train_dataset) / elapsed_time:.2f}')

Kết quả mong đợi: Script sẽ in ra tổng thời gian huấn luyện và tốc độ xử lý hình ảnh/giây. Lưu lại số liệu này.

So sánh hiệu năng giữa Native, Kata và gVisor

Chạy script trên 3 môi trường khác nhau trên cùng một node vật lý (tắt các process khác để đảm bảo công bằng).

Chạy trên Docker native (baseline).
Chạy trên Kata Containers (runtimeClassName: kata-qemu).
Chạy trên gVisor (runtimeClassName: gvisor).

Phân tích dữ liệu:

Kata Containers: Thường có overhead khoảng 10-15% so với native do overhead của VM (context switch giữa host và guest).
gVisor:20-30% do việc syscall phải đi qua sandbox runtime, nhưng bảo mật tốt hơn với workload không tin cậy.

Để verify chính xác overhead, sử dụng lệnh kubectl top pod để xem mức tiêu thụ CPU thực tế so với limit đã đặt.
kubectl top pod ml-training-kata --containers
Kết quả mong đợi: Bạn sẽ thấy cột CPU(cores) và MEMORY(bytes) phản ánh mức tiêu thụ thực tế. Nếu CPU usage gần 100% của limit trong thời gian dài, chứng tỏ model đã saturate CPU, cần tăng limit. Nếu memory usage gần giới hạn, cần xem xét tăng memory limit để tránh OOM.

Kiểm tra hiệu năng GPU trong Sandbox

Đảm bảo GPU không bị nghẽn cổ chai do phần mềm sandbox.
kubectl exec -it ml-training-kata -- nvidia-smi -l 1
Chạy lệnh này trong khi training đang diễn ra. Quan sát cột Utilization (GPU Usage).

Kết quả mong đợi: GPU Utilization phải duy trì ở mức cao (trên 90%) nếu code training tối ưu. Nếu GPU idle trong khi CPU 100%, chứng tỏ có bottleneck ở việc truyền dữ liệu (data transfer) hoặc CPU không kịp preprocess data để đẩy vào GPU. Trong môi trường sandbox, overhead I/O có thể gây ra tình trạng này.

Điều hướng series:

Mục lục: Series: Xây dựng nền tảng Secure AI Sandbox với Kata Containers, gVisor và Policy Engine

« Phần 5: Kết nối Policy Engine với Kata Containers và gVisor

Phần 7: Giám sát, logging và phân tích sự cố trong môi trường sandbox kép »