Ghi Chú

Ghi chú nhanh, chia sẻ dễ dàng

Soạn thảo Đơn giản, dễ dàng. Hỗ trợ định dạng văn bản, danh sách, khối code.

Chia sẻ Chuyển sang Công khai để nhận link 5 ký tự. Có thể đặt mật khẩu bảo vệ.

Đính kèm Chèn ảnh hoặc đính kèm file từ thanh công cụ soạn thảo.

Tự động lưu Nội dung được lưu tự động sau 2 giây. Lịch sử chỉnh sửa lưu tối đa 100 phiên bản.

Nâng cao Tự xóa sau thời gian hoặc số lượt đọc. Ghim, khóa chỉ đọc từ sidebar.

Đọc trên Terminal Thêm .txt vào cuối link để xem nội dung dạng văn bản thuần trên terminal.

Phần 10: Troubleshooting và các mẹo nâng cao

Tác giả: tranmai93 — 21/03/2026

Xử lý lỗi Out-of-Memory (OOM) khi chạy mô hình lớn trên WebAssembly

Khi mô hình TensorFlow Lite có kích thước vượt quá giới hạn bộ nhớ mặc định của WebAssembly (thường là 256MB hoặc 512MB), trình duyệt sẽ ném lỗi runtime error: memory access out of bounds. Bạn cần tăng giới hạn bộ nhớ heap của WASM.

Tăng giới hạn bộ nhớ cho WASM Module

Trong bước build Emscripten (như đã làm ở Phần 4), bạn cần thêm cờ --memory-init-file=0 để tăng tốc load và quan trọng nhất là -s INITIAL_MEMORY hoặc -s MAXIMUM_MEMORY để thiết lập trần bộ nhớ.

Thực thi lại lệnh build với các tham số sau để cấp phép 512MB bộ nhớ ban đầu và tối đa 2GB:

emcc inference_engine.cpp -o inference.wasm -s WASM=1 -s EXPORTED_RUNTIME_METHODS='["ccall","cwrap","UTF8ToString"]' -s EXPORTED_FUNCTIONS='["_predict"]' -s INITIAL_MEMORY=536870912 -s MAXIMUM_MEMORY=2147483648 -s ALLOW_MEMORY_GROWTH=1 -O3

Kết quả mong đợi: File inference.wasm được tạo ra, khi load vào trình duyệt, console không còn báo lỗi "memory access out of bounds" ngay khi khởi tạo mô hình lớn.

Chiến lược phân chia mô hình (Model Sharding)

Nếu mô hình quá lớn (trên 2GB) gây treo trình duyệt ngay cả khi tăng memory, bạn cần chia nhỏ mô hình thành các phần (shards) và load theo yêu cầu.

Sử dụng công cụ tfjs-converter hoặc viết script Python để cắt model .tflite thành các mảng byte nhỏ hơn, lưu thành model.part1.bin, model.part2.bin.

Trong code JavaScript (frontend), thay vì fetch toàn bộ file, hãy fetch từng phần và gộp vào ArrayBuffer:

const parts = ['model.part1.bin', 'model.part2.bin'];
const buffers = await Promise.all(parts.map(p => fetch(p).then(r => r.arrayBuffer())));
const totalSize = buffers.reduce((sum, b) => sum + b.byteLength, 0);
const mergedBuffer = new Uint8Array(totalSize);
let offset = 0;
buffers.forEach(b => {
  mergedBuffer.set(new Uint8Array(b), offset);
  offset += b.byteLength;
});
// Truyền mergedBuffer vào WASM function loadModel

Kết quả mong đợi: Bộ nhớ peak giảm đáng kể trong quá trình tải, tránh crash trình duyệt trên thiết bị di động.

Chẩn đoán vấn đề tương thích trình duyệt với WebAssembly

Check khả năng hỗ trợ WebAssembly

Trước khi load mô hình, cần kiểm tra xem trình duyệt có hỗ trợ WebAssembly không, đặc biệt là các bản cũ trên iOS hoặc Android.

Thêm đoạn code kiểm tra vào file index.js hoặc main.js trước khi khởi tạo module:

if (!WebAssembly) {
  console.error('WebAssembly is not supported in this browser.');
  // Kích hoạt cơ chế fallback
  enableFallback();
} else {
  console.log('WebAssembly is supported. Loading model...');
  initWasmModel();
}

Kết quả mong đợi: Nếu chạy trên trình duyệt cũ, console hiện thông báo lỗi rõ ràng và chuyển sang chế độ fallback thay vì crash trắng màn hình.

Xử lý lỗi biên dịch (Compile Error) trong WASM

Lỗi "Invalid WebAssembly" thường xảy ra khi file WASM bị cắt (corrupted) do CDN hoặc lỗi mạng, hoặc do trình duyệt không hỗ trợ instruction set mới (SIMD).

Bọc quá trình load và instance hóa vào try-catch để bắt lỗi runtime:

try {
  const module = await WebAssembly.compileStreaming(fetch('inference.wasm'));
  const instance = await WebAssembly.instantiate(module, {
    env: {
      memory: new WebAssembly.Memory({ initial: 256 })
    }
  });
  // Khởi tạo logic inference
} catch (error) {
  console.error('WASM Compilation or Instantiation failed:', error);
  enableFallback();
}

Kết quả mong đợi: Hệ thống không dừng hoạt động, thay vào đó chuyển sang gọi API backend để thực hiện inference.

Chiến lược Fallback khi Inference trên Client thất bại

Cơ chế chuyển đổi sang Backend Inference

Khi WASM crash hoặc không tương thích, ứng dụng phải tự động chuyển đổi sang gọi API REST của server (Kubernetes) để đảm bảo trải nghiệm người dùng.

Định nghĩa hàm enableFallback gọi endpoint /api/inference đã deploy ở Phần 7:

async function enableFallback() {
  console.warn('Switching to server-side inference due to WASM failure.');
  document.getElementById('status').innerText = 'Processing on Server...';
  
  // Giả sử có input data từ camera hoặc file upload
  const inputData = await prepareInputData(); 
  
  try {
    const response = await fetch('http://localhost:8080/api/inference', {
      method: 'POST',
      headers: { 'Content-Type': 'application/octet-stream' },
      body: inputData
    });
    const result = await response.json();
    displayResult(result);
  } catch (e) {
    console.error('Fallback inference failed:', e);
    displayResult({ error: 'System overloaded' });
  }
}

Kết quả mong đợi: Dù WASM không chạy được, người dùng vẫn nhận được kết quả nhận diện từ server, đảm bảo tính liên tục của dịch vụ.

Tối ưu trải nghiệm người dùng (UX) khi Fallback

Khi fallback, độ trễ tăng lên do network. Cần hiển thị trạng thái loading rõ ràng và ẩn các nút điều khiển WASM.

Sử dụng CSS class để ẩn UI phần WASM và hiện UI phần Server:

function toggleUI(isWasmMode) {
  const wasmPanel = document.getElementById('wasm-controls');
  const serverPanel = document.getElementById('server-controls');
  
  if (isWasmMode) {
    wasmPanel.style.display = 'block';
    serverPanel.style.display = 'none';
  } else {
    wasmPanel.style.display = 'none';
    serverPanel.style.display = 'block';
    // Hiển thị thông báo cảnh báo
    document.getElementById('warning-banner').style.display = 'block';
  }
}

Kết quả mong đợi: Giao diện tự động ẩn các tùy chọn không khả dụng, người dùng chỉ thấy các điều khiển phù hợp với phương thức inference đang chạy.

Các kỹ thuật bảo mật cho mô hình AI và endpoint K8s

Bảo vệ mô hình khỏi bị trích xuất (Obfuscation)

File WASM có thể bị decompile thành C++ source code gần giống ban đầu. Để bảo vệ sở hữu trí tuệ, bạn cần obfuscate code C++ trước khi compile hoặc sử dụng các công cụ bảo vệ WASM.

Sử dụng wasm-pack hoặc closure-compiler để minify và rename các symbol trong file WASM sau khi build:

wasm-opt inference.wasm -O3 --strip-producers -o inference_opt.wasm

Hoặc sử dụng emcc với cờ -s EXPORTED_FUNCTIONS='["_predict"]' (chỉ export hàm cần thiết) để ẩn các hàm nội bộ.

Kết quả mong đợi: Khi mở file WASM bằng Hex Editor hoặc WASM viewer, các tên hàm không còn là predict, load_model mà là các ký tự ngẫu nhiên như _f12a, làm tăng độ khó reverse engineering.

Giới hạn tài nguyên và bảo vệ endpoint K8s

Ngăn chặn tấn công DDoS hoặc abuse đối với endpoint inference trên Kubernetes bằng cách thiết lập Resource Quotas và LimitRanges.

Tạo file YAML limit-range.yaml để giới hạn CPU và RAM tối đa cho mỗi container inference:

apiVersion: v1
kind: LimitRange
metadata:
  name: inference-limits
  namespace: ai-platform
spec:
  limits:
  - default:
      memory: 512Mi
      cpu: 500m
    defaultRequest:
      memory: 128Mi
      cpu: 100m
    max:
      memory: 1Gi
      cpu: 1000m
    min:
      memory: 64Mi
      cpu: 50m
    type: Container

Áp dụng config:

kubectl apply -f limit-range.yaml

Kết quả mong đợi: Nếu container cố gắng sử dụng RAM > 1Gi, nó sẽ bị Kubernetes giết (OOMKilled) ngay lập tức, ngăn không cho nó làm sập node.

Network Policy để cô lập Traffic

Chỉ cho phép traffic từ Ingress Controller hoặc Load Balancer truy cập vào Pod inference, chặn truy cập trực tiếp từ các Pod khác trong cluster.

Tạo file network-policy.yaml:

apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  name: allow-ingress-only
  namespace: ai-platform
spec:
  podSelector:
    matchLabels:
      app: inference-engine
  policyTypes:
  - Ingress
  ingress:
  - from:
    - namespaceSelector:
        matchLabels:
          name: ingress-nginx
    - ipBlock:
        cidr: 0.0.0.0/0
    ports:
    - protocol: TCP
      port: 8080

Áp dụng:

kubectl apply -f network-policy.yaml

Kết quả mong đợi: Khi thử ping hoặc curl từ một Pod khác trong cùng namespace (không thuộc ingress-nginx) vào Pod inference trên port 8080, kết nối sẽ bị từ chối (timeout/refused).

Verify bảo mật tổng thể

Kiểm tra xem các chính sách đã hoạt động bằng cách cố gắng vượt qua giới hạn:

kubectl get pods -n ai-platform -o wide
kubectl describe pod  -n ai-platform | grep -A 5 "Events"

Kết quả mong đợi: Nếu bạn cố deploy một container với request RAM > 1Gi, Pod sẽ ở trạng thái Pending với sự kiện FailedScheduling do vi phạm LimitRange.

Điều hướng series:

Mục lục: Series: Xây dựng nền tảng Real-time AI với WebAssembly, TensorFlow Lite và Kubernetes

« Phần 9: Tối ưu hiệu năng và giám sát hệ thống