Ghi Chú

Ghi chú nhanh, chia sẻ dễ dàng

Soạn thảo Đơn giản, dễ dàng. Hỗ trợ định dạng văn bản, danh sách, khối code.

Chia sẻ Chuyển sang Công khai để nhận link 5 ký tự. Có thể đặt mật khẩu bảo vệ.

Đính kèm Chèn ảnh hoặc đính kèm file từ thanh công cụ soạn thảo.

Tự động lưu Nội dung được lưu tự động sau 2 giây. Lịch sử chỉnh sửa lưu tối đa 100 phiên bản.

Nâng cao Tự xóa sau thời gian hoặc số lượt đọc. Ghim, khóa chỉ đọc từ sidebar.

Đọc trên Terminal Thêm .txt vào cuối link để xem nội dung dạng văn bản thuần trên terminal.

Phần 6: Tối ưu hiệu năng và quản lý tài nguyên trong môi trường phân tán

Tác giả: lethinh90 — 21/03/2026

Tối ưu tham số PD và TiKV cho Latency giữa các vùng

Trong môi trường Multi-Cloud, độ trễ mạng (latency) giữa các Region là yếu tố chính ảnh hưởng đến hiệu năng. Mặc định TiDB giả định mạng nội bộ tốc độ cao, cần điều chỉnh tham số để xử lý tình trạng chậm trễ.

Điều chỉnh tham số Region Scheduler của PD

Bước 1: Chỉnh sửa cấu hình PD để tăng ngưỡng chờ khi đồng bộ dữ liệu giữa các vùng khác nhau.

Bước 2: Thay đổi tham số max-schedule-region-size và max-schedule-region-key để giảm tần suất di chuyển vùng dữ liệu lớn qua mạng WAN.

Bước 3: Cập nhật file cấu hình của PD (thường nằm trong ConfigMap hoặc StatefulSet của Kubernetes).

Giải thích: Việc này giúp PD tránh việc di chuyển dữ liệu không cần thiết giữa các Region, giảm tải cho đường truyền liên vùng.


cat > /tmp/tidb-pd-config.yaml

Kết quả mong đợi: File cấu hình /tmp/tidb-pd-config.yaml được tạo thành công với các tham số giới hạn di chuyển vùng dữ liệu.

Cấu hình TiKV để xử lý độ trễ mạng

Bước 1: Điều chỉnh tham số raftstore trong file cấu hình TiKV để tăng thời gian chờ cho các gói tin mạng.

Bước 2: Giảm kích thước raft-entry-max-size để tránh gửi các gói tin quá lớn qua đường truyền WAN chậm.

Bước 3: Cập nhật ConfigMap của TiKV.

Giải thích: TiKV cần thời gian dài hơn để xác nhận các giao dịch khi mạng bị trễ, tránh việc bị timeout sai lầm (false positive).


cat > /tmp/tikv-config.toml

Kết quả mong đợi: File cấu hình /tmp/tikv-config.toml được tạo, sẵn sàng để áp dụng vào cluster.

Áp dụng cấu hình và Verify kết quả

Bước 1: Áp dụng file cấu hình vào TiDB Operator bằng cách cập nhật ConfigMap.

Bước 2: Khởi động lại các Pod PD và TiKV để áp dụng thay đổi.


# Thay thế  bằng namespace của bạn, ví dụ: tidb-cluster
kubectl create configmap tidb-pd-config --from-file=pd.toml=/tmp/tidb-pd-config.yaml -n 
kubectl create configmap tikv-config --from-file=tikv.toml=/tmp/tikv-config.toml -n 

# Cập nhật StatefulSet để nhận config mới (giả sử bạn đã khai báo config trong CR)
# Nếu dùng TiDB CR, bạn cần cập nhật spec.pd.config và spec.tikv.config
kubectl edit tc  -n

Kết quả mong đợi: Pod PD và TiKV sẽ restart. Sau khi lên lại, không có lỗi "region heartbeat timeout" trong log.


# Verify: Kiểm tra log để đảm bảo không có lỗi timeout
kubectl logs -l app.kubernetes.io/name=pod -l app.kubernetes.io/component=pd -n  | grep -i "timeout"
kubectl logs -l app.kubernetes.io/name=pod -l app.kubernetes.io/component=tikv -n  | grep -i "timeout"

Kết quả mong đợi: Không xuất hiện dòng log nào chứa từ "timeout" liên quan đến region hoặc heartbeat.

Cấu hình Resource Quota và Limit cho Pod TiDB

Trong môi trường phân tán, việc một Pod chiếm hết tài nguyên sẽ gây ảnh hưởng dây chuyền đến các node khác. Cần thiết lập giới hạn cứng (Hard Limit) và Quota cho toàn namespace.

Thiết lập Resource Quota cho Namespace

Bước 1: Tạo ResourceQuota để giới hạn tổng tài nguyên CPU và RAM cho namespace chứa TiDB.

Bước 2: Giới hạn số lượng Pod để tránh tạo quá nhiều replica gây quá tải node.

Giải thích: ResourceQuota ngăn chặn việc các workload khác trong cluster chiếm hết tài nguyên, đảm bảo TiDB luôn có tài nguyên dự phòng.


cat > /tmp/tidb-resource-quota.yaml

Kết quả mong đợi: File YAML được tạo, sẵn sàng để apply.


kubectl apply -f /tmp/tidb-resource-quota.yaml

Kết quả mong đợi: Kubernetes báo resourcequota "tidb-multi-cloud-quota" created.

Định nghĩa Limit Range cho từng Pod TiDB

Bước 1: Tạo LimitRange để đặt giá trị mặc định và giới hạn tối đa cho từng container.

Bước 2: Cấu hình riêng cho TiKV (cần RAM lớn) và PD (cần CPU ổn định).

Giải thích: Nếu Pod không khai báo request/limit, Kubernetes sẽ tự động áp dụng LimitRange này để tránh "noisy neighbor".


cat > /tmp/tidb-limit-range.yaml

Kết quả mong đợi: File YAML được tạo, sẵn sàng để apply.


kubectl apply -f /tmp/tidb-limit-range.yaml

Kết quả mong đợi: Kubernetes báo limitrange "tidb-limit-range" created.

Verify kết quả Resource Quota

Bước 1: Kiểm tra trạng thái của ResourceQuota và LimitRange.

Bước 2: Thử tạo một Pod vượt quá giới hạn để xem hệ thống từ chối.


kubectl describe quota tidb-multi-cloud-quota -n 
kubectl describe limitrange tidb-limit-range -n

Kết quả mong đợi: Hiển thị rõ ràng các giới hạn (Hard limits) và các giới hạn mặc định (Default/DefaultRequest) đã được áp dụng cho namespace.


# Test: Thử tạo một pod với resource vượt quá max
kubectl run test-pod --image=busybox --requests=cpu=20,memory=100Gi -n

Kết quả mong đợi: Kubernetes báo lỗi exceeded quota hoặc exceeded the range, chứng tỏ cơ chế bảo vệ đã hoạt động.


# Xóa pod test
kubectl delete pod test-pod -n

Giám sát hiệu năng qua Prometheus và Grafana trong Multi-Cloud

Trong môi trường phân tán, việc giám sát không chỉ dừng ở CPU/RAM mà cần tập trung vào độ trễ mạng (Latency) giữa các Region và tỷ lệ lỗi đồng bộ.

Cấu hình Prometheus để thu thập Metrics đa vùng

Bước 1: Cập nhật file cấu hình Prometheus (thường nằm trong Prometheus CR của TiDB Operator) để quét các endpoint của TiDB Cluster ở các Region khác nhau.

Bước 2: Thêm cấu hình static_configs hoặc kubernetes_sd_configs để phát hiện các Pod ở các cluster khác nhau (nếu dùng mode) hoặc đảm bảo scraper có thể reach được tất cả các node.

Giải thích: Đảm bảo Prometheus có thể "nhìn thấy" và thu thập metrics từ tất cả các node TiKV/PD dù chúng nằm ở vùng mạng khác nhau.


cat > /tmp/prometheus-multi-cloud.yaml

Kết quả mong đợi: File Prometheus CR được tạo, sẵn sàng để apply.


kubectl apply -f /tmp/prometheus-multi-cloud.yaml

Kết quả mong đợi: Pod Prometheus được tạo và trạng thái là Running.

Thiết lập Dashboard Grafana cho Multi-Cloud

Bước 1: Cài đặt hoặc cập nhật Dashboard Grafana để hiển thị các metric đặc thù cho Multi-Cloud như tikv_raftstore_apply_duration_seconds và pd_scheduler_command_duration_seconds.

Bước 2: Tạo Dashboard mới với biểu đồ so sánh latency giữa các Region.

Giải thích: Cần dashboard riêng để theo dõi sự chênh lệch hiệu năng giữa các vùng, phát hiện sớm vùng bị chậm.


cat > /tmp/grafana-dashboard-multi-cloud.json

Kết quả mong đợi: File JSON Dashboard được tạo.


# Import dashboard vào Grafana
# Giả sử Grafana đã chạy trong cluster và expose qua port-forward
kubectl port-forward svc/grafana  3000:3000 &
curl -X POST -H "Content-Type: application/json" --data-binary @/tmp/grafana-dashboard-multi-cloud.json http://localhost:3000/api/dashboards/import

Kết quả mong đợi: Dashboard mới xuất hiện trong danh sách Grafana với tên "TiDB Multi-Cloud Performance Monitor".

Verify kết quả giám sát

Bước 1: Truy cập Grafana và kiểm tra xem liệu các metric có được vẽ lên biểu đồ không.

Bước 2: Tạo một tải giả lập (simulated load) để xem biểu đồ phản ứng.


# Kiểm tra xem Prometheus đã scrape được metrics chưa
kubectl port-forward svc/tidb-monitor-prometheus  9090:9090 &
curl -s http://localhost:9090/api/v1/query?query=up | jq '.data.result[] | select(.value[1] == 1) | .labels.job'

Kết quả mong đợi: Danh sách các job bao gồm tidb-pd-multi-cloud và tidb-tikv-multi-cloud với giá trị up là 1.


# Truy cập Grafana để xem dashboard
# Mở trình duyệt: http://localhost:3000
# Chọn dashboard "TiDB Multi-Cloud Performance Monitor"

Kết quả mong đợi: Biểu đồ hiển thị đường cong latency của các Region khác nhau. Nếu có sự chênh lệch lớn giữa Region A và Region B, bạn sẽ thấy ngay trên biểu đồ.

Điều hướng series:

Mục lục: Series: Triển khai Database Multi-Cloud với TiDB và Ubuntu 24.04

« Phần 5: Cấu hình High Availability và Disaster Recovery cho TiDB Multi-Cloud

Phần 7: Troubleshooting thường gặp và các mẹo nâng cao cho TiDB trên Ubuntu 24.04 »