High Availability (HA) & Monitoring: Thực Chiến Cho PM/TPM

1. Lời Nguyền Uptime & Bài Toán Đánh Đổi "Các Số 9"

High Availability (HA - Độ sẵn sàng cao) không phải là một chứng chỉ kỹ thuật để team Engineering khoe khoang; nó là một chỉ số đánh đổi kinh doanh (Business Trade-off). Khi PM yêu cầu "hệ thống không bao giờ sập", họ đang yêu cầu một thứ viễn vông và cực kỳ đốt tiền.

Mỗi một "số 9" thêm vào đòi hỏi chi phí hạ tầng và độ phức tạp kỹ thuật tăng theo cấp số nhân, trong khi lợi nhuận biên thu lại giảm dần. Để thấy rõ sự đánh đổi này, hãy nhìn vào quỹ thời gian sập (Error Budget) cho phép của các chuẩn SLA phổ biến:

Chuẩn Uptime	Định danh	Downtime tối đa / Tháng	Downtime tối đa / Năm	Mức độ phức tạp
99%	2 số 9	~7.3 giờ	~3.65 ngày	Cơ bản
99.9%	3 số 9	~43.8 phút	~8.77 giờ	Trung bình
99.99%	4 số 9	~4.38 phút	~52.6 phút	Cao
99.999%	5 số 9	~26 giây	~5.26 phút	Cực kỳ tốn kém

Nhóm	Vague / Bad (Thiếu kinh nghiệm)	Good / Specific (Thực chiến)
Mục tiêu	"Cải thiện trải nghiệm người dùng bằng cách giảm downtime."	"Duy trì SLA 99.9% (dưới 43 phút downtime/tháng) để đảm bảo tỷ lệ Drop-off tại màn hình Checkout không vượt quá 2%."
Quyết định	"Hệ thống tool nội bộ (Backoffice) cũng cần thiết kế xịn và ổn định như App chính."	"Backoffice tool chỉ cần SLA 99% (chấp nhận sập 3 ngày/năm) để dồn ngân sách server và nhân lực cho Core Payment Engine."
Giám sát	"Báo động ngay khi hệ thống có lỗi."	"Thiết lập Error Budget: Nếu tỷ lệ lỗi vượt quá 0.1% trong 24h, dừng toàn bộ việc ra mắt tính năng mới để tập trung fix ổn định hệ thống."

Database Architecture 1: High Availability & Monitoring

1. Lời Nguyền Uptime & Bài Toán Đánh Đổi "Các Số 9"

"Act as an Expert": Vì sao Prompt Persona phá hủy độ chính xác của AI

Anti-Pattern: Tư duy Vague (Mơ hồ) vs. Specific (Thực chiến)

2. Giải Phẫu Kiến Trúc: Nhận Diện SPOF (Single Point of Failure)

3. Khử SPOF Bằng Kiến Trúc Primary-Standby

4. Database Monitoring: Quyền Lực Của Sự Chủ Động

Anti-Pattern: Giám sát Vanity Metrics

Metrics Sống Còn (Actionable Metrics):

Cách Monitoring Kích Hoạt Failover (The How)

5. Ứng Dụng Framework PEUF Cho Edge Cases

6. Lời Kết: Từ Phòng Thủ Sang Tấn Công Bài Toán Scale

Database Architecture 4: Sharding: Phá Vỡ Giới Hạn Vật Lý & Nỗi Đau Vận Hành