Q: Những chỉ số nào tôi nên theo dõi đầu tiên trước khi tối ưu?

Dùng một baseline nhỏ bạn có thể lặp lại: - p95 latency cho các endpoint chính (không phải trung bình) - tỷ lệ lỗi (5xx, timeout, cancel) - DB time per request (thời gian chờ Postgres) Chọn mục tiêu rõ ràng như “p95 dưới 200 ms ở 50 user đồng thời, lỗi dưới 0.5%”. Sau đó chỉ thay đổi một thứ mỗi lần và test lại cùng bộ request.

Q: Làm sao chọn chỉ mục phù hợp cho endpoint danh sách có filter và sắp xếp?

Chỉ mục phải khớp với cách endpoint truy vấn dữ liệu: filter + sort . Cách tiếp cận tốt: - Tạo một chỉ mục tổng hợp cho pattern + thường dùng. - Giữ nhỏ (2 cột thường, 3 đôi khi). - Đặt filter chọn lọc nhất trước, rồi cột sắp xếp. Ví dụ: nếu lọc theo và sắp theo newest, một chỉ mục như thường tạo khác biệt giữa p95 ổn định và các spike.

Question 1

Làm sao để nhanh chóng phân biệt API Go chậm do Postgres hay do code của tôi?

Accepted Answer

Bắt đầu bằng cách tách riêng thời gian chờ DB và thời gian xử lý ứng dụng . - Nếu cơ sở dữ liệu chậm, handler phần lớn thời gian đang chờ truy vấn. CPU Go thường bình thường trong khi các request xếp hàng chờ "in flight". - Nếu ứng dụng chậm, truy vấn trả về nhanh nhưng thời gian bị tiêu tốn vào việc xây object trả về, chạy thêm truy vấn trên từng hàng, marshal JSON lớn, hoặc logging. CPU và bộ nhớ Go thường tăng theo kích thước phản hồi. Thêm thời điểm đơn giản quanh "chờ kết nối" và "thực thi truy vấn" để xem bên nào chiếm ưu thế.

Question 2

Những chỉ số nào tôi nên theo dõi đầu tiên trước khi tối ưu?

Accepted Answer

Dùng một baseline nhỏ bạn có thể lặp lại:

p95 latency cho các endpoint chính (không phải trung bình)
tỷ lệ lỗi (5xx, timeout, cancel)
DB time per request (thời gian chờ Postgres)

Chọn mục tiêu rõ ràng như “p95 dưới 200 ms ở 50 user đồng thời, lỗi dưới 0.5%”. Sau đó chỉ thay đổi một thứ mỗi lần và test lại cùng bộ request.

Question 3

Tôi có nên bật logging truy vấn chậm của Postgres không, và ngưỡng thực tế là bao nhiêu?

Accepted Answer

Bật logging truy vấn chậm với ngưỡng thấp trong giai đoạn thử nghiệm trước khi ra mắt (ví dụ 100–200 ms) và log cả câu lệnh để bạn có thể sao chép vào client SQL.

Giữ nó tạm thời:

Sẽ rất ồn nếu bật lâu trong production.
Có thể tạo overhead nếu log quá nhiều.

Khi đã tìm được những truy vấn tồi nhất, chuyển sang sampling hoặc tăng ngưỡng.

Question 4

Cấu hình pool kết nối khởi điểm tốt cho API Go trên Postgres là gì?

Accepted Answer

Một mặc định thực tế là một bội số nhỏ của số nhân CPU cho mỗi instance API, thường 5–20 kết nối mở tối đa , với số kết nối idle tương tự, và tái tạo kết nối mỗi 30–60 phút . Hai chế độ lỗi phổ biến: - Pool quá nhỏ: request phải chờ lấy kết nối dù thời gian truy vấn ở Postgres vẫn tốt. - Pool quá lớn: Postgres bị quá tải với nhiều session active, độ trễ không đồng đều. Nhớ rằng pool nhân với số instance (20 kết nối × 10 instance = 200 kết nối).

Question 5

Làm sao xác nhận pool kết nối là nút cổ chai (không phải SQL)?

Accepted Answer

Đo các cuộc gọi DB thành hai phần: - Thời gian chờ lấy kết nối (pool wait) - Thời gian thực thi truy vấn (Postgres work) Nếu phần lớn thời gian là chờ pool, điều chỉnh kích thước pool, timeout và số instance. Nếu phần lớn là thực thi truy vấn, tập trung vào và chỉ mục. Cũng đảm bảo luôn đóng rows ngay để kết nối được trả về pool.

Question 6

Khi một endpoint chậm, tôi nên nhìn gì đầu tiên trong EXPLAIN?

Accepted Answer

Chạy trên đúng SQL mà API gửi và chú ý: - Seq Scan trên bảng lớn - Khoảng cách lớn giữa estimated rows vs actual rows - Sort chiếm phần lớn thời gian (thường đi kèm ) - "Rows Removed by Filter" rất nhiều - Nhiều shared read blocks trong BUFFERS (đọc nhiều dữ liệu) Sửa cái báo đỏ lớn nhất trước; đừng tối ưu mọi thứ cùng lúc.

Question 7

Làm sao chọn chỉ mục phù hợp cho endpoint danh sách có filter và sắp xếp?

Accepted Answer

Chỉ mục phải khớp với cách endpoint truy vấn dữ liệu: filter + sort.

Cách tiếp cận tốt:

Tạo một chỉ mục tổng hợp cho pattern WHERE + ORDER BY thường dùng.
Giữ nhỏ (2 cột thường, 3 đôi khi).
Đặt filter chọn lọc nhất trước, rồi cột sắp xếp.

Question 8

Khi nào nên dùng chỉ mục partial trong Postgres?

Accepted Answer

Dùng chỉ mục một phần khi hầu hết traffic nhắm vào một tập hàng xác định.

Ví dụ:

Nhiều read chỉ cho active = true
Ít query cho các hàng inactive

Một chỉ mục partial như ... WHERE active = true nhỏ hơn, có khả năng ở trong bộ nhớ cao hơn và giảm overhead ghi so với đánh chỉ mục toàn bộ.

Xác nhận bằng rằng Postgres thực sự dùng nó cho các truy vấn có traffic cao.

Question 9

Tại sao phân trang LIMIT/OFFSET bị chậm theo thời gian, và tôi nên dùng gì thay thế?

Accepted Answer

chậm ở các trang sâu vì Postgres vẫn phải bỏ qua (và thường sắp) các hàng bạn đang skip. Trang 1 có thể chạm vài chục hàng; trang 500 có thể buộc DB phải quét và loại bỏ hàng chục nghìn hàng để trả về 20 kết quả. Ưu tiên dùng phân trang keyset (cursor): - Dùng sắp xếp ổn định cộng tie-breaker unique (thường là ). - Giữ giống nhau giữa các request. - Mã hóa hoặc tương tự vào cursor. Mỗi trang khi đó có chi phí gần như không đổi khi bảng lớn dần.

Question 10

Truy vấn DB nhanh nhưng phản hồi vẫn chậm — tôi có nên cắt bớt JSON?

Accepted Answer

Thông thường nên. Phản hồi nhỏ hơn có thể là chiến thắng nhanh nhất. Các cách thực tế: - Chỉ cột cần thiết (tránh ). - Thêm hoặc để client lựa chọn trường nặng. - Giới hạn mảng lồng nhau (ví dụ chỉ 10 event mới nhất) và cung cấp endpoint riêng cho toàn bộ lịch sử. - Tránh mô hình N+1 (50 hàng + 50 query). Dùng join hoặc batch theo IDs. Bạn thường giảm được CPU Go, áp lực bộ nhớ và độ trễ đuôi chỉ bằng cách thu gọn payload.

Question 11

Một lượt tinh chỉnh trước khi có user đầu tiên nên làm gì?

Accepted Answer

Trước khi thay đổi gì, ghi lại một baseline nhỏ: - p95 và p99 latency cho endpoint bận nhất - tỷ lệ lỗi và timeout - CPU DB và kết nối active - 5 truy vấn chậm nhất theo tổng thời gian Hành trình tối ưu: 1) Chạy load test 10–15 phút giống người dùng thực (login, list, search, create). Sắp xếp route theo p95 và tổng thời gian. 2) Kiểm tra áp lực kết nối trước khi tune SQL. Điều chỉnh pool và idle limits nếu cần. 3) các truy vấn chậm nhất và sửa lỗi lớn nhất. 4) Thêm/điều chỉnh một chỉ mục, rồi test lại. 5) Thắt chặt phản hồi và phân trang, rồi test lần nữa. Ghi nhật ký thay đổi đơn giản: đã thay gì, vì sao, và p95 di chuyển ra sao. Nếu thay đổi không giúp, revert và tiếp tục.

Question 12

Những lỗi thường gặp và bẫy cần tránh là gì?

Accepted Answer

Một vài sai lầm phổ biến: - Xem kích thước pool như nút vặn tăng tốc. Đặt nó càng cao càng tốt thường làm chậm hơn vì Postgres phải quản lý nhiều session. - "Đánh chỉ mục mọi thứ"—chỉ mục thêm làm chậm ghi và có thể thay đổi kế hoạch truy vấn bất ngờ. - Nợ phân trang: offset trông ổn ban đầu rồi p95 tăng dần. - Kích thước payload JSON lớn: nén giúp băng thông nhưng không bớt chi phí xây/allocate/parse object lớn. Một kiểm tra trước ra mắt nhanh: - Theo dõi pool wait time và connection counts trong load test nhỏ. - So sánh trung bình vs p95 cho cùng một endpoint. - Kiểm tra phân trang khi bảng lớn gấp 10. - Kiểm tra kích thước phản hồi cho endpoint danh sách. - Chạy lại sau khi thêm chỉ mục hoặc thay filter.

Question 13

Danh sách kiểm tra nhanh và bước tiếp theo trước khi ra mắt là gì?

Accepted Answer

Trước khi có user thật, bạn muốn bằng chứng rằng API dự đoán được dưới tải. Mục tiêu không phải số hoàn hảo mà là bắt được những vấn đề dẫn đến timeout, spike, hoặc DB không nhận thêm công việc.

Chạy kiểm tra trong staging tương tự production: đo p95 theo endpoint dưới tải, lấy top truy vấn chậm theo tổng thời gian, xem pool wait time, EXPLAIN (ANALYZE, BUFFERS) truy vấn tồi tệ nhất để xác nhận nó dùng chỉ mục như mong đợi, và kiểm tra kích thước payload cho route bận.

Làm một thử nghiệm worst-case: request trang sâu, áp filter rộng nhất, và thử với cold start (khởi động lại API rồi hit request đầu tiên). Nếu phân trang sâu chậm dần, chuyển sang cursor trước khi ra mắt.

Ghi lại mặc định để team giữ lựa chọn nhất quán: giới hạn pool và timeout, quy tắc phân trang (max page size, có cho offset hay không, định dạng cursor), quy tắc truy vấn (chỉ select cột cần thiết, tránh , giới hạn filter đắt), và quy ước logging (ngưỡng slow query, giữ sample bao lâu, cách gắn nhãn endpoint).

Tối ưu hiệu năng Go + Postgres: sổ tay thực tế cho API

Trông "chậm" thế nào với API Go trên Postgres

Bắt đầu từ baseline: vài con số quan trọng

Pool kết nối giữ Postgres ổn định

Cài đặt khởi đầu đơn giản

Cách biết pool là vấn đề

pgx pool vs database/sql

Kế hoạch truy vấn: đọc nhanh output EXPLAIN

Những dòng quan trọng thường có nghĩa gì

Tại sao plan sai (và cách sửa dễ)

Chỉ mục cho truy vấn bạn thực sự chạy

Xây chỉ mục quanh filter + thứ tự sắp xếp

Chỉ mục partial cho các filter phổ biến

Câu hỏi thường gặp