18 thg 5, 2025·8 phút

Thiết kế schema trước: Ứng dụng nhanh hơn so với tối ưu truy vấn sớm

Những cải thiện hiệu suất ban đầu thường đến từ thiết kế schema tốt hơn: bảng, khoá và ràng buộc phù hợp sẽ ngăn truy vấn chậm và việc viết lại tốn kém sau này.

Schema và Tối ưu truy vấn: Ý chúng ta là gì

Khi một ứng dụng cảm thấy chậm, bản năng đầu tiên thường là “sửa SQL.” Cảm giác đó có lý: một truy vấn đơn lẻ là thấy được, đo lường được và dễ đổ lỗi. Bạn có thể chạy EXPLAIN, thêm một chỉ mục, điều chỉnh một JOIN, và đôi khi thấy cải thiện ngay lập tức.

Nhưng ở giai đoạn đầu của sản phẩm, các vấn đề tốc độ có thể đến từ hình dạng của dữ liệu chứ không chỉ từ văn bản truy vấn cụ thể. Nếu schema buộc bạn phải chống lại cơ sở dữ liệu, việc tinh chỉnh truy vấn sẽ biến thành trò đập chuột: sửa chỗ này, lỗi chỗ khác.

Thiết kế schema (bằng tiếng thường)

Thiết kế schema là cách bạn tổ chức dữ liệu: bảng, cột, quan hệ và các quy tắc. Nó bao gồm các quyết định như:

Điều gì xứng đáng có bảng riêng (users, orders, events)
Bảng liên quan thế nào (one-to-many, many-to-many)
Cái gì phải là duy nhất hoặc bắt buộc (ràng buộc)
Cách biểu diễn trạng thái và lịch sử (timestamps, trường status, bản ghi audit)

Thiết kế schema tốt khiến cách hỏi dữ liệu tự nhiên cũng là cách nhanh.

Tối ưu truy vấn (bằng tiếng thường)

Tối ưu truy vấn là cải thiện cách bạn lấy hoặc cập nhật dữ liệu: viết lại truy vấn, thêm chỉ mục, giảm công việc thừa, và tránh các mẫu khiến quét toàn bộ bảng.

Cả hai đều quan trọng—nhưng thời điểm quan trọng hơn

Bài viết này không phải “schema tốt, truy vấn xấu.” Đây là về thứ tự hành động: làm đúng nền tảng schema trước, rồi tối ưu những truy vấn thực sự cần. Bạn sẽ hiểu tại sao quyết định về schema chi phối hiệu suất ban đầu, cách nhận biết khi nào schema mới là cổ chai, và cách tiến hóa schema an toàn khi app phát triển. Nội dung dành cho đội sản phẩm, founder và developer xây dựng ứng dụng thực tế—không chỉ dành cho chuyên gia cơ sở dữ liệu.

Tại sao thiết kế schema quyết định phần lớn hiệu suất ban đầu

Hiệu suất ban đầu thường không phải do SQL tinh vi—mà do lượng dữ liệu cơ sở dữ liệu buộc phải chạm tới.

Cấu trúc quyết định bạn phải quét bao nhiêu

Một truy vấn chỉ có thể chọn lọc đến mức mô hình dữ liệu cho phép. Nếu bạn lưu status, type, hoặc owner trong các trường cấu trúc lỏng lẻo (hoặc rải rác trên các bảng không nhất quán), cơ sở dữ liệu thường phải quét nhiều hàng hơn để tìm khớp.

Schema tốt thu hẹp không gian tìm kiếm theo cách tự nhiên: cột rõ ràng, kiểu dữ liệu nhất quán, và bảng giới hạn đúng phạm vi giúp truy vấn lọc sớm hơn và đọc ít trang hơn từ đĩa hoặc bộ nhớ.

Thiếu khoá tạo ra công việc tốn kém

Khi khóa chính và khóa ngoại thiếu (hoặc không được thực thi), quan hệ trở thành suy đoán. Điều đó đẩy công việc xuống lớp truy vấn:

Joins lớn hơn vì không có đường nối được đánh chỉ mục đáng tin cậy.
Bộ lọc phức tạp hơn vì bạn phải bù đắp cho trùng lặp, null, và giá trị “gần giống”.

Không có ràng buộc, dữ liệu xấu tích tụ—vì vậy truy vấn trở nên chậm hơn khi bạn thêm nhiều hàng.

Chỉ mục theo schema (và không thể sửa mọi thứ)

Chỉ mục hữu ích nhất khi chúng phù hợp với đường truy cập dự đoán: join theo foreign key, lọc theo cột xác định, sắp xếp theo trường phổ biến. Nếu schema lưu các thuộc tính quan trọng ở bảng sai, trộn nghĩa trong một cột, hoặc dựa vào parsing văn bản, chỉ mục không cứu được bạn—bạn vẫn phải quét và biến đổi quá nhiều.

Nhanh theo mặc định

Với quan hệ rõ ràng, định danh ổn định, và ranh giới bảng hợp lý, nhiều truy vấn hàng ngày trở nên “nhanh theo mặc định” vì chúng chạm ít dữ liệu hơn và dùng biểu thức thân thiện với chỉ mục. Tối ưu truy vấn lúc đó chỉ là bước hoàn thiện—không phải cuộc chiến liên tục.

Thực tế giai đoạn đầu: thay đổi là liên tục

Sản phẩm giai đoạn đầu hiếm khi có “yêu cầu ổn định”—thay vào đó là thử nghiệm. Tính năng ra mắt, bị viết lại, hoặc biến mất. Đội nhỏ gánh áp lực roadmap, hỗ trợ và hạ tầng với thời gian hạn chế để xem lại quyết định cũ.

Những gì thường thay đổi nhất

Hiếm khi SQL thay đổi đầu tiên. Thường là ý nghĩa của dữ liệu: trạng thái mới, quan hệ mới, trường “ồ chúng ta cũng cần theo dõi…” mới, và luồng công việc hoàn toàn mới không được tưởng tượng lúc ra mắt. Sự xáo trộn đó là bình thường—và chính vì lý do đó các lựa chọn schema lại quan trọng ngay từ đầu.

Tại sao sửa schema sau này khó hơn sửa truy vấn

Viết lại một truy vấn thường có thể đảo ngược và chỉ ảnh hưởng cục bộ: bạn deploy cải tiến, đo lường, và rollback nếu cần.

Việc viết lại schema khác biệt. Một khi bạn đã lưu dữ liệu thực của khách hàng, mỗi thay đổi cấu trúc trở thành dự án:

Migration khóa bảng hoặc làm chậm ghi vào thời điểm cao.
Backfill để populate cột mới hoặc rebuild dữ liệu dẫn xuất.
Ghi kép hoặc bảng shadow để giữ app chạy trong quá trình chuyển đổi.
Rủi ro downtime nếu thay đổi không thể làm online.

Ngay cả với tooling tốt, thay đổi schema đòi hỏi chi phí phối hợp: cập nhật mã app, thứ tự triển khai và xác thực dữ liệu.

Quyết định ban đầu cộng dồn như thế nào

Khi DB còn nhỏ, schema vụng về có thể trông “ổn”. Khi số hàng tăng từ vài nghìn lên hàng triệu, cùng một thiết kế tạo ra quét lớn hơn, chỉ mục nặng hơn và join tốn kém—rồi mỗi tính năng mới xây trên nền tảng đó.

Mục tiêu giai đoạn đầu không phải hoàn hảo. Là chọn schema có thể chịu đựng thay đổi mà không buộc migration rủi ro mỗi lần sản phẩm học được điều mới.

Nguyên tắc thiết kế ngăn truy vấn chậm

Hầu hết vấn đề “truy vấn chậm” ở giai đoạn đầu không phải mẹo SQL—mà là mơ hồ trong mô hình dữ liệu. Nếu schema khiến không rõ bản ghi đại diện cho gì, hoặc bản ghi liên quan thế nào, mọi truy vấn sẽ trở nên tốn kém hơn để viết, chạy và bảo trì.

Bắt đầu với một tập nhỏ thực thể cốt lõi

Bắt đầu bằng cách đặt tên vài thứ sản phẩm không thể thiếu: users, accounts, orders, subscriptions, events, invoices—cái gì thật sự trung tâm. Sau đó định nghĩa quan hệ rõ ràng: one-to-many, many-to-many (thường với bảng join), và sở hữu (ai “chứa” cái gì).

Kiểm tra thực tế: với mỗi bảng, bạn nên hoàn thành câu “Một hàng trong bảng này đại diện cho ___.” Nếu không thể, bảng đó có lẽ trộn lẫn khái niệm, và sau này buộc lọc phức tạp và join.

Đặt tên và quyền sở hữu một cách cực kỳ nhất quán

Tính nhất quán tránh join ngoài ý muốn và hành vi API khó hiểu. Chọn quy ước (snake_case vs camelCase, *_id, created_at/updated_at) và tuân thủ.

Ngoài ra quyết định ai sở hữu một trường. Ví dụ, “billing_address” thuộc đơn hàng (snapshot thời điểm mua) hay thuộc user (mặc định hiện tại)? Cả hai đều hợp lý—nhưng trộn chúng không theo ý định rõ ràng gây ra truy vấn chậm và dễ lỗi khi cố tìm “sự thật”.

Chọn kiểu dữ liệu phù hợp với thực tế

Dùng kiểu dữ liệu tránh chuyển đổi khi chạy:

Dùng timestamps với quy tắc timezone bạn hiểu.
Dùng decimal cho tiền (không dùng float).
Dùng enum/bảng tham chiếu cho các danh mục cố định.

Khi kiểu dữ liệu sai, DB không thể so sánh hiệu quả, chỉ mục kém hữu dụng, và truy vấn thường cần casting.

Đừng nhân bản sự thật mà không có kế hoạch

Lưu cùng một sự thật ở nhiều nơi (ví dụ order_total và sum(line_items)) tạo ra drift. Nếu bạn cache giá trị dẫn xuất, hãy ghi lại, xác định nguồn sự thật, và đảm bảo cập nhật chính xác (thường qua logic ứng dụng cộng với ràng buộc).

Khoá và ràng buộc: Tốc độ bắt đầu từ tính toàn vẹn dữ liệu

Một DB nhanh thường là DB dự đoán được. Khóa và ràng buộc làm cho dữ liệu dự đoán được bằng cách ngăn các trạng thái “không thể” xảy ra—quan hệ thiếu, danh tính trùng lặp, hoặc giá trị không như app nghĩ. Sự sạch sẽ đó ảnh hưởng trực tiếp đến hiệu suất vì DB có thể đưa ra giả định tốt hơn khi lập kế hoạch truy vấn.

Khóa chính: mỗi bảng cần định danh ổn định

Mỗi bảng nên có khóa chính (PK): một cột (hoặc tập cột nhỏ) định danh duy nhất hàng và không thay đổi. Điều này không chỉ là nguyên lý—nó cho phép bạn join hiệu quả, cache an toàn, và tham chiếu bản ghi không cần suy đoán.

PK ổn định tránh các giải pháp tốn kém. Nếu bảng thiếu định danh thực, ứng dụng bắt đầu “xác định” hàng bằng email, tên, timestamp, hoặc bó cột—dẫn đến chỉ mục rộng hơn, join chậm hơn, và trường hợp biên khi các giá trị đó thay đổi.

Khóa ngoại: tính toàn vẹn giúp trình tối ưu

Foreign key (FK) thực thi quan hệ: orders.user_id phải trỏ tới users.id. Không có FK, các tham chiếu không hợp lệ len lỏi (đơn hàng cho user đã xóa, comment cho bài viết thiếu), và mọi truy vấn phải lọc phòng thủ, left-join và xử lý null.

Với FK, query planner thường có thể tối ưu join tự tin hơn vì quan hệ là rõ ràng và được đảm bảo. Bạn cũng ít có khả năng tích tụ các hàng mồ côi làm phình to bảng và chỉ mục theo thời gian.

Ràng buộc như lan can cho dữ liệu sạch, nhanh

Ràng buộc không phải quan liêu—chúng là lan can:

UNIQUE ngăn trùng lặp khiến app phải lookup và dọn dẹp thêm. Ví dụ: một users.email chuẩn.
NOT NULL tránh logic ba trạng thái và các nhánh xử lý null bất ngờ trong truy vấn.
CHECK giữ giá trị trong tập biết trước (ví dụ status IN ('pending','paid','canceled')).

Dữ liệu sạch hơn nghĩa là truy vấn đơn giản hơn, ít điều kiện dự phòng, và ít join “phòng trường hợp”.

Những anti-pattern phổ biến làm bạn chậm

Không có foreign keys: bạn sẽ phải trả giá sau này với công việc dọn mồ côi và logic truy vấn phức tạp.
Nhân bản trường email (ví dụ users.email và customers.email): dẫn đến danh tính mâu thuẫn và chỉ mục trùng.
Chuỗi trạng thái tự do: lỗi chính tả như "Cancelled" vs "canceled" tạo phân đoạn ẩn phá vỡ bộ lọc và báo cáo.

Nếu muốn nhanh sớm, hãy làm cho việc lưu dữ liệu xấu khó xảy ra. Cơ sở dữ liệu sẽ thưởng bạn bằng kế hoạch đơn giản hơn, chỉ mục nhỏ hơn, và ít bất ngờ về hiệu suất.

Chuẩn hoá vs Phi chuẩn hoá: Cân bằng thực tế

Làm việc cùng toàn đội

Chọn gói phù hợp từ xây dựng một mình đến doanh nghiệp và đội ngũ.

Chọn gói

Chuẩn hoá là ý tưởng đơn giản: lưu mỗi “sự thật” ở một nơi để không nhân bản dữ liệu khắp DB. Khi cùng một giá trị bị sao chép vào nhiều bảng hoặc cột, cập nhật trở nên rủi ro—một bản thay đổi, bản kia không, và app bắt đầu hiển thị câu trả lời mâu thuẫn.

Chuẩn hoá (mặc định): một sự thật, một nơi

Trong thực tế, chuẩn hoá nghĩa là tách các thực thể để cập nhật sạch và có thể dự đoán. Ví dụ, tên và giá của product thuộc products, không nên lặp trong mọi hàng order. Tên category thuộc categories, tham chiếu bằng ID.

Điều này giảm:

dữ liệu trùng lặp (ít lưu trữ, ít bất đồng bộ)
lỗi cập nhật (thay 1 lần, phản ánh mọi nơi)
bugs “giá trị nào đúng?”

Khi chuẩn hoá quá mức gây hại

Chuẩn hoá quá mức xảy ra khi bạn tách dữ liệu thành quá nhiều bảng nhỏ buộc phải join liên tục cho màn hình thường ngày. DB vẫn trả đúng kết quả, nhưng đọc phổ biến trở nên chậm và phức tạp vì mỗi request cần nhiều join.

Triệu chứng giai đoạn đầu: một trang “đơn giản” (như lịch sử đơn hàng) yêu cầu join 6–10 bảng, và hiệu suất dao động tùy traffic và độ ấm cache.

Cách tiếp cận thực tế: chuẩn hoá cốt lõi, phi chuẩn hoá cho các đọc nóng

Cân bằng hợp lý là:

Chuẩn hoá các sự thật cốt lõi và quyền sở hữu (nguồn sự thật). Giữ thuộc tính sản phẩm trong products, tên category trong categories, và quan hệ bằng foreign keys.
Phi chuẩn hoá thận trọng cho các truy vấn nóng nhất—nhưng chỉ khi bạn giải thích được lợi ích và cách duy trì tính đúng.

Phi chuẩn hoá là sao chép cố ý một chút dữ liệu để làm cho truy vấn thường xuyên rẻ hơn (ít join hơn, list nhanh hơn). Từ khóa là thận trọng: mọi trường nhân bản cần có kế hoạch cập nhật.

Ví dụ: products, categories và order items

Một setup chuẩn hóa có thể như:

products(id, name, price, category_id)
categories(id, name)
orders(id, customer_id, created_at)
order_items(id, order_id, product_id, quantity, unit_price_at_purchase)

Lưu ý điểm lợi nhỏ: order_items lưu unit_price_at_purchase (một dạng phi chuẩn hoá) vì bạn cần chính xác lịch sử ngay cả khi giá product thay đổi sau đó. Sao chép đó là cố ý và ổn định.

Nếu màn hình phổ biến nhất của bạn là “orders với tóm tắt item”, bạn có thể phi chuẩn hoá product_name vào order_items để tránh join products cho mỗi list—nhưng chỉ nếu bạn sẵn sàng giữ nó đồng bộ (hoặc chấp nhận nó là snapshot thời điểm mua).

Chiến lược chỉ mục tuân theo schema, không phải ngược lại

Chỉ mục thường được coi như nút “tăng tốc” ma thuật, nhưng chúng chỉ hiệu quả khi cấu trúc bảng hợp lý. Nếu bạn vẫn đổi tên cột, tách bảng, hoặc thay đổi quan hệ, bộ chỉ mục sẽ phải đổi theo. Chỉ mục tốt nhất khi cột (và cách app lọc/sắp xếp theo chúng) ổn định đủ để bạn không rebuild hàng tuần.

Bắt đầu bằng các câu hỏi app của bạn thường hỏi nhất

Bạn không cần dự đoán hoàn hảo, nhưng cần danh sách ngắn các truy vấn quan trọng nhất:

“Tìm user theo email.”
“Hiện đơn hàng gần đây cho khách hàng.”
“Liệt kê hóa đơn theo status, mới nhất trước.”

Những câu này chuyển trực tiếp thành cột nào đáng chỉ mục. Nếu bạn không thể nói rõ, thường là vấn đề về rõ ràng schema—không phải chỉ mục.

Chỉ mục ghép (composite) giải thích đơn giản

Chỉ mục ghép bao phủ nhiều cột. Thứ tự cột quan trọng vì DB có thể dùng chỉ mục hiệu quả từ trái sang phải.

Ví dụ, nếu bạn thường lọc theo customer_id rồi sắp xếp theo created_at, chỉ mục (customer_id, created_at) thường hữu ích. Đảo (created_at, customer_id) có thể không giúp truy vấn đó nhiều.

Đừng chỉ mục mọi thứ

Mỗi chỉ mục thêm chi phí:

Ghi chậm hơn: insert/update phải cập nhật mỗi chỉ mục.
Tốn lưu trữ hơn: chỉ mục có thể chiếm phần lớn kích thước DB.
Phức tạp hơn: nhiều chỉ mục làm bảo trì và tuning khó hơn.

Schema sạch, nhất quán thu hẹp tập chỉ mục “đúng” xuống một vài cái khớp pattern truy cập thực—không phải trả thuế ghi và lưu trữ liên tục.

Hiệu suất ghi: Chi phí ẩn của schema lộn xộn

Hoàn tác các thay đổi cơ sở dữ liệu rủi ro

Chụp snapshot trước khi migration, sau đó rollback nhanh nếu cần.

Dùng snapshots

Ứng dụng chậm không phải lúc nào cũng do đọc. Nhiều vấn đề hiệu suất ban đầu xuất hiện khi insert và update—đăng ký user, thanh toán, job nền—bởi vì schema lộn xộn khiến mỗi ghi phải làm thêm việc.

Tại sao ghi trở nên tốn kém

Một vài lựa chọn schema âm thầm nhân lên chi phí mỗi thay đổi:

Hàng rộng: nhồi chục (hoặc hàng trăm) cột vào một bảng thường dẫn đến hàng lớn hơn, I/O nhiều hơn và churn cache—dù hầu hết cột hiếm khi dùng.
Quá nhiều chỉ mục: chỉ mục tăng tốc đọc, nhưng mỗi insert/update phải cập nhật chúng.
Trigger và cascade: trigger có thể che giấu công việc (insert/update thêm) sau một INSERT đơn giản. Cascade FK có thể đúng và hữu ích, nhưng vẫn thêm công việc thời gian ghi tăng theo dữ liệu liên quan.

Read-heavy vs write-heavy: chọn nỗi đau có chủ ý

Nếu workload của bạn nặng đọc (feeds, trang tìm kiếm), bạn có thể chịu nhiều chỉ mục và đôi khi phi chuẩn hoá. Nếu nặng ghi (ingest event, telemetry, đơn hàng khối lượng lớn), ưu tiên schema giữ ghi đơn giản và dự đoán được, rồi thêm tối ưu đọc khi cần.

Mẫu giai đoạn đầu thường làm hại ghi

Audit logs: tốt cho compliance, nhưng tránh log snapshot lớn trên mỗi cập nhật.
Event tables: append-only scale tốt, nhưng có thể bloated nếu lưu payload thừa.
Soft deletes: tiện lợi, nhưng tăng kích thước chỉ mục và có thể làm chậm update/query không được lên kế hoạch.

Giữ ghi đơn giản trong khi bảo tồn lịch sử

Cách thực tế:

Lưu “trạng thái hiện tại” trong một bảng, và lịch sử trong bảng append-only riêng.
Giữ hàng lịch sử gọn (chỉ những gì cần: ai/khi nào/đã thay gì).
Thêm chỉ mục cho lịch sử dựa trên pattern truy cập thực (thường entity_id, created_at).
Tránh trigger cho auditing lúc đầu; ưu tiên ghi rõ ràng từ ứng dụng để chi phí hiển thị rõ và có thể test.

Đường ghi sạch cho bạn headroom—và giúp tối ưu truy vấn sau này dễ hơn.

ORM và API khuếch đại quyết định schema

ORM khiến công việc với DB có vẻ nhẹ nhàng: định nghĩa model, gọi method, dữ liệu xuất hiện. Nhưng cạm bẫy là ORM có thể che giấu SQL tốn kém cho đến khi nó gây hại.

ORM: tiện lợi nhưng có thể che dấu mẫu chậm

Hai bẫy phổ biến:

Join không hiệu quả: một .include() hay serializer lồng có vẻ đơn giản nhưng có thể biến thành join rộng, hàng trùng lặp hoặc sort lớn—đặc biệt nếu quan hệ chưa được định nghĩa rõ.
N+1 queries: bạn fetch 50 record, rồi ORM âm thầm chạy 50 truy vấn nữa để load dữ liệu liên quan. Thường nó chạy ổn trong dev và sập khi traffic thực.

Schema được thiết kế tốt giảm cơ hội xuất hiện các pattern này và giúp phát hiện dễ hơn khi xảy ra.

Quan hệ rõ ràng làm ORM an toàn hơn

Khi bảng có foreign keys, unique constraints, và not-null rules, ORM có thể sinh truy vấn an toàn hơn và mã bạn có thể dựa vào giả định nhất quán.

Ví dụ, bắt buộc orders.user_id tồn tại (FK) và users.email là duy nhất ngăn cả lớp vấn đề biên mà nếu không sẽ biến thành kiểm tra ở ứng dụng và công việc truy vấn thêm.

API biến quyết định schema thành hành vi sản phẩm

Thiết kế API là hạ nguồn của schema:

ID ổn định (và kiểu khoá nhất quán) làm URL, cache và trạng thái client đơn giản hơn.
Phân trang tốt nhất khi bạn có thể order theo cột có chỉ mục và đơn điệu (thường created_at + id).
Lọc trở nên dự đoán được khi cột biểu diễn thuộc tính thực (không overload string hoặc JSON blobs) và ràng buộc giữ giá trị sạch.

Làm nó thành quy trình, không là nhiệm vụ cứu hỏa

Xem quyết định schema là kỹ thuật hàng đầu:

Dùng migration cho mọi thay đổi, review như code.
Thêm “review schema” nhẹ cho endpoint mới: bảng nào, khoá nào, ràng buộc gì, hình dạng truy vấn ra sao.
Ở staging, log truy vấn ORM và đánh dấu pattern N+1 trước production.

Nếu bạn xây dựng nhanh với workflow chat-driven (ví dụ tạo app React + Go/PostgreSQL trong Koder.ai), hãy làm “review schema” là một phần sớm của cuộc trò chuyện. Bạn có thể iterate nhanh, nhưng vẫn muốn ràng buộc, khoá và kế hoạch migration rõ ràng trước khi traffic tới.

Dấu hiệu sớm cho thấy schema là cổ chai

Một số vấn đề hiệu suất không phải “SQL xấu” mà là DB chống lại hình dạng dữ liệu. Nếu bạn thấy cùng vấn đề lặp lại trên nhiều endpoint và báo cáo, thường đó là tín hiệu schema, không phải cơ hội tinh chỉnh truy vấn.

Triệu chứng phổ biến để chú ý

Bộ lọc chậm là dấu hiệu kinh điển. Nếu điều kiện đơn giản như “tìm orders theo customer” hoặc “lọc theo ngày tạo” liên tục chậm, vấn đề có thể là thiếu quan hệ, kiểu dữ liệu sai, hoặc cột không thể được chỉ mục hiệu quả.

Một cờ đỏ khác là số lượng join bùng nổ: truy vấn nên join 2–3 bảng nhưng lại chuỗi 6–10 bảng để trả lời câu hỏi cơ bản (thường do lookup quá mức, pattern đa hình, hoặc thiết kế “mọi thứ trong một bảng”).

Cũng chú ý giá trị không nhất quán trong cột hoạt động như enum—nhất là trường status (“active”, “ACTIVE”, “enabled”, “on”). Không nhất quán buộc truy vấn phòng thủ (LOWER(), COALESCE(), chuỗi OR) và luôn chậm dù bạn tối ưu thế nào.

Checklist schema (kiểm tra nhanh)

Thiếu chỉ mục trên foreign keys (join biến thành full scan khi bảng lớn).
Kiểu dữ liệu sai (ví dụ ID lưu dưới dạng string, ngày lưu dạng text, tiền dưới dạng float).
Bảng EAV (Entity–Attribute–Value) dùng cho dữ liệu cốt lõi: linh hoạt lúc đầu, nhưng lọc/sort thành nhiều join và predicate khó chỉ mục.

Chẩn đoán đơn giản, không cần tool đặc thù

Bắt đầu với kiểm tra thực tế: số hàng mỗi bảng và độ phân bố giá trị cho cột chính (bao nhiêu giá trị khác nhau). Nếu cột “status” kỳ vọng 4 giá trị mà bạn thấy 40, schema đã rò rỉ phức tạp.

Rồi xem kế hoạch truy vấn cho endpoint chậm. Nếu lặp đi lặp lại thấy sequential scans trên cột join hoặc tập kết quả trung gian lớn, schema và chỉ mục là nguyên nhân khả dĩ.

Cuối cùng, bật và xem logs truy vấn chậm. Khi nhiều truy vấn khác nhau chậm theo cách giống nhau (cùng bảng, cùng predicate), thường đó là vấn đề cấu trúc đáng sửa ở model.

Tiến hóa schema an toàn khi bạn lớn lên

Thêm ràng buộc theo cách an toàn

Mô hình PK, FK và check từ đầu để ngăn truy vấn chậm về sau.

Bắt đầu xây dựng

Quyết định schema ban đầu hiếm khi sống sót sau khi gặp người dùng thật. Mục tiêu không phải “đạt hoàn hảo”—mà thay đổi mà không phá production, mất dữ liệu, hoặc làm đóng băng đội trong vài ngày.

Quy trình thay đổi nhẹ, có thể lặp lại

Một workflow thực tế mở rộng từ app một người đến đội lớn:

Model: Viết ra hình dạng mới (bảng/cột, quan hệ, và nguồn sự thật). Bao gồm ví dụ bản ghi và các trường hợp biên.
Migrate: Thêm cấu trúc mới theo cách tương thích ngược (thêm cột/bảng trước; tránh xóa/đổi tên ngay lập tức).
Backfill: Populate trường mới từ dữ liệu hiện có theo batch. Theo dõi tiến trình để có thể tiếp tục.
Validate: Thêm ràng buộc chỉ sau khi dữ liệu sạch (ví dụ NOT NULL, FK). Chạy kiểm tra so sánh kết quả cũ và mới.

Feature flags và dual writes (dùng tiết kiệm)

Hầu hết thay đổi schema không cần rollout phức tạp. Ưu tiên “mở rộng và thu gọn”: viết code có thể đọc cả cũ và mới, rồi chuyển writes khi bạn tự tin.

Dùng feature flags hoặc dual writes chỉ khi thật sự cần (traffic lớn, backfill dài, hoặc nhiều service). Nếu bạn dual write, thêm monitoring để phát hiện drift và định rõ bên nào thắng khi xung đột.

Rollback và test migration phản ánh thực tế

Rollback an toàn bắt đầu bằng migration có thể đảo ngược. Tập luyện đường “undo”: drop cột dễ; phục hồi dữ liệu ghi đè thì khó.

Test migration trên khối lượng dữ liệu thực tế. Migration chạy 2s trên laptop có thể khóa bảng vài phút production. Dùng row count và chỉ mục giống production, đo thời gian chạy.

Đây là nơi tooling nền tảng giảm rủi ro: triển khai tin cậy cùng snapshot/rollback giúp an toàn hơn khi iterate schema và logic app. Nếu dùng Koder.ai, tận dụng snapshot và chế độ lập kế hoạch khi chuẩn bị migration cần chuỗi bước cẩn trọng.

Ghi lại quyết định cho người tiếp theo (kể cả bạn tương lai)

Giữ nhật ký schema ngắn: đã thay gì, vì sao, và trade-off được chấp nhận. Link nó trong /docs hoặc README repo. Ghi chú như “cột này intentionally denormalized” hoặc “FK thêm sau backfill vào 2025-01-10” để thay đổi sau không lặp lại lỗi cũ.

Khi nào tối ưu truy vấn (và thứ tự hành động hợp lý)

Tối ưu truy vấn quan trọng—nhưng mang lại giá trị nhất khi schema không chống bạn. Nếu bảng thiếu khoá rõ ràng, quan hệ không nhất quán, hoặc “một hàng cho một thứ” bị vi phạm, bạn có thể mất giờ tune truy vấn mà tuần sau sẽ bị viết lại.

Thứ tự ưu tiên thực tế

Sửa blocker schema trước. Bắt đầu với thứ làm truy vấn đúng khó: thiếu primary key, foreign key không nhất quán, cột trộn nhiều nghĩa, nguồn sự thật bị nhân bản, hoặc kiểu không đúng (ví dụ ngày lưu dưới dạng chuỗi).
Ổn định pattern truy cập. Khi model dữ liệu phản ánh cách app hoạt động (và sẽ tiếp tục trong vài sprint), tuning truy vấn trở nên bền vững.
Tối ưu các truy vấn hàng đầu—không phải tất cả. Dùng logs/APM để xác định truy vấn chậm và hay gặp nhất. Một endpoint bị gọi 10.000 lần/ngày thường có ưu tiên hơn báo cáo admin hiếm gặp.

Quy tắc 80/20 của tối ưu truy vấn sớm

Hầu hết cải thiện ban đầu đến từ vài động tác:

Thêm chỉ mục đúng cho bộ lọc và join phổ biến (và kiểm tra thật sự được dùng).
Trả về ít cột hơn (tránh SELECT *, đặc biệt trên bảng rộng).
Tránh join không cần thiết—đôi khi join tồn tại chỉ vì schema bắt bạn “khám phá” thuộc tính cơ bản.

Đặt kỳ vọng: công việc liên tục, nhưng nền tảng là ưu tiên

Công việc về hiệu suất không bao giờ kết thúc, nhưng mục tiêu là biến nó thành có thể dự đoán. Với schema sạch, mỗi tính năng mới chỉ thêm tải từng bước; với schema lộn xộn, mỗi tính năng thêm vào làm phức tạp tăng theo cấp số nhân.

Checklist cho tuần này

Liệt kê 5 truy vấn chậm nhất và 5 truy vấn phổ biến nhất.
Với mỗi truy vấn, xác nhận: primary key có tồn tại, joins là key-to-key, và kiểu dữ liệu đúng.
Thêm một chỉ mục khớp bộ lọc/order chiếm ưu thế.
Thay SELECT * trong một đường dẫn nóng.
Đo lại và ghi một ghi chú “trước/sau” đơn giản cho sprint tiếp theo.