Tìm hiểu cách tổ chức nội dung, metadata, quy tắc crawl và hiệu năng để AI crawlers và công cụ LLM có thể khám phá, phân tích và trích dẫn trang của bạn một cách đáng tin cậy.

“AI‑optimized” thường được dùng như thuật ngữ marketing, nhưng thực tế nghĩa là trang web của bạn dễ để hệ thống tự động tìm, đọc và tái sử dụng một cách chính xác.
Khi nói AI crawlers, người ta thường ám chỉ các bot do công cụ tìm kiếm, sản phẩm AI hoặc nhà cung cấp dữ liệu vận hành, những bot này lấy trang web để cung cấp tính năng như tóm tắt, trả lời, tập huấn dữ liệu, hoặc hệ thống truy hồi. Lập chỉ mục LLM thường là việc biến trang của bạn thành kho tri thức có thể tìm kiếm (thường là văn bản được “chia chunk” kèm metadata) để trợ lý AI có thể truy xuất đoạn phù hợp và trích dẫn hoặc trích đoạn.
Tối ưu hóa cho AI ít liên quan tới “xếp hạng” hơn và tập trung vào bốn kết quả:
Không ai có thể đảm bảo chắc chắn được inclusion trong một chỉ mục hay mô hình cụ thể. Các nhà cung cấp crawl khác nhau, tuân theo chính sách khác nhau và làm mới theo lịch khác nhau.
Những gì bạn có thể kiểm soát là làm cho nội dung dễ truy cập, dễ trích xuất và dễ gán nguồn—vậy nếu nội dung được dùng, nó sẽ được dùng đúng.
llms.txt đơn giản để hướng dẫn discovery cho LLMNếu bạn xây trang và flow nhanh, nên chọn công cụ không chống lại những yêu cầu này. Ví dụ, các đội dùng Koder.ai (nền tảng lập trình vibe‑chat tạo frontend React và backend Go/PostgreSQL) thường tích hợp sẵn template thân thiện SSR/SSG, routes ổn định và metadata nhất quán từ đầu—vậy “AI‑ready” trở thành mặc định, không phải sửa sau.
LLM và AI crawlers không hiểu trang như con người. Chúng trích xuất văn bản, suy ra quan hệ giữa ý tưởng và cố gắng gán trang với một mục đích rõ ràng. Cấu trúc càng dự đoán được thì càng ít suy đoán sai.
Bắt đầu bằng cách làm cho trang dễ scan dưới dạng văn bản thuần:
Mô hình hữu ích: lời hứa → tóm tắt → giải thích → bằng chứng → bước tiếp theo.
Đặt một tóm tắt ngắn ở đầu (2–5 dòng). Điều này giúp hệ thống AI nhanh chóng phân loại trang và nắm các khẳng định chính.
Ví dụ TL;DR:
TL;DR: Trang này giải thích cách cấu trúc nội dung để AI crawlers có thể trích xuất chủ đề chính, định nghĩa và điểm chính một cách đáng tin cậy.
Lập chỉ mục LLM hoạt động tốt nhất khi mỗi URL trả lời một intent. Nếu bạn trộn mục tiêu không liên quan (ví dụ “giá”, “tài liệu tích hợp”, và “lịch sử công ty” trên cùng một trang), trang sẽ khó phân loại và có thể xuất hiện cho những truy vấn sai.
Nếu cần bao phủ các intent liên quan nhưng khác nhau, tách chúng thành trang riêng và kết nối bằng internal link (ví dụ: /pricing, /docs/integrations).
Nếu khán giả có thể hiểu một thuật ngữ theo nhiều cách, hãy định nghĩa ngay từ đầu.
Ví dụ:
AI crawler optimization: chuẩn bị nội dung site và quy tắc truy cập để các hệ thống tự động có thể khám phá, đọc và diễn giải trang một cách đáng tin cậy.
Chọn một tên cho mỗi sản phẩm, tính năng, gói và khái niệm chính—và dùng nó mọi nơi. Tính nhất quán giúp trích xuất (“Tính năng X” luôn là cùng một thứ) và giảm nhầm lẫn thực thể khi mô hình tóm tắt hoặc so sánh trang.
Hầu hết pipeline lập chỉ mục chia trang thành các chunk và lưu lại các phần khớp tốt nhất để truy xuất. Nhiệm vụ của bạn là làm cho các chunk đó rõ ràng, tự chứa và dễ trích dẫn.
Giữ một H1 cho mỗi trang (lời hứa chính), dùng H2 cho các phần lớn người có thể tìm kiếm, và H3 cho các chủ đề con.
Quy tắc đơn giản: nếu bạn có thể biến các H2 thành mục lục mô tả toàn trang, bạn đang làm đúng. Cấu trúc này giúp hệ thống truy hồi gắn ngữ cảnh đúng cho từng chunk.
Tránh nhãn mơ hồ như “Overview” hoặc “More info.” Thay vào đó, làm tiêu đề trả lời intent của người dùng:
Khi một chunk được kéo ra khỏi ngữ cảnh, tiêu đề thường trở thành “tiêu đề” của nó. Hãy làm cho nó có ý nghĩa.
Dùng đoạn ngắn (1–3 câu) để dễ đọc và giữ chunk tập trung.
Bullet list phù hợp cho yêu cầu, bước và điểm nổi bật. Bảng tốt cho so sánh bởi vì cấu trúc được giữ nguyên.
| Plan | Phù hợp | Giới hạn chính |
|---|---|---|
| Starter | Thử nghiệm | 1 project |
| Team | Hợp tác | 10 projects |
Một phần FAQ nhỏ với câu trả lời ngắn, đầy đủ cải thiện khả năng trích xuất:
Q: Có hỗ trợ upload CSV không?
A: Có—CSV đến 50 MB mỗi file.
Kết thúc các trang chính với khối điều hướng để cả người dùng và crawler theo dõi đường đi theo intent:
Không phải crawler nào cũng hành xử như trình duyệt đầy đủ. Nhiều crawler lấy HTML thô ngay lập tức nhưng không thực thi JavaScript, hoặc chỉ thực thi cầm chừng với timeout. Nếu nội dung chính của bạn chỉ xuất hiện sau client‑side rendering, bạn có nguy cơ “vô hình” với hệ thống làm LLM indexing.
Với trang HTML truyền thống, crawler tải tài liệu và có thể trích headings, đoạn văn, liên kết và metadata ngay lập tức.
Với trang nặng JS, phản hồi đầu tiên có thể là một khung rỗng (vài div và script). Văn bản có ý nghĩa chỉ xuất hiện sau khi script chạy, dữ liệu nạp và component render. Bước thứ hai này là nơi coverage giảm: một số crawler không chạy script; những crawler khác chạy nhưng có timeout hoặc hỗ trợ một phần.
Với các trang bạn muốn lập chỉ mục—mô tả sản phẩm, giá, FAQ, docs—hãy ưu tiên:
Mục tiêu không phải “không dùng JavaScript” mà là HTML có ý nghĩa trước, JS ở sau.
Tabs, accordion và “read more” ổn nếu văn bản đã ở trong DOM. Vấn đề xảy ra khi nội dung tab chỉ được lấy sau click, hoặc tiêm vào sau yêu cầu client‑side. Nếu nội dung đó quan trọng cho khám phá AI, hãy đưa vào HTML ban đầu và dùng CSS/ARIA để điều khiển hiển thị.
Dùng hai kiểm tra sau:
Nếu headings, nội dung chính, liên kết nội bộ hoặc trả lời FAQ chỉ xuất hiện trong Inspect Element nhưng không có trong View Source, coi đó là rủi ro rendering và chuyển nội dung vào output render phía server.
AI crawlers và bot tìm kiếm truyền thống đều cần quy tắc truy cập rõ ràng. Nếu bạn vô tình chặn nội dung quan trọng — hoặc cho phép crawlers vào khu vực riêng tư hay “lộn xộn” — bạn có thể lãng phí crawl budget và làm ô nhiễm những gì được lập chỉ mục.
Dùng robots.txt cho quy tắc rộng: thư mục hoặc pattern URL nào nên crawl hoặc tránh.
Mức cơ bản thực tế:
/admin/, /account/, kết quả tìm kiếm nội bộ, hoặc các URL có tham số sinh ra vô số biến thể.Ví dụ:
User-agent: *
Disallow: /admin/
Disallow: /account/
Disallow: /internal-search/
Sitemap: /sitemap.xml
Quan trọng: chặn bằng robots.txt ngăn crawling, nhưng không luôn đảm bảo một URL không xuất hiện trong chỉ mục nếu nó được tham chiếu ở nơi khác. Để kiểm soát lập chỉ mục, dùng directive cấp trang.
Dùng meta name="robots" trong HTML và X‑Robots‑Tag header cho file không phải HTML (PDF, feed, export). Các mẫu phổ biến:
noindex,follow để các liên kết vẫn truyền qua nhưng trang không vào chỉ mục.noindex—bảo vệ bằng xác thực và cân nhắc chặn crawl.noindex kèm canonical hợp lý.Ghi lại và thực thi quy tắc theo môi trường:
noindex toàn cục (header là dễ nhất) để tránh bị lập chỉ mục vô tình.Nếu kiểm soát truy cập ảnh hưởng dữ liệu người dùng, đảm bảo chính sách user‑facing khớp với thực tế (xem /privacy và /terms khi cần).
Nếu bạn muốn hệ thống AI (và crawler) hiểu và trích dẫn trang của bạn một cách nhất quán, hãy giảm các tình huống “cùng nội dung, nhiều URL”. Bản sao lãng phí crawl budget, tách tín hiệu và có thể khiến phiên bản sai bị lập chỉ mục hoặc trích dẫn.
Hướng tới URL tồn tại trong nhiều năm. Tránh lộ tham số không cần thiết như session ID, tùy chọn sắp xếp hoặc mã theo dõi trong URL có thể lập chỉ mục (ví dụ: ?utm_source=..., ?sort=price, ?ref=). Nếu tham số cần cho chức năng (lọc, phân trang, tìm nội bộ), đảm bảo phiên bản “chính” vẫn truy cập được tại một URL sạch, ổn định.
URL ổn định cải thiện trích dẫn dài hạn: khi một LLM học hoặc lưu tham chiếu, sẽ dễ trỏ tới cùng một trang nếu cấu trúc URL không thay đổi qua mỗi redesign.
Thêm link rel="canonical"r trên các trang dễ có bản sao:
Canonical nên trỏ tới URL ưu tiên, có thể lập chỉ mục (và lý tưởng là URL canonical đó trả về status 200).
Khi một trang chuyển vĩnh viễn, dùng redirect 301. Tránh chuỗi redirect (A → B → C) và vòng lặp; chúng làm chậm crawler và có thể dẫn tới lập chỉ mục không hoàn chỉnh. Redirect trực tiếp từ URL cũ tới đích cuối cùng và giữ nhất quán giữa HTTP/HTTPS và www/non‑www.
Triển khai hreflang chỉ khi bạn có các phiên bản địa phương thực sự (không chỉ là các đoạn dịch). Hreflang sai có thể gây nhầm lẫn về trang nào nên được trích dẫn cho khán giả nào.
Sitemaps và internal link là “hệ thống giao hàng” cho discovery: chúng cho crawler biết những gì tồn tại, cái nào quan trọng và cái nào nên bỏ qua. Với AI crawlers và LLM indexing, mục tiêu đơn giản—làm cho các URL tốt nhất, sạch nhất dễ tìm và khó bỏ sót.
Sitemap nên bao gồm chỉ các URL canonical, có thể lập chỉ mục. Nếu một trang bị robots.txt chặn, noindex, redirect hoặc không phải là phiên bản canonical, nó không thuộc sitemap. Điều này giữ crawl budget tập trung và giảm nguy cơ một LLM lấy phải bản sao hoặc phiên bản cũ.
Giữ định dạng URL nhất quán (trailing slash, chữ thường, HTTPS) để sitemap phản ánh quy tắc canonical.
Nếu có nhiều URL, tách thành nhiều file sitemap (giới hạn phổ biến: 50.000 URL mỗi file) và xuất bản sitemap index liệt kê từng sitemap. Tổ chức theo loại nội dung khi hữu ích, ví dụ:
/sitemaps/pages.xml/sitemaps/blog.xml/sitemaps/docs.xmlĐiều này dễ quản lý hơn và giúp giám sát những gì được khám phá.
lastmod như tín hiệu tin cậy, không phải timestamp deployCập nhật lastmod có suy nghĩ—chỉ khi trang thay đổi có ý nghĩa (nội dung, giá, chính sách, metadata chính). Nếu mọi URL cập nhật khi deploy, crawler sẽ bỏ qua trường này, và cập nhật quan trọng có thể bị truy xuất muộn.
Cấu trúc hub‑and‑spoke giúp người dùng và máy. Tạo hub (category, product, topic) liên kết tới các trang “spoke” quan trọng, và mỗi spoke liên kết lại hub. Thêm liên kết ngữ cảnh trong nội dung, không chỉ trong menu.
Nếu bạn xuất bản nội dung giáo dục, giữ điểm vào chính rõ ràng—gửi người dùng tới /blog cho bài viết và /docs cho tài liệu tham khảo sâu.
Structured data là cách gắn nhãn một trang là gì (article, product, FAQ, organization) bằng định dạng mà máy đọc được đáng tin cậy. Công cụ tìm kiếm và hệ thống AI không phải đoán văn bản nào là tiêu đề, ai là tác giả hay thực thể chính—chúng có thể parse trực tiếp.
Dùng type Schema.org khớp với nội dung:
Chọn một type chính cho mỗi trang, rồi thêm property bổ trợ (ví dụ, Article có thể tham chiếu Organization là publisher).
Crawler và công cụ so sánh structured data với trang hiển thị. Nếu markup tuyên bố có FAQ mà trang không hiển thị, hoặc liệt kê tên tác giả mà không thấy trên trang, bạn tạo mâu thuẫn và nguy cơ markup bị bỏ qua.
Với trang nội dung, bao gồm author cùng datePublished và dateModified khi chúng là thực và có ý nghĩa. Điều này làm rõ độ tươi và trách nhiệm—hai yếu tố LLM thường tìm khi quyết định tin cậy.
Nếu bạn có profile chính thức, thêm sameAs (ví dụ, profile mạng xã hội đã xác thực) vào Organization schema.
{
"@context": "https://schema.org",
"@type": "Article",
"headline": "Build a Website Ready for AI Crawlers and LLM Indexing",
"author": { "@type": "Person", "name": "Jane Doe" },
"datePublished": "2025-01-10",
"dateModified": "2025-02-02",
"publisher": {
"@type": "Organization",
"name": "Acme",
"sameAs": ["https://www.linkedin.com/company/acme"]
}
}
Cuối cùng, validate bằng các công cụ phổ biến (Google’s Rich Results Test, Schema Markup Validator). Sửa lỗi và xử lý cảnh báo có trọng tâm: ưu tiên những cảnh báo liên quan type bạn chọn và các property quan trọng (title, author, dates, product info).
Một file llms.txt là “thẻ ghi chú” nhỏ, dễ đọc cho crawlers tập trung vào language model (và người cấu hình chúng), chỉ tới các điểm vào quan trọng: docs, trang sản phẩm chính và tài liệu tham khảo giải thích thuật ngữ.
Nó không phải tiêu chuẩn có hành vi cố định trên mọi crawler, và bạn không nên xem nó thay thế sitemaps, canonical hoặc robots. Hãy coi nó như một lối tắt hữu ích cho discovery và ngữ cảnh.
Đặt ở root site để dễ tìm:
/llms.txtÝ tưởng giống robots.txt: vị trí dự đoán, fetch nhanh.
Giữ ngắn và tuyển chọn. Ứng viên tốt:
Cân nhắc thêm ghi chú style ngắn giảm mơ hồ (ví dụ, “Chúng tôi gọi khách hàng là ‘workspace’ trong UI”). Tránh copy dài dòng marketing, dump URL đầy đủ, hoặc bất cứ điều gì mâu thuẫn với canonical.
Ví dụ đơn giản:
# llms.txt
# Purpose: curated entry points for understanding and navigating this site.
## Key pages
- / (Homepage)
- /pricing
- /docs
- /docs/getting-started
- /docs/api
- /blog
## Terminology and style
- Prefer “workspace” over “account”.
- Product name is “Acme Cloud” (capitalized).
- API objects: “Project”, “User”, “Token”.
## Policies
- /terms
- /privacy
Tính nhất quán quan trọng hơn khối lượng:
robots.txt (tạo tín hiệu lẫn lộn).Một routine thực tế để giữ nhỏ và chính xác:
llms.txt và xác nhận vẫn là điểm vào tốt nhất.llms.txt khi thay sitemap hoặc thay canonical.Làm tốt, llms.txt giữ nhỏ, chính xác và thực sự hữu ích—mà không hứa hẹn cách crawler cụ thể sẽ hành xử.
Crawler (kể cả AI‑focused) hành xử giống người dùng thiếu kiên nhẫn: nếu site bạn chậm hoặc không ổn định, chúng sẽ lấy ít trang hơn, ít thử lại hơn, và làm mới chỉ mục ít thường xuyên hơn. Hiệu năng tốt và phản hồi server đáng tin cậy tăng cơ hội nội dung được khám phá, crawl lại và được cập nhật.
Nếu server thường timeout hoặc trả lỗi, crawler có thể tự động lui lại. Điều đó nghĩa trang mới xuất hiện chậm hơn và cập nhật sẽ không phản ánh nhanh.
Hướng tới uptime ổn định và thời gian phản hồi dự đoán được trong giờ cao điểm—không chỉ điểm số “lab”.
TTFB là tín hiệu mạnh về sức khỏe server. Một vài cải thiện hiệu quả:
Dù crawler không “nhìn” ảnh như người, file lớn vẫn lãng phí thời gian và băng thông crawl.
Crawler dựa vào status code để quyết định giữ hay loại bỏ:
Nếu văn bản chính yêu cầu xác thực, nhiều crawler chỉ lập chỉ mục phần vỏ. Giữ truy cập đọc cốt lõi công khai, hoặc cung cấp bản xem trước crawlable bao gồm nội dung then chốt.
Bảo vệ site khỏi lạm dụng nhưng tránh chặn thô bạo. Ưu tiên:
Retry‑AfterĐiều này giữ site an toàn trong khi vẫn cho crawler có trách nhiệm làm việc.
“E‑E‑A‑T” không cần tuyên bố lớn hay huy hiệu cầu kỳ. Với AI crawlers và LLM, chủ yếu nghĩa là site rõ ràng về ai viết nội dung, nguồn của các sự thật và ai chịu trách nhiệm duy trì.
Khi bạn nêu một sự thật, gắn nguồn gần nhất có thể với khẳng định. Ưu tiên tham chiếu chính thức (luật, tổ chức tiêu chuẩn, docs nhà cung cấp, bài báo khoa học) hơn tóm tắt thứ cấp.
Ví dụ, nếu nhắc structured data, tham khảo tài liệu của Google (“Google Search Central — Structured Data”) và, khi phù hợp, định nghĩa schema (“Schema.org vocabulary”). Nếu bàn về robots directives, tham khảo tiêu chuẩn và tài liệu crawler chính thức (ví dụ, “RFC 9309: Robots Exclusion Protocol”). Ngay cả khi không link ra mọi chỗ, hãy đưa đủ chi tiết để người đọc tìm đúng tài liệu.
Thêm byline tác giả kèm bio ngắn, chứng chỉ và trách nhiệm. Rồi làm rõ quyền sở hữu:
Tránh ngôn ngữ “tốt nhất” và “đảm bảo”. Thay vào đó mô tả bạn đã test gì, cái gì thay đổi và giới hạn ra sao. Thêm ghi chú cập nhật ở đầu hoặc cuối trang chính (ví dụ, “Updated 2025‑12‑10: clarified canonical handling for redirects”). Điều này tạo dấu vết bảo trì mà cả người và máy có thể hiểu.
Định nghĩa thuật ngữ chính một lần, rồi dùng nhất quán trên site (ví dụ, “AI crawler,” “LLM indexing,” “rendered HTML”). Một trang glossary nhẹ (ví dụ /glossary) giảm mơ hồ và làm nội dung dễ tóm tắt chính xác.
Site sẵn sàng cho AI không phải dự án một lần. Những thay đổi nhỏ—một cập nhật CMS, redirect mới, hay redesign navigation—có thể vô tình phá discovery và indexing. Một routine kiểm tra đơn giản giúp bạn không đoán mò khi traffic hoặc visibility thay đổi.
Bắt đầu với cơ bản: track lỗi crawl, coverage index và top‑linked pages. Nếu crawler không lấy được URL quan trọng (timeout, 404, tài nguyên bị chặn), lập chỉ mục LLM giảm nhanh.
Theo dõi thêm:
Sau mỗi lần ra mắt (kể cả “nhỏ”), rà soát những gì thay đổi:
Kiểm tra 15 phút sau release thường bắt được vấn đề trước khi ảnh hưởng lâu dài.
Chọn vài trang giá trị cao và thử tóm tắt bằng công cụ AI hoặc script tóm tắt nội bộ. Tìm:
Nếu tóm tắt mơ hồ, giải pháp thường là biên tập: mạnh hơn H2/H3, câu mở rõ ràng hơn và thuật ngữ cụ thể.
Biến những gì học được thành checklist định kỳ và giao owner (tên thật, không phải “marketing”). Giữ nó sống và có thể hành động—rồi liên kết phiên bản mới nhất nội bộ để cả team dùng chung playbook. Xuất bản tham khảo nhẹ như /blog/ai-seo-checklist và cập nhật khi site và tooling thay đổi.
Nếu team deploy nhanh (đặc biệt với phát triển hỗ trợ AI), cân nhắc thêm check “AI readiness” vào workflow build/release: template luôn output canonical, trường tác giả/ngày nhất quán và nội dung cốt lõi render phía server. Các nền tảng như Koder.ai có thể giúp bằng cách biến những mặc định đó thành lặp lại trên các trang React mới và bề mặt app—và cho phép bạn iterate qua planning mode, snapshot và rollback khi thay đổi vô tình ảnh hưởng crawlability.
Cải tiến nhỏ, liên tục cộng dồn: ít lỗi crawl hơn, lập chỉ mục sạch hơn và nội dung dễ hiểu hơn cho cả người và máy.
Điều đó có nghĩa trang của bạn dễ để các hệ thống tự động tìm, đọc và tái sử dụng chính xác.
Thực tế, điều này bao gồm URL có thể được crawl, cấu trúc HTML sạch, attribution rõ ràng (tác giả/ngày/nguồn), và nội dung viết thành các đoạn tự chứa mà hệ thống truy xuất có thể khớp với câu hỏi cụ thể.
Không thể đảm bảo một cách chắc chắn. Các nhà cung cấp khác nhau crawl theo lịch khác nhau, tuân theo chính sách khác nhau và có thể không crawl bạn.
Tập trung vào những gì bạn kiểm soát được: làm cho trang của bạn dễ truy cập, rõ ràng, tải nhanh và dễ gán nguồn để nếu được sử dụng, thì được sử dụng đúng cách.
Hướng tới HTML có nội dung ý nghĩa trong phản hồi ban đầu.
Dùng SSR/SSG/hybrid cho các trang quan trọng (giá, docs, FAQ). Sau đó dùng JavaScript để tăng tính tương tác. Nếu văn bản chính chỉ xuất hiện sau khi hydrate hoặc gọi API, nhiều crawler sẽ bỏ lỡ nó.
So sánh:
Nếu các tiêu đề chính, nội dung, liên kết nội bộ hoặc câu trả lời FAQ chỉ xuất hiện trong Inspect Element, hãy chuyển nội dung đó vào HTML được render phía server.
Dùng robots.txt cho các quy tắc crawl rộng (ví dụ: chặn /admin/), và meta robots / X-Robots-Tag cho quyết định lập chỉ mục từng trang hoặc file.
Mẫu phổ biến là noindex,follow cho các trang tiện ích mỏng, và dùng xác thực (không chỉ noindex) cho khu vực riêng tư.
Dùng một URL chuẩn ổn định cho mỗi nội dung.
rel="canonical" nơi dễ có bản sao (lọc, tham số, biến thể).Điều này giảm tín hiệu bị phân tán và giúp trích dẫn nhất quán theo thời gian.
Chỉ bao gồm URL canonical, có thể lập chỉ mục.
Loại bỏ URL bị redirect, noindex, bị chặn bởi robots.txt hoặc bản sao không phải canonical. Giữ định dạng nhất quán (HTTPS, slash ở cuối, chữ thường) và dùng lastmod chỉ khi nội dung thực sự thay đổi.
Xem nó như một “thẻ ghi chú” tuyển chọn các điểm vào tốt nhất (hub docs, getting started, glossary, policies).
Giữ ngắn gọn, chỉ liệt kê URL bạn muốn được khám phá và trích dẫn, và đảm bảo mỗi liên kết trả về 200 với canonical đúng. Không dùng để thay thế sitemap, canonical hoặc robots.
Viết trang để từng đoạn (chunk) có thể đứng riêng:
Điều này tăng độ chính xác khi truy xuất và giảm tóm tắt sai.
Thêm và duy trì các tín hiệu tin cậy hiển nhiên:
datePublished và dateModified có ý nghĩaNhững dấu hiệu này giúp attribution và citation đáng tin cậy hơn cho cả crawler và người dùng.