Tối ưu AI Citation (phần 3): AI chọn nguồn truy xuất và phân bổ trích dẫn như nào?

Chúng ta biết, tối ưu khả năng hiển thị AI (AI visibility) là một quy trình gồm 3 bước: Được truy xuất (Retrieval) → Được trích dẫn (Citation) → Được tin tư...

Chúng ta biết, tối ưu khả năng hiển thị AI (AI visibility) là một quy trình gồm 3 bước: Được truy xuất (Retrieval) → Được trích dẫn (Citation) → Được tin tưởng (Trust). Nội dung gần nhất của Infinity đã chia sẻ một phần nhỏ trong bước thứ 2 (Citation) của quy trình này “Nội dung như nào được AI ưu tiên trích dẫn” . Trong phân tích này sẽ trả lời cho câu hỏi “AI chọn nguồn trích dẫn như thế nào, phân bổ ra sao và dựa vào điều kiện như nào?” thuộc về bước 1 truy xuất (Retrieval) dựa trên nghiên cứu của Airops [1].

Tóm tắt các điểm chính

Trên thực tế, chúng ta vẫn không biết chính xác nguồn dữ liệu huấn luyện của các LLMs như thế nào? Nhưng dựa trên dữ liệu thu thập bao gồm: cách LLMs tạo các truy vấn phụ (query fan-out), kết quả đầu ra (thống kê tên miền), và các câu trả lời ... chúng ta biết:

Khoảng 30 tên miền chiếm 67% trích dẫn trong mỗi chủ đề. Top 10 tên miền chiếm 46%. Hệ thống trích dẫn AI vẫn rất tập trung, dù ít hơn một chút so với organic search truyền thống.
Lợi thế nội dung dài rõ nhất ở ngưỡng 10.000 ký tự (khoảng 2000-2500 từ) nhưng hoàn toàn phụ thuộc ngành. Finance đảo ngược: trang ngắn, cô đọng thắng trang
58% URL chỉ được trích dẫn cho đúng 1 câu hỏi rồi biến mất. Nhưng top 4,8% URL (xuất hiện trong 10+ câu hỏi khác nhau) đều là trang so sánh hoặc hướng dẫn danh mục.
Citation breadth (số câu hỏi khác nhau mà 1 tên miền xuất hiện) là chỉ số chiến lược quan trọng hơn tổng số lần trích dẫn. Xuất hiện trong 100 câu hỏi khác nhau giá trị hơn được trích dẫn 100 lần cho cùng 1 câu hỏi.
Mô hình ski ramp từ Phần 2 được xác nhận trên 7 ngành với 42.460 trích dẫn: đỉnh thực sự nằm ở dải 10–20% (không phải câu mở đầu), đáy 10% cuối gần như vô hình (2,4–4,4% trích dẫn).
Infinity kết luận các tên miền sở hữu tỷ lệ trích dẫn cao xây dựng hệ thống kiến trúc chủ đề chặt chẽ, nắm giữ topical authority sâu, lặp lại thẩm quyền và hình thành Brand Authority.

Nội dung này mở ra bức tranh về thị phần, bài toán chia sẻ thị phần hơn là góc nhìn kỹ thuật: thống kê LLMs phân phối trích dẫn, thị phần tổ chức nhắm tới trong LLM, xây dựng nội dung dựa trên thị phần ngành và khách hàng mục tiêu, kiến trúc Topic First-SEO giúp nhắm mục tiêu và không gặp vấn đề rủi ro thuật toán.

1/ Trang xếp hạng cao trên Google có được ChatGPT trích dẫn không?

Trong số các trang xếp hạng #1 trên Google, 43,2% được ChatGPT trích dẫn. Con số này cao gấp 3,5 lần so với các trang nằm ngoài top 20. Xếp hạng tốt trên Google giúp tăng cơ hội, nhưng không đảm bảo sẽ được AI trích dẫn.

Trong số các trang xếp hạng #1 trên Google , 43,2% được ChatGPT trích dẫn . Con số này cao hơn 3,5 lần so với tỷ lệ trích dẫn của các trang xếp hạng ngoài top 20 kết quả tìm kiếm của Google. Nguồn [1]

Nghiên cứu của AirOps trên 548.534 trang mà ChatGPT đã thu thập (retrieved) và 15.000 prompt cho thấy: ChatGPT thu thập gấp khoảng 6 lần so với số trang nó thực sự trích dẫn. Cụ thể, 85% trang được thu thập không bao giờ xuất hiện trong câu trả lời cuối cùng.

Một chi tiết đáng chú ý: 1/3 số trang được trích dẫn đến từ Query Fan-out. Query Fan-out là các truy vấn phụ mà ChatGPT tự tạo thêm trong quá trình tìm câu trả lời, ví dụ: khi người dùng hỏi "CRM nào tốt nhất cho startup?", ChatGPT có thể tự tìm thêm "so sánh giá CRM 2026" hoặc "CRM cho team nhỏ dưới 10 người." 95% fan-out query này có search volume bằng 0 trên Google. Điểm cần lưu ý, đây là những truy vấn mà SEO truyền thống không bao giờ nhắm tới nhưng AI lại dùng để xây dựng câu trả lời.

Nguyên tắc nền tảng: được Google lập chỉ mục (index) và xếp hạng là tín hiệu (signal) không phải yếu tố (factor). Nhưng điểm nhấn ở đây là quy trình lọc riêng của LLMs mới quyết định trang nào thực sự xuất hiện trong câu trả lời.

Phân tích có so sánh dữ liệu từ Google Ranking với citation rate, đây là so sánh tương quan, và không có mối quan hệ nhân quả. Thêm một điểm mấu chốt nữa AEO và SEO là 2 hệ thống khác nhau hoạt động theo 2 cơ chế khác nhau.

Điểm mấu chốt:

Cơ chế của xếp hạng và trích dẫn thuộc về hai nền tảng khác nhau. 43,2% các trang #1 được ChatGPT trích dẫn đồng nghĩa với 56.8% các trang # còn lại không được trích dẫn
Xếp hạng dựa trên từ khóa, trích dẫn dựa trên query fan-out - truy vấn được phân tán từ câu hỏi đầu tiên người dùng nhập vào.
Vấn đề chọn nguồn: Google ranking vẫn dựa trên Domain Authority, Trích dẫn của các LLMs dựa trên Topical Authority (thẩm quyền chủ đề)

Khi hàng trăm tên miền cùng cạnh tranh 1 chủ đề, LLM chọn tên miền nào để trích dẫn? Đầu tiên, xét mẫu dữ liệu dưới đây để xem hệ thống ChatGPT phân phối trích dẫn như thế nào?

2/ Trong mỗi chủ đề, bao nhiêu tên miền chiếm phần lớn trích dẫn AI?

Tìm kiếm truyền thống là trò chơi có hiệu ứng "người thắng được tất cả": kết quả top 1 nhận click ~ gấp đôi kết quả #2, cứ như vậy giảm dần. Vậy trong hệ thống LLMs, Câu hỏi đặt ra: phân bổ trích dẫn ChatGPT trong một chủ đề có tương tự?

Phân tích tỷ lệ trích dẫn theo tên miền trên 21.482 dòng trích dẫn, 670 tên miền, 2.344 URL và 127 prompt cho thấy: Có 10 tên miền chiếm 46% trích dẫn. Có 30 tên miền chiếm 67%. Lưu ý: Đây là con số trên kết quả đầu ra của ChatGPT (không phải rank Google).

Biểu đồ cumulative share trích dẫn AI theo top domain, cho thấy top 30 chiếm 67%

Hệ thống trích dẫn AI phân phối trải đều hơn organic search truyền thống (nơi kết quả #1 chiếm phần lớn click, CTR top 1 ~25-35%) - nghĩa là thị phần được chia sẻ nhiều hơn so với xếp hạng top 10 của tìm kiếm truyền thống. Trong khi đó, thị phần share trích dẫn của GPT cho thấy 30 domain hàng đầu của lĩnh vực chia sẻ chung 67% tổng số trích dẫn. Mục 5 sẽ cho bạn biết loại nội dung nào được cite hơn trên mỗi URL.

Ngoài ra, để hiểu rõ hơn, cần phân biệt 2 chỉ số mà nội dung này dùng xuyên suốt:

Citation count = tổng số lần một URL được trích dẫn.

Citation breadth (hay citation reach) = số câu hỏi khác nhau mà URL đó xuất hiện. Đo "phạm vi ảnh hưởng." (chú thích: xem phần 5 của nội dung này)

Về mặt chiến lược, citation breadth có giá trị cao hơn citation count vì nó cho thấy URL đang trả lời được nhiều loại câu hỏi, không chỉ lặp lại cho cùng một truy vấn.

Điểm mấu chốt: trong mỗi chủ đề chỉ có khoảng 30 tên miền cùng nhau chia sẻ dàn trải thị phần trong cùng lĩnh vực. Nếu bạn không lọt vào trong top 30 ngành, thị phần và cơ hội của bạn ít đi.

10 tên miền hàng đầu chiếm 46% tổng số trích dẫn về một chủ đề, 30 tên miền hàng đầu chiếm 67%. Vậy điều điều này có đúng với các ngành?

3/ Mức độ chia sẻ thị phần trích dẫn khác nhau thế nào giữa các ngành?

"Chia sẻ trích dẫn (chia sẻ thị trường): một vài tên miền chiếm phần lớn trích dẫn trong ngành đó. Ngành càng tập trung, càng ít chỗ cho tên miền mới gia nhập. Ngành càng phân tán (có nhiều ngách - phân mảnh), cơ hội càng mở.

Biểu đồ cumulative share trích dẫn AI theo top domain, cho thấy top 30 chiếm 67%

Mẫu hình tập trung trích dẫn thay đổi đáng kể giữa các ngành, phản ánh mức độ trưởng thành và cấu trúc truy vấn của từng danh mục.

3 hàm ý chiến lược từ phân bổ theo ngành:

1/ Phạm vi phủ chủ đề quan trọng hơn "domain authority" như đã nói tại phần 1. Một trang được xây dựng có định dạng, cấu trúc và kiến trúc tốt có thể vượt trội hơn domain của thương hiệu nổi tiếng. Topical authority > Domain authority trong hệ thống trích dẫn của AI (củng cố lại cho nội dung 4 chiến thuật tối ưu AI Mode). Mục tiêu không phải xếp hạng cho 1 truy vấn, mà trả lời cả cụm truy vấn.

2/ Mức tập trung phản ánh mức trưởng thành danh mục. Giáo dục và Crypto có không gian truy vấn hẹp, rõ ràng, nơi vài nguồn uy tín đã "khóa" niềm tin. Y tế và CRM là danh mục rộng, phân mảnh, không tên miền nào chi phối. Sự phân mảnh đó là cơ hội.

3/ Citation breadth (số prompt riêng biệt mà URL được trích dẫn) là chỉ số chiến lược hữu ích hơn tổng số trích dẫn. Trong ngành phân tán như Y tế và CRM, chiến lược tập trung vào 30-50 trang có thể cạnh tranh hiệu quả để giành được một vị trí trong ngành. Trong ngành tập trung như Giáo dục và Crypto, con đường hẹp hơn: trở thành nguồn định nghĩa cho một chủ đề con cụ thể, hoặc chấp nhận cạnh tranh cho phần thừa.

Dựa trên các truy vấn (prompt), tiếp tục xét tới độ dài nội dung của các URL được trích dẫn.

4/ Độ dài nội dung ảnh hưởng thế nào đến số lượng trích dẫn?

Trong tìm kiếm truyền thống, độ dài nội dung có tương quan với xếp hạng (khi chất lượng cao). Câu hỏi: điều này có đúng cho trích dẫn ChatGPT?

Đo độ dài văn bản thô của mỗi trang được trích dẫn, phân thành 7 nhóm ngành và tính trung bình trích dẫn mỗi trang cho từng nhóm:

Biểu đồ tương quan giữa độ dài nội dung (7 bucket) và số citation trung bình mỗi trang

Bước nhảy từ 5.000 đến 10.000 ký tự là mức tăng đơn lẻ lớn nhất gần gấp 2 lần. Trang trên 20.000 ký tự trung bình 10,18 trích dẫn, so với 2,39 cho trang dưới 500 ký tự.

Nhưng tín hiệu độ dài thay đổi mạnh theo ngành:

Tài chính đảo ngược hoàn toàn. Trang Tài chính được trích dẫn nhiều có trung bình 1.783 từ, so với 2.084 từ cho trang trích dẫn thấp (hệ số 0,86x). Nguồn súc tích có thẩm quyền; bảng lãi suất; tóm tắt quy định... có lợi thế trích dẫn. Tài chính đạt đỉnh ở 5.000–10.000 từ (10,9 trích dẫn/trang), rồi giảm mạnh ở 10.000–20.000 (4,92).

Lĩnh vực tài chính đạt đỉnh điểm ở khoảng 5.000-10.000 từ (10,9 trích dẫn/trang), sau đó giảm mạnh ở khoảng 10.000-20.000 từ (4,92 trích dẫn/trang).

Trang Tài chính quá dài có thể pha loãng nội dung kích hoạt trích dẫn bằng chi tiết thừa.

Giáo dục cho thấy mẫu hình "dài = thắng" rõ nhất. Trích dẫn tăng đều từ 1,85 (dưới 500 từ) lên 6,05 (trên 20.000 từ) không có điểm giảm.
Crypto và Product Analytics tương tự Giáo dục: độ dài trả thưởng nhất quán, ổn định quanh ngưỡng 10.000–20.000. Cả hai là ngành kỹ thuật nơi tính toàn diện phát tín hiệu thẩm quyền.
CRM/SaaS có hiệu ứng độ dài yếu nhất. Trích dẫn dao động từ 1,06 (1.000–2.000 từ) đến 2,77 (trên 20.000 từ). Ngay cả trang CRM dài nhất cũng chỉ được 2,77 trích dẫn trung bình. Trong ngành này, độ dài không quyết định trích dẫn; cấu trúc, format và uy tín tên miền quan trọng hơn.
Y tế có hiệu ứng trung bình (1,74 đến 3,92) nhưng với bất thường: trang 5.000–10.000 từ (2,80) hiệu suất kém so với 2.000–5.000 từ (3,36). Trang Y tế quá dài có thể chứa quá nhiều chi tiết lâm sàng pha loãng nội dung kích hoạt trích dẫn.

Phát hiện phổ quát duy nhất: trang rất ngắn (dưới 1.000 từ) hoạt động kém hiệu quả trong mọi ngành. Nội dung mỏng kém hiệu quả nhất quán trong mọi ngành, nhưng phần thưởng cho nội dung dài phụ thuộc ngành.

5/ Một URL có thể xuất hiện trong bao nhiêu câu hỏi khác nhau?

Khi xem xét số lượng trích dẫn trong một chủ đề, chúng ta thường thấy nhiều URL trên cùng một tên miền được trích dẫn. Vậy, một URL có thể nhận được bao nhiêu trích dẫn?

Phương pháp:

Đếm số lượng lời nhắc duy nhất cho mỗi trang.
Phân loại số lượng trích dẫn thành: 1, 2-5, 6-10, 11+
Kiểm tra các URL hàng đầu theo từng lĩnh vực để tìm các mẫu cấu trúc.

Trung bình 67% URL chỉ xuất hiện trong 1 prompt duy nhất. Nhưng top 4,8% URL (trích dẫn trên 10 prompt) đều là trang danh mục so sánh hoặc hướng dẫn tổng hợp, trả lời "X là gì", "ai dùng X", "cách chọn X" và "giá X" trong cùng một URL.

Biểu đồ phân bổ citation breadth, 67% URL chỉ xuất hiện 1 lần, top 4,8% xuất hiện 10+ prompt

Mẫu hình theo ngành:

CRM/SaaS có tỷ lệ "trích dẫn một lần" cao nhất: 84,7%. Hầu hết trang CRM chỉ trả lời được 1 truy vấn cụ thể.
Tài chính tạo ra trang evergreen có phạm vi rộng nhất
Crypto có trang evergreen tập trung nhất với 55,4% ở tầng kỹ thuật
Giáo dục theo logic khác: được trích dẫn rộng vì trả lời các truy vấn liên quan TEFL (chi phí, địa điểm, loại chứng chỉ) từ một nguồn duy nhất. Một URL phục vụ nhiều góc truy vấn.
Trang evergreen chia sẻ các mẫu cấu trúc nhất quán: format hướng dẫn cấp danh mục ("X tốt nhất 2026"), phủ rộng chủ đề trong một trang (X là gì, cách chọn X, top nhà cung cấp X, giá), và neo năm rõ ràng trong URL hoặc tiêu đề. Trang trả lời một lớp câu hỏi (class of questions) đạt phạm vi trích dẫn rộng.

Điểm mấu chốt cần nắm:

Nội dung dùng khái niệm citation breadth (chiều rộng trích dẫn) để đo giá trị chiến lược của một URL. Khác với citation count (tổng số lần trích dẫn, đo "URL này phổ biến cỡ nào"), citation breadth đo "URL này trả lời được bao nhiêu câu hỏi khác nhau."

1/ Một trang evergreen trong hệ thống trích dẫn AI không phải trang được trích dẫn nhiều lần cho cùng một câu hỏi. Theo Infinity, trang evergreen đối với hệ thống AI thực sự là trang liên tục xuất hiện khi người dùng hỏi nhiều câu hỏi đa dạng. Đó là sự khác biệt giữa phổ biến và có giá trị bền vững. (cũng giống với việc một URL lên top hàng nghìn từ khóa trong SEO truyền thống)

2/ Top 4,8% URL (xuất hiện trong 10+ câu hỏi khác nhau) chia sẻ 3 đặc điểm cấu trúc nhất quán: định dạng hướng dẫn cấp danh mục (ví dụ: "best X for 2026"), bao phủ nhiều góc câu hỏi trong cùng một trang (X là gì, lợi ích của X, dùng X như thế nào, giá X ra sao...), và gắn năm rõ ràng trong URL hoặc tiêu đề. Nói cách khác, những trang trả lời cả một nhóm câu hỏi (a class of questions) sẽ đạt citation breadth cao.

3/ Một trang evergreen phủ 10+ ý định truy vấn có giá trị hơn về phạm vi trích dẫn AI so với 10 trang đơn ý định. Bạn có thể xây dựng nội dung trang evergreen tại chính các trang sản phẩm/dịch vụ/giải pháp của thương hiệu tập trung vào các câu hỏi của khách hàng để tăng lợi tức đầu tư (ROI) ngay từ đầu.

6/ Mô hình ski ramp từ có đúng cho mọi ngành?

Trong nội dung trước của Infinity, cho thấy 44,2% trích dẫn ChatGPT đến từ 30% đầu trang. Phân tích lại cùng phương pháp vị trí trên 7 ngành với 42.460 trích dẫn đối sánh:

10% nội dung cuối cùng của bất kỳ trang nào chỉ nhận được 2,4-4,4% số trích dẫn, xấp xỉ một phần tư so với nhóm nội dung hàng đầu. Phần kết luận gần như vô hình đối với AI, bất kể lĩnh vực nào.

Xu hướng thực và nhất quán, nhưng biến thiên thay đổi theo ngành. Một con số giữ nguyên mọi nơi: đáy 10% cuối trang chỉ nhận 2,4–4,4% trích dẫn, khoảng 1/4 so với dải đỉnh. Phần kết luận gần như vô hình với AI, bất kể ngành nào.

Phát hiện xuyên ngành: dải 10–20% là nơi AI đọc kỹ nhất trong mọi ngành. 10% đầu (điều hướng, headline, mở bài chung chung) bị bỏ qua. Đáy 10% gần như vô hình. Phần tóm tắt và kết luận hiếm khi được trích dẫn.

7/ Nội dung này thay đổi cách xây dựng chiến lược AI visibility thế nào?

1/ Các tên miền sở hữu tỷ lệ trích dẫn không đạt được vị trí đó bằng cách viết câu hay hơn. Họ xây trang nắm giữ topical authority có chiều sâu, trả lời và giải đáp nhiều truy vấn trong cùng một nơi, rồi lặp lại mức thẩm quyền đó trên các trang khác để nắm nhiều trích dẫn trong cùng ngành.

2/ Được trích dẫn trên 30, 60, hay 100 prompt riêng biệt đòi hỏi kiến trúc nội dung có mục tiêu: trang xây quanh cụm truy vấn và sở hữu toàn bộ chủ đề thay vì từ khóa đơn lẻ. Làm nội dung theo mô hình truyền thống "một từ khóa, một trang" sẽ bị khóa cấu trúc khỏi trích dẫn AI, dù từng trang riêng lẻ có viết đẹp đến đâu.

3/ Và nội dung cũng cho thấy, không có hướng dẫn hay công thức phổ quát cho AEO/GEO. Cần hiệu chỉnh theo ngành. Công thức phổ quát “AI truy xuất nguồn để trích dẫn” nào và câu trả lời là:

Macro: Trang nắm topical authority được kiến trúc (thiết kế chủ đề) chặt chẽ theo ngành
Micro: Nội dung trên mỗi phủ cụm truy vấn với độ dài, cấu trúc phù hợp với ngành và chiều sâu của nội dung

4/ Ý nghĩa lớn nhất cho chiến lược: Top 30 miền của ngành cùng share phần lớn thị phần trích dẫn có ý nghĩa tới việc tạo không gian phát triển sản phẩm/dịch vụ/thương hiệu. Prompt “phần mềm CRM tốt nhất” sẽ được LLMs tạo ra các truy vấn phân tán (query fan-out) dựa trên: hiệu suất, quy mô, bảo mật, giá... Sản phẩm/dịch vụ của bạn chỉ cần làm tốt nội dung giải pháp dựa trên các đặc điểm trên, đừng tạo nội dung hàng hóa, nội dung chung chung được tổng hợp lại mà không có bất kỳ mối liên quan nào đến sản phẩm/dịch vụ/giải pháp của thương hiệu bạn.

📚 Nguồn: Viblo

AI Citation

Bình luận

0 bình luận

Mới nhất Cũ nhất

Chưa có bình luận nào. Hãy là người đầu tiên bình luận.

Chia sẻ bài viết

Facebook Twitter LinkedIn

Cần tư vấn?

Liên hệ với chúng tôi để được hỗ trợ

Liên hệ ngay

Bài viết liên quan

17/06/2026

Russian Escort In Delhi

Looking for premium companionship? Discover the finest **[Delhi Russian Escorts](https://www.melaniya.in)** with Melaniya Escort Agency. Enjoy elite, discreet, and unforgettable moments with top-tier ...

Đọc thêm

17/06/2026

Why Flash USDT Software Is Changing the Way People Learn Blockchain Basics for Learners

Table of Contents The Beginner Experience in Blockchain Learning Why Learning Needs More Than Just Theory Understanding Through Practice Environments Role of Training and Educational Tools Features Th...

Đọc thêm

17/06/2026

Scaling Open Source Automation Tools From Solo Developer to Team

When you are the only person working with open source automation tools, life is simple. You write tests the way you like. You understand how everything works. You know what is broken and how to fix it...

Đọc thêm

Bắt đầu dự án của bạn

Hãy để Flash Dev đồng hành cùng bạn

Liên hệ ngay