Từ điển AI: Thuật ngữ tìm kiếm AI & GEO

MCP, RAG, grounding, thị phần tiếng nói AI… ngôn ngữ của tìm kiếm AI thay đổi rất nhanh, và một thuật ngữ chưa hề tồn tại một năm trước có thể xuất hiện ở khắp nơi ngày hôm nay. Từ điển này định nghĩa những thuật ngữ AI và GEO mà mọi marketer và SEO cần biết.
Nếu từ điển SEO của chúng tôi là cuốn từ điển cho tìm kiếm cổ điển, thì hãy xem cuốn này như người bạn đồng hành của nó trong kỷ nguyên tạo sinh — những từ bạn cần để hiểu cách ChatGPT, Gemini, Perplexity và AI Overviews của Google thực sự tìm, đọc và trích dẫn nội dung. Mỗi mục đều ngắn gọn và thực tiễn, và nơi nào chúng tôi đã viết một hướng dẫn đầy đủ, chúng tôi liên kết thẳng đến đó để bạn có thể tìm hiểu sâu hơn.
Sự chuyển dịch từ xếp hạng các liên kết sang tạo sinh câu trả lời đã mang đến một vốn từ vựng hoàn toàn mới, phần lớn vay mượn từ học máy. Bạn không cần bằng tiến sĩ khoa học dữ liệu để làm trong lĩnh vực này, nhưng bạn cần hiểu người ta đang nói gì khi nhắc đến embedding, grounding hay query fan-out. Hãy lưu trang này lại và bắt đầu nói thành thạo ngôn ngữ của tìm kiếm AI.
Từ điển này được duy trì bởi David Kaufmann và đội ngũ SEOcrawl — những người ngày ngày theo dõi cách các công cụ AI trích dẫn thương hiệu.
A
AEO (Answer Engine Optimization)
Answer Engine Optimization (Tối ưu hóa công cụ trả lời) là hoạt động tối ưu hóa nội dung để các công cụ trả lời AI chọn nó làm nguồn cho một câu trả lời trực tiếp. Nó liên quan chặt chẽ đến GEO, với trọng tâm là trở thành câu trả lời thay vì một trong mười liên kết xanh.
Agent (AI agent)
Một AI agent (tác tử AI) là hệ thống dùng mô hình ngôn ngữ để thực hiện hành động — gọi công cụ, duyệt web, hoặc hoàn thành các tác vụ nhiều bước — thay vì chỉ trả về văn bản. Các agent chính là lý do những giao thức như MCP trở nên quan trọng: chúng cần một cách an toàn, theo chuẩn để truy cập dữ liệu và dịch vụ bên ngoài.
AI Mode
AI Mode là trải nghiệm tìm kiếm hội thoại do AI tạo sinh của Google, nơi một giao diện kiểu trò chuyện trả lời trực tiếp cả các câu hỏi nối tiếp. Việc xuất hiện bên trong AI Mode không thể đo lường theo cách của xếp hạng cổ điển, dù các lượt nhấp mà nó gửi đến vẫn có thể được theo dõi trong công cụ phân tích.
AI Overview
Một AI Overview là bản tóm tắt do AI tạo ra mà Google đặt ở đầu nhiều kết quả tìm kiếm, tổng hợp từ nhiều nguồn và trích dẫn chúng. Giành được một vị trí trong số những nguồn được trích dẫn đó là mục tiêu trọng tâm của GEO.
Ả
Ảo giác (Hallucination)
Một ảo giác là một phát biểu tự tin nhưng sai sự thật hoặc bịa đặt do mô hình AI tạo ra. Nội dung mạnh mẽ, có cấu trúc tốt và đáng tin cậy để trích dẫn sẽ giảm khả năng một công cụ bịa ra chi tiết về thương hiệu của bạn thay vì lấy đúng các sự thật.
C
Chunking
Chunking (chia khối) là quá trình tách nội dung thành các đoạn nhỏ hơn để một hệ thống truy xuất có thể lập chỉ mục và lấy ra phần phù hợp nhất. Cấu trúc rõ ràng — các phần ngắn, tiêu đề mô tả, đoạn văn tự chứa — giúp nội dung dễ chia khối và truy xuất hơn.
Cơ sở dữ liệu vector (Vector database)
Một cơ sở dữ liệu vector lưu trữ embedding và tìm những kết quả khớp gần nhất với một truy vấn theo ý nghĩa thay vì từ khóa chính xác. Đây là bộ máy truy xuất đứng sau tìm kiếm ngữ nghĩa và hầu hết các hệ thống RAG.
Công cụ trả lời (Answer engine)
Một công cụ trả lời là bất kỳ hệ thống nào phản hồi một truy vấn bằng một câu trả lời được tổng hợp thay vì một danh sách liên kết — ChatGPT, Perplexity, Gemini và AI Overviews của Google đều thuộc loại này. Thuật ngữ này định hình sự chuyển dịch chiến lược đằng sau AEO.
D
Dữ liệu huấn luyện (Training data)
Dữ liệu huấn luyện là khối văn bản và nội dung khác mà một mô hình đã học trước khi triển khai. Nếu thương hiệu và các sự thật về bạn được thể hiện tốt trên khắp web, chúng càng có khả năng được phản ánh trong những gì mô hình đã "biết".
Đ
Đa phương thức (Multimodal)
Đa phương thức mô tả một mô hình có thể xử lý nhiều hơn một loại đầu vào — văn bản, hình ảnh, âm thanh hoặc video — trong cùng một hệ thống. Đó là lý do các công cụ AI giờ đây có thể đọc một ảnh chụp màn hình hoặc một biểu đồ, chứ không chỉ chữ.
Đồ thị tri thức (Knowledge graph)
Một đồ thị tri thức là bản đồ có cấu trúc về các thực thể và mối quan hệ giữa chúng. Các công cụ AI dựa vào đồ thị tri thức để phân biệt rõ các thương hiệu và quyết định nên tin tưởng những thông tin nào về bạn.
E
Embedding
Một embedding là một biểu diễn số của văn bản (hoặc hình ảnh) nắm bắt ý nghĩa dưới dạng một danh sách các con số, để một mô hình có thể đo mức độ tương tự giữa hai mẩu nội dung. Embedding là nền tảng cho tìm kiếm ngữ nghĩa và truy xuất bên trong các hệ thống AI.
F
Fine-tuning
Fine-tuning (tinh chỉnh) là quá trình huấn luyện thêm một mô hình nền trên một tập dữ liệu tập trung để chuyên biệt hóa hành vi hoặc kiến thức của nó. Nó khác với truy xuất: fine-tuning đưa thông tin vào bên trong mô hình, còn truy xuất lấy thông tin ra tại thời điểm trả lời.
G
GEO (Generative Engine Optimization)
Generative Engine Optimization (Tối ưu hóa công cụ tạo sinh) là bộ môn tối ưu hóa nội dung và sự hiện diện thương hiệu của bạn để các công cụ AI tạo sinh nhắc đến và trích dẫn bạn. Nó mở rộng SEO sang ChatGPT, Gemini, Perplexity và AI Overviews.
Giám sát đề cập thương hiệu (Brand mention monitoring)
Giám sát đề cập thương hiệu trong tìm kiếm AI nghĩa là theo dõi thời điểm, nơi chốn và cách các công cụ AI nêu tên thương hiệu của bạn trong câu trả lời của chúng. Đây là nền tảng của mọi chiến lược hiển thị AI, vì bạn không thể cải thiện những gì bạn không thấy.
Grounding
Grounding (neo nguồn) là khi một công cụ AI dựa câu trả lời của mình vào các nguồn đã truy xuất, có thể xác minh, thay vì chỉ dựa vào các tham số đã huấn luyện. Những câu trả lời được neo nguồn là loại có khả năng kèm trích dẫn cao nhất — và đó chính là lý do vì sao việc trở thành một nguồn vừa có thể truy xuất, vừa đáng tin cậy lại quan trọng đến vậy.
L
llms.txt
llms.txt là một tệp văn bản thuần được đề xuất, dùng để chỉ cho các mô hình AI biết nội dung quan trọng nhất của bạn ở dạng sạch sẽ, có cấu trúc. Việc áp dụng vẫn đang ở giai đoạn sơ khai, và nó không thể thay thế cho nội dung vững chắc, có thể thu thập.
LLM (Large Language Model)
Một mô hình ngôn ngữ lớn là một mô hình AI được huấn luyện trên lượng văn bản khổng lồ để dự đoán và tạo sinh ngôn ngữ — chính là bộ máy đứng sau ChatGPT, Claude, Gemini và những mô hình khác. Mọi thứ trong tìm kiếm AI rốt cuộc đều chạy trên một mô hình như vậy.
M
MCP (Model Context Protocol)
Model Context Protocol là một tiêu chuẩn mở cho phép các trợ lý AI kết nối với công cụ và nguồn dữ liệu bên ngoài một cách nhất quán. Đây là cách một mô hình có thể gọi an toàn một dịch vụ như SEOcrawl để lấy dữ liệu SEO theo thời gian thực, thay vì suy đoán dựa trên dữ liệu huấn luyện.
P
Prompt
Một prompt (lời nhắc) là chỉ dẫn hoặc câu hỏi bạn đưa cho một mô hình AI để tạo ra phản hồi. Trong tìm kiếm AI, những prompt mà người dùng thực gõ vào chính là các truy vấn mà bạn đang cố gắng xuất hiện.
Q
Query fan-out
Query fan-out là kỹ thuật trong đó một công cụ AI chia một câu hỏi của người dùng thành nhiều truy vấn con, chạy chúng song song, rồi tổng hợp kết quả thành một câu trả lời duy nhất. Hiểu được điều này giúp lý giải vì sao việc bao phủ một chủ đề một cách toàn diện lại hiệu quả hơn so với chỉ nhắm vào một cụm từ chính xác.
R
RAG (Retrieval-Augmented Generation)
RAG là một kiến trúc trong đó một mô hình truy xuất các tài liệu liên quan tại thời điểm trả lời và dùng chúng để tạo ra một phản hồi được neo nguồn, có dẫn nguồn. Hầu hết các trải nghiệm tìm kiếm AI đều là một dạng RAG nào đó — và đó là lý do vì sao khả năng được truy xuất gần như quyết định tất cả.
Reranking
Reranking (xếp hạng lại) là một bước xử lý lần hai nhằm sắp xếp lại các đoạn đã truy xuất theo mức độ liên quan trước khi mô hình viết câu trả lời. Đây là một lý do khiến đoạn văn hữu ích và sát nhất thường thắng đoạn chỉ đơn thuần phổ biến.
S
Share of AI voice
Share of AI voice (Thị phần tiếng nói AI) là tỷ lệ phần trăm các câu trả lời AI, đối với một chủ đề hoặc một bộ prompt, trong đó thương hiệu của bạn xuất hiện so với đối thủ. Đây là chỉ số chủ chốt để đo lường khả năng hiển thị AI và so sánh với đối thủ.
T
Theo dõi prompt (Prompt tracking)
Theo dõi prompt là việc giám sát cách các công cụ AI trả lời một bộ prompt được xác định theo thời gian — chúng nhắc đến thương hiệu nào, trích dẫn nguồn nào, và điều đó thay đổi ra sao. Đây chính là phiên bản dành cho tìm kiếm AI của việc theo dõi thứ hạng.
Thực thể (Entity)
Một thực thể là một thứ riêng biệt, có thể nhận diện — một con người, thương hiệu, sản phẩm hay địa điểm — mà các công cụ theo dõi và kết nối trong một đồ thị tri thức. Việc được nhận diện như một thực thể rõ ràng giúp các công cụ AI liên kết thương hiệu của bạn với đúng chủ đề và tự tin nhắc đến nó.
Token
Một token là đơn vị văn bản mà mô hình đọc và tạo sinh — gần tương đương một từ hoặc một phần của từ. Token quan trọng vì chúng xác định giới hạn ngữ cảnh của một mô hình và chi phí vận hành nó.
Trích dẫn (Citation)
Một trích dẫn AI là một tham chiếu đến trang web hoặc thương hiệu của bạn bên trong một câu trả lời do AI tạo ra, hiển thị dưới dạng nguồn có liên kết, chú thích hoặc đề cập trong văn bản. Trích dẫn đối với tìm kiếm AI cũng giống như xếp hạng đối với SEO cổ điển: đơn vị hiển thị mà bạn đang cạnh tranh để giành lấy.
Trình thu thập AI (AI crawler)
Một trình thu thập AI là một bot do một công ty AI vận hành để thu thập nội dung web cho việc huấn luyện hoặc truy xuất trực tiếp — chẳng hạn GPTBot, ClaudeBot, Google-Extended hay PerplexityBot. Tệp robots.txt của bạn kiểm soát những bot nào trong số đó được phép truy cập trang của bạn.
Z
Zero-click
Một kết quả zero-click là kết quả mà người dùng nhận được câu trả lời ngay trong giao diện và không bao giờ truy cập một website. Các câu trả lời AI đã đẩy tỷ lệ zero-click lên cao hơn, và đó là lý do vì sao khả năng hiển thị bên trong câu trả lời — trích dẫn và đề cập — giờ đây quan trọng ngang với lượt nhấp.
Tác giả: David Kaufmann

Tôi đã dành hơn 10 năm qua hoàn toàn đắm chìm trong SEO — và thành thật mà nói, tôi không muốn điều gì khác thay thế.
Sự nghiệp của tôi bước sang một tầm cao mới khi tôi làm việc với vai trò chuyên gia SEO cấp cao tại Chess.com — một trong 100 website được truy cập nhiều nhất trên toàn bộ internet. Vận hành ở quy mô đó, trên hàng triệu trang, hàng chục ngôn ngữ và trong một trong những SERPs cạnh tranh khốc liệt nhất, đã dạy tôi những điều mà không khóa học hay chứng chỉ nào có thể mang lại. Trải nghiệm đó đã thay đổi cách tôi nhìn nhận về SEO thực sự xuất sắc — và trở thành nền tảng cho mọi thứ tôi xây dựng từ đó đến nay.
Từ kinh nghiệm ấy, tôi đã sáng lập SEO Alive — một agency dành cho những thương hiệu thực sự nghiêm túc với tăng trưởng organic. Chúng tôi không ở đây để bán dashboards và báo cáo hàng tháng. Chúng tôi ở đây để xây dựng những chiến lược thực sự tạo ra chuyển biến, kết hợp tinh hoa của SEO truyền thống với thế giới mới đầy thú vị của Generative Engine Optimization (GEO) — đảm bảo thương hiệu của bạn không chỉ xuất hiện trong các liên kết xanh của Google, mà còn hiện diện ngay trong những câu trả lời do AI tạo ra mà ChatGPT, Perplexity và Google AI Overviews đang cung cấp cho hàng triệu người mỗi ngày.
Và bởi vì tôi không thể tìm được một công cụ xử lý tốt cả hai thế giới đó, tôi đã tự xây dựng một công cụ — SEOcrawl, một nền tảng SEO intelligence cấp doanh nghiệp tích hợp rankings, kiểm tra kỹ thuật, giám sát backlinks, tình trạng crawl và theo dõi hiển thị thương hiệu trên AI, tất cả trong một nơi. Đó chính là nền tảng mà tôi luôn ước có.
Khám phá thêm nội dung của tác giả này

Thứ hạng Google thôi không còn đủ nữa. SEO giúp bạn lên hạng, AEO đưa bạn thành câu trả lời trực tiếp, còn GEO khiến bạn được ChatGPT, Claude, Gemini và Perplexity trích dẫn. Đây là cách ba phương pháp này phối hợp với nhau và lớp nào thương hiệu của bạn đang thiếu.

Nếu bạn không theo dõi hiện diện AI, bạn đang mù mờ trên một kênh đã mang lại hơn một tỷ lượt truy cập giới thiệu mỗi tháng. Đây là quy trình 5 bước để theo dõi thương hiệu của bạn trên ChatGPT, Perplexity, Gemini và hơn thế nữa.