Skip to content

AI 基本概念总览

这篇文档的目标是先建立一张足够稳的知识地图,后面学 prompt、RAG、tool calling、agent 时都能挂靠到这张图上。

先分清几层

可以把常见 AI 应用粗略拆成四层:

  1. 模型层:语言模型、视觉模型、语音模型、embedding 模型。
  2. 能力层:生成、理解、分类、检索、规划、调用工具。
  3. 系统层:prompt、context、memory、workflow、evaluation。
  4. 产品层:聊天助手、搜索问答、文档处理、自动化 agent。

很多讨论之所以容易混乱,就是因为大家在不同层上说话。

需要尽快搞懂的关键词

LLM

大语言模型,本质上是根据上下文预测后续 token 的模型。它并不天然“理解世界”,而是在大量数据上学到了强大的模式压缩能力。

Token

模型处理文本的基本单位。上下文长度、价格、延迟、截断问题,最后都和 token 有关系。

Context Window

模型单次请求能看到的上下文范围。上下文变长不等于推理能力变强,它只意味着模型一次能参考更多信息。

Prompt

你给模型的输入组织方式。Prompt 不只是“写一句话提问”,而是在设计任务边界、输出格式、决策依据和约束条件。

Embedding

把文本映射成向量表示,用于相似度搜索、聚类、召回等任务。Embedding 不是生成模型,但经常是 RAG 系统的基础设施。

RAG

Retrieval-Augmented Generation,先检索外部知识,再把结果交给模型生成答案。核心价值是把模型知识和外部事实源连接起来。

Tool Calling

让模型决定何时调用外部工具,例如搜索、数据库查询、发请求、执行计算。模型负责判断,程序负责真正执行。

Agent

把模型放进一个循环里,让它能感知状态、制定下一步、调用工具、观察结果,再继续推进任务。

常见误区

误区一:模型参数越大,一切都会更好

实际效果还受 prompt 设计、上下文质量、工具可用性、评估方式影响。模型能力强,不代表系统设计可以偷懒。

误区二:长上下文可以替代检索

长上下文能“放进去更多东西”,但不等于“更容易找到真正有用的东西”。当知识来源不断更新时,RAG 依然很重要。

误区三:Agent 比工作流高级,所以一定更好

很多任务用固定流程更稳定、更便宜、更容易维护。只有在任务不确定、步骤需要动态决定时,agent 才更有价值。

最小理解框架

如果你只先记住一句话,可以记这个:

大多数 AI 应用,本质上是在设计“模型 + 上下文 + 工具 + 流程 + 评估”的组合方式。

建议接下来读什么

Built with VitePress and deployed via GitHub Actions.