AI 基本概念总览
这篇文档的目标是先建立一张足够稳的知识地图,后面学 prompt、RAG、tool calling、agent 时都能挂靠到这张图上。
先分清几层
可以把常见 AI 应用粗略拆成四层:
- 模型层:语言模型、视觉模型、语音模型、embedding 模型。
- 能力层:生成、理解、分类、检索、规划、调用工具。
- 系统层:prompt、context、memory、workflow、evaluation。
- 产品层:聊天助手、搜索问答、文档处理、自动化 agent。
很多讨论之所以容易混乱,就是因为大家在不同层上说话。
需要尽快搞懂的关键词
LLM
大语言模型,本质上是根据上下文预测后续 token 的模型。它并不天然“理解世界”,而是在大量数据上学到了强大的模式压缩能力。
Token
模型处理文本的基本单位。上下文长度、价格、延迟、截断问题,最后都和 token 有关系。
Context Window
模型单次请求能看到的上下文范围。上下文变长不等于推理能力变强,它只意味着模型一次能参考更多信息。
Prompt
你给模型的输入组织方式。Prompt 不只是“写一句话提问”,而是在设计任务边界、输出格式、决策依据和约束条件。
Embedding
把文本映射成向量表示,用于相似度搜索、聚类、召回等任务。Embedding 不是生成模型,但经常是 RAG 系统的基础设施。
RAG
Retrieval-Augmented Generation,先检索外部知识,再把结果交给模型生成答案。核心价值是把模型知识和外部事实源连接起来。
Tool Calling
让模型决定何时调用外部工具,例如搜索、数据库查询、发请求、执行计算。模型负责判断,程序负责真正执行。
Agent
把模型放进一个循环里,让它能感知状态、制定下一步、调用工具、观察结果,再继续推进任务。
常见误区
误区一:模型参数越大,一切都会更好
实际效果还受 prompt 设计、上下文质量、工具可用性、评估方式影响。模型能力强,不代表系统设计可以偷懒。
误区二:长上下文可以替代检索
长上下文能“放进去更多东西”,但不等于“更容易找到真正有用的东西”。当知识来源不断更新时,RAG 依然很重要。
误区三:Agent 比工作流高级,所以一定更好
很多任务用固定流程更稳定、更便宜、更容易维护。只有在任务不确定、步骤需要动态决定时,agent 才更有价值。
最小理解框架
如果你只先记住一句话,可以记这个:
大多数 AI 应用,本质上是在设计“模型 + 上下文 + 工具 + 流程 + 评估”的组合方式。