Skip to content
Wen's Blog

如何让 AI 翻译更准确?从提示词到质检闭环

Mar 12, 2026 — AI, Tutorial

第一次用大模型翻译,最常见的感受不是“完全不能看”,而是“看得懂,但不够准”。短句往往没什么问题,一旦碰到长文、术语、行业语境和前后呼应,误差就会放大。轻一点是生硬,重一点就是语义漂移。

这类问题很容易被误解成 Prompt 不够强。把几篇相关文章放在一起看,我现在更认同的结论反而更朴素:翻译准确性不是靠一条神奇提示词,而是靠一整条链路。Prompt 只是入口,真正决定上限的是任务拆分、术语约束、模型选型和质检方式。

Prompt 不是主因

如果只把问题理解成“中文不够自然”,很容易把注意力全压到润色上。但生产环境里更麻烦的,往往不是句子不顺,而是这些错误:

AWS 在翻译质检相关实践里把错误类型拆得很细,这一点特别有价值。它提醒我们,翻译不是“把句子说通顺”,而是一个带强约束的生成任务。只要问题这样定义,思路就不该停在“再写一条更强的 Prompt”上。

先把目标拆开

宝玉那两篇文章里,最值得直接拿走的做法其实很简单:不要逼模型一次同时完成所有目标。

如果你同时要求它:

它很容易顾此失彼。更稳的做法是把任务拆成两轮:

“直译 + 意译”这个思路之所以有效,不是因为它更花哨,而是因为它把目标分开了。第一轮解决漏译和错译,第二轮解决翻译腔和中文节奏问题。很多人觉得两轮翻译比一轮好,原因就在这里。

如果你只准备改一件事,我最推荐的仍然是这一步:先把单轮翻译改成两轮流程,再谈别的优化。

让校对变成独立环节

两轮翻译能明显改善可读性,但不自动保证准确性。尤其是第二轮开始强调自然表达后,模型很容易把句子写顺,也顺手把语义改掉一点。

宝玉在另一篇文章里把流程继续拆成了五步:直译、意译、回译、对比校对、定向修订。这里最关键的其实不是“多几个角色”,而是把校对从翻译里拆了出来。

回译之所以有用,是因为它能把“译文有没有偏离原意”重新投影回源语言。这样你更容易发现哪些地方是信息丢了,哪些地方只是中文表达变了。

我更建议把这个流程收成一种轻量做法:

这样能把成本控制住,也能避免模型在每一轮都大幅改稿,导致错误来回漂移。

术语、上下文和模型选型是另一层约束

翻译里最难兜底的,通常不是句法,而是概念。

沉浸式翻译那篇文章里有个判断我很认同:很多误译不是模型不聪明,而是它没有拿到足够上下文,或者没有被明确告知当前领域。像 LLMbondmargincharge 这类词,一旦语境切错,后面整段都可能被带偏。

所以真正稳定的做法,通常会再加三层约束:

Qwen-MT 这类模型给出的信号也很明确:当你已经需要术语干预、领域提示、翻译记忆时,你做的就不再是“顺手翻一下”,而是在做一套翻译系统。这个时候继续只调 Prompt,收益会越来越有限。

没有质检闭环,准确率只是体感

很多团队优化翻译,停在“看起来顺了一点”就结束了。这一步最危险,因为你会收到很多主观好评,却很难回答两个关键问题:

TransBench 这类评测的价值就在这里。它提醒我们,翻译质量不是单一维度,至少要把术语、长文一致性、领域适配和文化表达这些维度拆开看。

AWS 把“翻译是否有问题”单独建成质检模型,也是同一条思路。生成模型负责翻,质检模型负责查,有问题再局部修复或重译。这个方案不一定能把单次翻译拉到天花板,但很适合生产环境,因为它更容易在成本、时延和准确率之间找到稳态。

一套够用的落地版

如果让我把“如何让 AI 翻译更准确”压成一套今天就能用的方案,我会推荐下面这版:

  1. 默认用两轮流程:直译保真,二轮重写
  2. 对标题、摘要、定义、限制条件做回译抽检
  3. 维护一个最小术语表,只收高频且误译代价高的词
  4. 明确保留 Markdown、数字、单位、专名和引用结构
  5. 内容重要时补一层质检,不要把人工肉眼当唯一兜底
  6. 进入多语种、长文或专业场景后,优先评估专用翻译模型

这套做法不神奇,但它有一个好处:每一步都知道自己在控制什么。

一个更稳的 Prompt 骨架

与其堆角色设定,我现在更偏向把约束写清楚。一个够稳的骨架通常要包含这些信息:

任务:将以下内容从 {源语言} 处理为 {目标语言}。
要求:
- 准确传达原意,不补充原文没有的信息
- 保持术语、数字、单位、专有名词一致
- 保留 Markdown / 列表 / 引用 / 标题结构
术语约束:
- {术语1} -> {译法1}
- {术语2} -> {译法2}
流程:
1. 先直译,确保信息完整
2. 再在不改变原意的前提下,用目标语言重写
3. 输出最终版本
额外要求:
- 不要省略
- 不要总结
- 遇到不确定术语时保留原文并标记

它看起来不花哨,但真正有用。因为模型最容易漂移的地方,都被提前钉住了。

我现在对“翻译更准确”的理解

把这些文章放在一起看,我现在更愿意把翻译准确率的提升分成三层:

所以真正有效的问题,不是“有没有一条万能 Prompt”,而是:

只改 Prompt,通常只能解决一部分问题。把流程、术语、模型和质检接起来,准确率才会稳定。

参考资料

  1. 怎么让 ChatGPT 的翻译结果更准确? (opens in a new window)
  2. 一个简单的 Prompt 大幅提升 ChatGPT 翻译质量,告别“机翻感” (opens in a new window)
  3. 一个简单的提示词就可以让 LLM 在翻译的时候更好的“意译” (opens in a new window)
  4. 沉浸式翻译进阶玩法:三招让翻译更专业、更顺畅 (opens in a new window)
  5. LLM 微调实践-微调大语言模型进行翻译质检(上) (opens in a new window)
  6. LLM 微调实践-微调大语言模型进行翻译质检(下) (opens in a new window)
  7. TransBench 多语言翻译评测 (opens in a new window)
  8. 翻译能力(Qwen-MT) (opens in a new window)