<?xml version="1.0" encoding="UTF-8"?>
<rss  xmlns:atom="http://www.w3.org/2005/Atom" 
      xmlns:media="http://search.yahoo.com/mrss/" 
      xmlns:content="http://purl.org/rss/1.0/modules/content/" 
      xmlns:dc="http://purl.org/dc/elements/1.1/" 
      version="2.0">
<channel>
<title>Tengyue Zhang</title>
<link>https://zty624.github.io/posts.html</link>
<atom:link href="https://zty624.github.io/posts.xml" rel="self" type="application/rss+xml"/>
<description></description>
<generator>quarto-1.9.38</generator>
<lastBuildDate>Mon, 18 May 2026 16:00:00 GMT</lastBuildDate>
<item>
  <title>Why Harness Works and Why I Think It Is Not Important</title>
  <dc:creator>Tengyue Zhang</dc:creator>
  <link>https://zty624.github.io/posts/blog-harness-as-automata/</link>
  <description><![CDATA[ 




<blockquote class="blockquote">
<p>最近事务繁忙，这篇文章先把想法交给 codex 起草。我保留其中的判断，也保留 agent 代笔留下的痕迹。</p>
</blockquote>
<section id="脚本之外" class="level2">
<h2 class="anchored" data-anchor-id="脚本之外">脚本之外</h2>
<p>最近用了一圈好用的 harness 和它们的配套插件——快速总结 skill 的 hermes agent，写代码的神 claude code，还有 ARIS、ralph-loop 之类。一方面，它们确实有用，极大加速了笔者学习和工作的效率；另一方面，也看到了不少像 Openclaw 这种噱头大于实质的 agent。</p>
<p>笔者一直对所谓 agent，或者更时髦一点的 harness engineering，抱有一种矛盾态度。说它只是脚本，好像太轻了：同一个基座模型，套上不同 harness 之后，真实任务表现确实会差很多。说它是新的智能范式，又好像太重了：大多数 harness 拆开看，不过是状态管理、工具调用、失败重试、日志记录、权限隔离、verifier 和 budget control。</p>
<p>笔者自然尊重 harness, 以及当前的各种 agentic 的研究工作。但是笔者想要问的，或者是强调的问题是：<strong>harness 到底改变了什么？它的有效性来自哪里？以及这种有效性为什么仍然不构成一种根本重要性？</strong></p>
</section>
<section id="agent-与控制论" class="level2">
<h2 class="anchored" data-anchor-id="agent-与控制论">Agent 与控制论</h2>
<p>如果只看当下的 AI 圈，harness 很容易被说成一种新东西：agent framework、tool-use wrapper、workflow engine、multi-agent orchestration、auto-research loop……换一套词，它似乎就带上了革命色彩。可是把时间轴稍微拉长，harness 并不神秘。它更像控制论在 LLM 时代重新露出的一副面孔。</p>
<p>控制论最早关心的并不是“机器有没有心智”，而是系统怎样在扰动中维持目标。Rosenblueth、Wiener 和 Bigelow 在 1943 年的 <em>Behavior, Purpose and Teleology</em> 中讨论目的性行为时，抓住的是 negative feedback：系统观测自身与目标之间的偏差，再用动作缩小偏差。Wiener 后来在 <em>Cybernetics</em> 中把这个领域定义为动物和机器中的控制与通信。把这个定义放到今天看，几乎就是 agent harness 的骨架：观测、误差、动作、反馈、再观测。</p>
<p>harness 的第一层意义，不是“让模型更聪明”，而是把模型放进反馈回路。如果说，裸 LLM 可以看作一个单步生成的开环系统 <img src="https://latex.codecogs.com/png.latex?y%20%5Csim%20M(%5Ccdot%20%5Cmid%20x)">, 那么控制论意义上的 harness 则是闭环： <img src="https://latex.codecogs.com/png.latex?%0A%5Ctext%7Bstate%7D%20%5Crightarrow%20%5Ctext%7Bmodel%20action%7D%20%5Crightarrow%20%5Ctext%7Benvironment/tool%7D%20%5Crightarrow%20%5Ctext%7Bobservation%7D%20%5Crightarrow%20%5Ctext%7Bstate%20update%7D.%0A"></p>
<p>系统不仅仅问“模型这一次说了什么”，而且追问“这条运行轨迹有没有把系统推向目标”。譬如，写代码 agent 的目标不是吐出一段看起来像 patch 的文本，而是让测试通过、diff 可读、让仓库状态一致、失败可复现。科研 agent 的目标也不该只是写出一篇像论文的文章，而应当形成假设、设计实验、运行实验、读出证据、更新判断。换句话说，harness 把语言模型从一个 generator 放进了 feedback loop，让它成为其中的 controller component。</p>
<p>Ashby 的控制论尤其适合说明这里面的工程直觉。他在 <em>An Introduction to Cybernetics</em> 里提出 Law of Requisite Variety：只有足够的 variety 才能吸收环境的 variety。一个系统面对的扰动越复杂，调节器本身就越需要丰富的状态和动作。放到 LLM harness 上，这句话并不抽象。真实任务会在格式、权限、依赖、网络、测试、资源、上下文、模型幻觉、工具错误、评测漏洞等地方失败。如果 harness 只有 <code>run -&gt; done</code> 两个状态，它当然调节不了这些扰动。于是它长出 parser、retry、timeout、checkpoint、sandbox、verifier、cache、human review、budget control。这些不是装饰，而是 requisite variety。</p>
<p>Conant 和 Ashby 1970 年的 Good Regulator Theorem 说得更直接：每一个好的调节器都必须包含被调节系统的模型。一个 harness 若想调节 agent，就不能只知道“再跑一次”。它必须知道哪些失败可重试，哪些失败致命，哪些状态可恢复，哪些动作越权，哪些输出可以被 verifier 接受。好的 harness 不是更厚的胶水，而是更准确的系统模型。</p>
<p>所以，harness engineering 虽然常常像工程杂活，却经常决定系统表现。控制器的质量不在于叙事有多宏大，而在于它是否把关键状态、关键误差和关键动作编码进闭环。一个能区分 <code>FORMAT_ERROR</code>、<code>TEST_FAILURE</code>、<code>DEPENDENCY_MISSING</code>、<code>UNSAFE_ACTION</code>、<code>BUDGET_EXHAUSTED</code> 的 harness，比一个只会返回 <code>FAILED</code> 的 harness 多了许多调节能力。</p>
<p><em>To be Continued</em></p>
<!-- ## Harness as Automata

控制论解释 feedback，计算理论解释 boundary。

测试脚本、benchmark harness、agent loop、实验流水线，起初都可以看成自动机。它有状态，有输入事件，有转移，也有接受条件。经典 finite automaton 写成：

$$
A = (Q, \Sigma, \delta, q_0, F).
$$

搬到 harness 里，$Q$ 是运行状态，$\Sigma$ 是观测事件，$\delta$ 是控制逻辑，$F$ 是终止或接受条件。测试 harness 识别的不是一个字符串，而是一条 trace：`setup -> run -> observe -> teardown -> pass/fail`。LLM benchmark harness 识别的也不是裸文本，而是 `raw output -> parse -> judge -> score`。parser 宽一点，模型可能就得分更高；retry 多一点，格式遵循能力可能就被悄悄抹平。Harness 定义了“什么叫成功”。

但 finite automaton 只是起点。有限自动机只有有限记忆，而真实 harness 有可写外部状态：日志、文件系统、数据库、checkpoint、cache、agent trajectory、search result、human feedback。它不只是记住当前处于 `RUNNING`，还会保存任意长的运行历史。一旦有了可写 memory，harness 就不再只是有限自动机，而更像 Turing machine：一个有限控制器，加上一条可读写、可增长的 tape。

Turing 1936 年的图灵机模型抽象了“可机械计算”的边界。对 harness 来说，重要的不是它突破了图灵机，而是它把模型调用纳入了一个更完整的机械过程。裸模型像一个 stochastic transducer：

$$
M: X \to \Delta(Y).
$$

而 harnessed system 更像：

$$
\mathcal{H}[M] = \langle S, A, \Omega, O, V, \pi, \delta, C, F \rangle.
$$

这里 $S$ 是外部状态，$A$ 是动作空间，$\Omega$ 是观测空间，$O$ 是工具或 oracle，$V$ 是 verifier，$\pi$ 是控制策略，$\delta$ 是状态转移，$C$ 是成本模型，$F$ 是接受条件。模型 $M$ 只是其中一个 stochastic proposal generator。一次运行不再是 $x \mapsto y$，而是一条轨迹：

$$
\tau=(s_0,a_0,\omega_1,s_1,a_1,\omega_2,\ldots,s_T).
$$

最后被判断的不是输出字符串，而是：

$$
F(\tau, C(\tau), V, O)=\mathrm{accept}.
$$

在我看来，这是 harness 最重要的形式变化：它把 output 变成 trace，把答案变成证据，把一次生成变成可恢复、可审计、可调节的计算过程。

NFA/NTM 的比喻在这里有用，但必须小心使用。它有用，是因为 harness 的一次运行确实不再像单一路径上的线性生成，而更像一组被调度、被剪枝、被验证的可能轨迹：不同采样、不同工具调用、不同 retry、不同 verifier response，都会把系统推向不同分支。这个意义上，harness 让模型输出从一条句子链，变成了一棵可以被搜索和回溯的运行树。

但这个比喻不能被说过头。Rabin 和 Scott 的 finite automata 理论告诉我们，NFA 和 DFA 识别同一类 regular languages；Turing machine 的可计算性理论也告诉我们，非确定性图灵机并不比确定性图灵机能计算更多可判定语言。非确定性本身不是魔法。把 harness 叫作 NTM，并不会自动赋予它新的智能；在无限时间和无限资源的抽象里，确定性机器总可以枚举那些分支。

真正的差别在资源。DFA 可以模拟 NFA，但状态数可能爆炸；DTM 可以模拟 NTM，但可能需要枚举指数多分支。工程世界关心的不是“无限时间下能不能模拟”，而是 60 秒内能不能修好代码，10 美元预算内能不能完成评测，32K context 内能不能保留关键证据，一次实验失败后能不能从 checkpoint 恢复。每一条分支都要消耗 token、wall-clock time、API budget、上下文窗口和工具调用机会；每一次剪枝、缓存、恢复和验证，都是在重新安排这些有限资源。

因此，harness 的计算理论位置可以说得更窄，也更准确：**它不改变可计算边界，却改变了资源有界条件下的搜索形态、成功概率和可审计性。** 它不是让不可计算的东西变得可计算，而是把一次盲目的随机生成，组织成一组有状态、有成本、有接受条件的候选轨迹。这个变化看上去不如“新智能”响亮，却正是工程系统真正能工作的地方。

## 复杂度：生成难，验证易

复杂度理论给了 harness 一个更锋利的解释。Cook 1971 年定义 NP 并证明 SAT 的 NP-completeness，Karp 1972 年把 NP-completeness 展开到一批经典组合问题。NP 的核心直觉不是“聪明”，而是 guess-check：找到解可能难，检查一个给定证书可能容易。

许多 LLM harness 的结构正是如此。模型生成候选，harness 检查候选。如果检查便宜而可靠，系统就能放大模型原本不高、但非零的成功概率。

假设模型在输入 $x$ 上一次生成正确候选的概率是 $p_M(x)$。Harness 独立采样 $n$ 次，并且 verifier 能可靠识别正确候选，则成功率是：

$$
1-(1-p_M(x))^n.
$$

这个公式很朴素，却能解释不少现象。Self-consistency 对 chain-of-thought 的提升，本质上是采样多条推理路径再投票。OpenAI 的 GSM8K verifier 工作，是生成多个数学解，再训练 verifier 选择更可信的一个。AlphaCode 的 competitive programming 结果，也依赖大规模采样和行为过滤。CodeT、LEVER、program-aided language models、Self-Debugging 这一整条线，都在利用同一种不对称性：写程序难，执行和测试相对便宜；构造证明难，检查证明相对便宜；提出实验配置难，跑小实验、读 metric 相对直接。

但这里有一个很重要的限制。Best-of-N 只在 $p_M(x)>0$ 时有效。如果模型分布根本不给正确候选任何概率质量，那么同分布重采样无法凭空创造正确答案。Harness 是乘数，不是加数；乘数再大，乘以零还是零。要让 $p_M(x)$ 从零变成非零，系统必须改变 proposal distribution，或者引入新的信息源：检索、工具、solver、实验反馈、人类输入，或者真正能利用错误信息的搜索过程。

这里也能看出 feedback loop 为什么比 blind sampling 更接近控制。Self-Refine、Reflexion、CRITIC、LATS 这类工作并不只是多采样，而是把失败轨迹变成下一轮输入：

$$
\mathrm{candidate}_t \rightarrow \mathrm{failure\ trace}_t \rightarrow \mathrm{candidate}_{t+1}.
$$

如果 failure trace 含有信息，模型又能利用这份信息，搜索空间就被压缩了。编译器报错、单元测试失败、proof checker counterexample、实验 metric、环境 observation，都像控制论中的误差信号。没有误差信号，loop 只是重复；有了误差信号，loop 才是调节。

这条线也可以连到 interactive proofs。Goldwasser、Micali 和 Rackoff 的 interactive proof，Babai 和 Moran 的 Arthur-Merlin games，Shamir 的 `IP = PSPACE`，都说明交互会改变证明和验证的信息结构。当然，LLM agent loop 不是严格意义上的 IP system，模型不是全能 prover，harness 也不是完美 verifier。但这个类比仍然有启发：多轮交互的价值不在“轮数多”，而在每一轮 verifier 或 environment 是否真的给出了有用信息。

这也是我读 self-correction 论文时的一点保留。有些工作确实有用，有些结论则相当冷静。`Large Language Models Cannot Self-Correct Reasoning Yet` 这类研究提醒我们：没有外部反馈时，模型自我批评经常只是另一次采样，甚至会把对答案改错。CRITIC 的价值恰恰在 tool-interactive critiquing：外部工具把闭环接到了世界，而不是让模型在自己的语言里空转。

## 工具是 Oracle，不是模型的内功

Tool-use 是 harness 最容易被神秘化的部分。模型会用 Python，就好像会计算了；会用 browser，就好像知识更新了；会用 compiler，就好像会验证代码了。但从计算理论看，这更像 oracle machine。

带 oracle 的机器写成 $M^O$：机器可以向外部 oracle 提问，并把答案纳入后续计算。Toolformer 学的是何时调用 API、怎么传参、怎么把结果接回语言模型；ReAct 把 reasoning trace 和 action trace 交织起来；WebGPT 把问答模型放进一个文本浏览器环境；MRKL 把 LLM、外部知识源和离散推理模块组合起来；PAL 把自然语言问题转成程序，把求解交给 Python runtime。

这些系统当然更强。但这份强度很大一部分来自 oracle。一个接上 SAT solver 的 agent 能解 SAT，不是因为 LLM 发现了新算法，而是因为它知道调用 solver。一个接上 web search 的 QA agent 能回答新问题，不是因为参数里有未来知识，而是因为 harness 改变了信息边界。一个接上 compiler 的 coding agent 能更快修 bug，也不是因为模型突然理解了所有语义，而是因为编译器给出了可执行的约束反馈。

因此，tool-use 的研究问题不宜被说成“harness 是否产生智能”，而应该更具体：模型是否知道什么时候调用工具，是否知道该问什么，是否能解释工具返回，是否能处理工具失败，是否能避免把局部 oracle answer 误当成全局真理。这些问题最后仍然落回模型能力。Harness 提供接口，模型决定策略。

我因此不太愿意把“会接工具”看成一个新的 primitive。工具调用不是新的计算理论，而是旧的 oracle access 在 LLM 旁边重新变得有工程意义。

## Verifier 定义游戏

前面一直假设 verifier 可靠。但真实 harness 里，verifier 往往并不可靠，甚至会定义错目标。

benchmark harness 用严格 parser，模型可能因为多输出一句解释而被判错；用宽松 parser，模型也可能靠猜测格式混过关。coding harness 只跑公开测试，模型就可能过拟合测试。LLM-as-a-judge harness 如果 judge 有偏好，系统优化的就是 judge 的偏好，而不是任务本身。Zheng 等人的 MT-Bench/Chatbot Arena 说明 LLM judge 可以和人类偏好有相当一致性，但这不等于它是完美裁判。Process supervision 和 verifier 模型可以让 reasoning 更可靠，但 verifier 本身仍然是系统的一部分，而不是天外来的真理。

所以，一个更准确的命题是：

$$
\text{Harness amplifies what the verifier accepts.}
$$

如果 verifier 接受的是正确性，harness 放大正确性；如果 verifier 接受的是格式，harness 放大格式遵循；如果 verifier 接受的是“看起来像完成了”，harness 就放大假完成。AI agent 里的许多 reward hacking，并不是模型突然变得邪恶，而是 harness 把任务语义交给了一个脆弱的接受条件。

这一点对 AI 科研尤其危险。自动科研 harness 如果用 LLM reviewer 当 verifier，系统优化的就可能不是科学发现，而是“让 LLM reviewer 觉得像论文”。实验 harness 如果只看短期 metric，就可能选择不可复现、不可解释、不可推广的路线。hypothesis-generation harness 如果 novelty checker 很弱，就会不断生成语言上新颖、科学上空洞的 idea。

换句话说，harness 不只是执行外壳，也是评价协议。它定义什么被看见，什么被忽略，什么被奖励，什么被中止。科学里最危险的不是 agent 写错一段话，而是 verifier 把错误目标稳定地制度化。

## AI 科研：从写论文到控制实验

如果把视角放到 AI for Science，harness 的意义会更清楚。真正值得关心的不是“LLM 能不能写一篇论文”，而是“科学过程能不能被组织成一个可靠的闭环”。

这个想法并不始于 LLM。Robot Scientist Adam 在 2004 年的 Nature 论文中就已经展示了 hypothesis generation 和 experimentation 的闭环：提出基因功能假设，设计实验，执行实验，更新知识。材料科学里的 Bayesian optimization 和 self-driving labs 也是类似结构：surrogate model 给出不确定性，acquisition function 选择下一次实验，实验结果再更新模型。这些系统本质上都在做 control over experiments。

LLM 加进来以后，变化主要发生在语言、知识和接口层。Coscientist 能读文献和硬件文档，规划合成路线，控制云实验室里的仪器。The AI Scientist 能生成 idea、写代码、跑实验、画图、写 paper、模拟 review。AI Scientist-v2 又把 tree search 放进自动科研流程。它们看起来像“AI 科学家”，但拆开看，仍然是 harness：

$$
\text{hypothesis} \rightarrow \text{experiment design} \rightarrow \text{execution} \rightarrow \text{observation} \rightarrow \text{analysis} \rightarrow \text{next hypothesis}.
$$

这条链比单次 LLM 生成重要得多。科学不是输出一个漂亮命题，而是在世界中反复校验命题。科学 harness 的重心因此不是写作，而是三件事：第一，把假设变成可执行实验；第二，把实验结果变成可审计证据；第三，把证据反馈到下一轮假设选择。

从控制论看，这是一个 regulator；从计算理论看，这是一个 interactive oracle-aided computation；从复杂度看，这是一个在昂贵实验空间里做资源有界搜索的过程。AI 科研 harness 的价值不是让模型“像科学家说话”，而是把模型放进科学闭环里，让它被实验、数据、代码、review、成本和安全约束调节。

这也给“AI 科研”泼了一点冷水。一个系统会自动写 paper，不代表它完成了科学。科学中的 accept condition 必须比“像论文”更强。至少要有可复现实验、可追踪数据、可解释指标、失败记录、真实 novelty、外部验证。否则，harness 只是把语言模型的生成能力变成自动化的 paper-shaped noise。

## Harness 的真正位置

现在可以把三条线合起来。

控制论说：智能系统不是孤立输出，而是在反馈中调节行为。Harness 提供观测、误差信号、动作集合和状态更新。

计算理论说：模型调用不是完整计算过程。Harness 把 stochastic transducer 嵌入带 memory、oracle、交互和接受条件的 trace-generating computation。

复杂度理论说：harness 不改变可计算边界，但改变资源有界搜索。Best-of-N、verifier、tool-use、tree search、feedback repair，都在重新分配有限计算预算。

harness works，不是因为它发明了新的智能，而是因为它改变了模型使用的 operational semantics。它把一次性采样变成闭环控制，把输出变成轨迹，把错误变成反馈，把工具变成 oracle，把 verifier 变成接受条件，把科研流程变成可执行协议。

但也正因为如此，我仍然觉得 harness 不构成根本重要性。它不是 primitive。把它拆开看，里面没有新的计算原语：feedback control、state estimation、finite control、Turing tape、oracle query、interactive proof、search、verification、budgeting、sandboxing、audit trail，全是旧结构。Harness engineering 的新意在于组合：把这些旧结构围绕一个 stochastic model 焊成一个能在真实任务分布上工作的系统。

这不是贬低。很多工程进步本来就是旧结构找到了新对象。Kalman filter 不是“发明了状态”，但它让状态估计成为可用的工程工具；Bayesian optimization 不是“发明了实验”，但它让昂贵实验的选择更有效；Coscientist 和 AI Scientist 不是“发明了科学”，但它们把科学流程的一部分写成了可执行闭环。

Harness 也是如此。它是 LLM 时代的控制器，是工程化的 feedback loop，是把随机语言模型放进世界里的外骨骼。它非常有用。没有它，模型只是会输出 token 的函数；有了它，模型才成为可评测、可调用、可恢复、可审计的系统。

但脚手架不是楼。Harness 放大的是模型已有的能力，不能替代这些能力。如果模型不给正确候选足够概率质量，best-of-N 只会变成昂贵枚举；如果模型读不懂 failure trace，self-refine 只是重复失败；如果模型不会选择工具，oracle access 只是摆设；如果 verifier 定义错目标，harness 会更高效地制造假成功。

我的判断因此仍然是双重的。

从工程上说，harness 极其重要。它让不可靠智能暂时变得可用，让随机输出变成可审计轨迹，也让科学和软件任务进入反馈闭环。

从理论上说，harness 没那么重要。它没有提供新的计算模型，没有突破复杂度边界，也没有解释智能从哪里来。它只是一个 composition operator：把控制论、计算理论、复杂度理论、实验设计和软件工程里的旧结构，认真放到了 LLM 周围。

Harness works because it changes the operational semantics of model use. It is not important because it does not change the primitive source of intelligence.

脚手架最好的命运，是有一天可以被拆掉；但在那一天之前，真正值得做的不是崇拜脚手架，而是把它搭得足够诚实、足够可测、足够可拆。



## Why I still think it is not important

Harness 的确改变了系统边界。裸模型是：

$$
y \sim M(\cdot \mid x).
$$

Harnessed system 是：

$$
\tau \sim \mathcal{H}[M](x), \qquad F(\tau)=\mathrm{accept}.
$$

前者产生一个样本，后者产生一条可验证轨迹。没有 harness 的模型写代码，只能吐出一段文本；有 harness 的模型可以读仓库、改文件、跑测试、看报错、再改、再测。没有 harness 的模型做实验，只能给命令；有 harness 的模型可以管理数据、checkpoint、日志和失败恢复。

这当然重要。但它的重要性是 operational 的，不是 primitive 的。

所谓 primitive，是不能被当前理论框架还原的基本能力来源。Harness 显然不是这种东西。把它拆开看，里面没有新的计算原语：finite control、writable memory、oracle query、interactive feedback、verification、search、budgeting、sandboxing，全是旧结构。Harness engineering 的新意在于把这些旧结构焊到一个 stochastic model 周围，让它们在真实任务分布上有效配合。

这不是贬低。很多工程进步本来就不是新理论，而是旧结构终于找到了合适的对象。Harness engineering 的价值正在这里：它不是魔法，也不是智能本身；它是一套让不可靠智能暂时变得可用的计算脚手架。

但脚手架不是楼。没有脚手架，楼很难盖起来；但真正决定楼能盖多高的，仍然是材料、结构和地基。对应到 LLM 系统里，真正决定上限的仍然是基座模型：它是否给正确候选分配足够概率质量，是否能理解反馈，是否能抽象任务，是否能稳健使用工具，是否能在分布外保持判断。至于脚手架，它最好的命运，是在 so-called AGI 大厦真的建成那天，可以被拆掉。

## 文献线索

下面这些文献是这篇文章的主干来源。它们不是同一个领域的 bibliography，而是围绕同一个问题形成的几条线：反馈控制、可计算过程、复杂度放大、工具使用、自动科研。

**控制论与控制理论**

- Rosenblueth, Wiener, Bigelow. [Behavior, Purpose and Teleology](https://philpapers.org/rec/ROSBPA), 1943.
- Wiener. [Cybernetics: Or Control and Communication in the Animal and the Machine](https://openlibrary.org/books/OL14113345M/Cybernetics_or_Control_and_communication_in_the_animal_and_the_machine.), 1948.
- Ashby. [Design for a Brain](https://www.ashby.info/Ashby%20-%20Design%20for%20a%20Brain%20-%20The%20Origin%20of%20Adaptive%20Behavior.pdf), 1952.
- Ashby. [An Introduction to Cybernetics](https://ashby.info/Ashby-Introduction-to-Cybernetics.pdf), 1956.
- Conant and Ashby. [Every Good Regulator of a System Must be a Model of that System](https://www.tandfonline.com/doi/abs/10.1080/00207727008920220), 1970.
- Kalman. [A New Approach to Linear Filtering and Prediction Problems](https://www.cs.unc.edu/~welch/kalman/media/pdf/Kalman1960.pdf), 1960.
- Beer. [Brain of the Firm](https://openlibrary.org/books/OL5330074M/Brain_of_the_firm), 1972.
- Pask. [Conversation, Cognition and Learning](https://openlibrary.org/books/OL5439801M/Conversation_cognition_and_learning), 1975.

**计算理论与复杂度**

- Turing. [On Computable Numbers, with an Application to the Entscheidungsproblem](https://philpapers.org/rec/TUROCN), 1936.
- Kleene. [Representation of Events in Nerve Nets and Finite Automata](https://www.cs.cmu.edu/~cdm/resources/Kleene1951.pdf), 1956.
- Rabin and Scott. [Finite Automata and Their Decision Problems](https://cris.huji.ac.il/en/publications/finite-automata-and-their-decision-problems/), 1959.
- Cook. [The Complexity of Theorem-Proving Procedures](https://www.cs.cmu.edu/~15455/resources/Cook1971-complx-thm-proof.pdf), 1971.
- Karp. [Reducibility Among Combinatorial Problems](https://courses.cs.cornell.edu/cs722/2000sp/karp.pdf), 1972.
- Goldwasser, Micali, Rackoff. [The Knowledge Complexity of Interactive Proof Systems](https://epubs.siam.org/doi/10.1137/0218012), 1985/1989.
- Babai and Moran. [Arthur-Merlin Games](https://www.sciencedirect.com/science/article/pii/0022000088900281), 1988.
- Shamir. [IP = PSPACE](https://weizmann.esploro.exlibrisgroup.com/esploro/outputs/journalArticle/IP--PSPACE/993265992703596), 1992.

**LLM 推理、验证、工具与 Agent Harness**

- Cobbe et al. [Training Verifiers to Solve Math Word Problems](https://arxiv.org/abs/2110.14168), 2021.
- Nakano et al. [WebGPT: Browser-assisted Question-answering with Human Feedback](https://arxiv.org/abs/2112.09332), 2021.
- Wei et al. [Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903), 2022.
- Wang et al. [Self-Consistency Improves Chain of Thought Reasoning in Language Models](https://arxiv.org/abs/2203.11171), 2022.
- Li et al. [Competition-Level Code Generation with AlphaCode](https://arxiv.org/abs/2203.07814), 2022.
- Karpas et al. [MRKL Systems](https://arxiv.org/abs/2205.00445), 2022.
- Chen et al. [CodeT: Code Generation with Generated Tests](https://arxiv.org/abs/2207.10397), 2022.
- Gao et al. [PAL: Program-aided Language Models](https://arxiv.org/abs/2211.10435), 2022.
- Yao et al. [ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629), 2022.
- Schick et al. [Toolformer: Language Models Can Teach Themselves to Use Tools](https://arxiv.org/abs/2302.04761), 2023.
- Ni et al. [LEVER: Learning to Verify Language-to-Code Generation with Execution](https://arxiv.org/abs/2302.08468), 2023.
- Madaan et al. [Self-Refine: Iterative Refinement with Self-Feedback](https://arxiv.org/abs/2303.17651), 2023.
- Shinn et al. [Reflexion: Language Agents with Verbal Reinforcement Learning](https://arxiv.org/abs/2303.11366), 2023.
- Chen et al. [Teaching Large Language Models to Self-Debug](https://arxiv.org/abs/2304.05128), 2023.
- Yao et al. [Tree of Thoughts](https://arxiv.org/abs/2305.10601), 2023.
- Gou et al. [CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing](https://arxiv.org/abs/2305.11738), 2023.
- Lightman et al. [Let's Verify Step by Step](https://arxiv.org/abs/2305.20050), 2023.
- Zheng et al. [Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena](https://arxiv.org/abs/2306.05685), 2023.
- Besta et al. [Graph of Thoughts](https://arxiv.org/abs/2308.09687), 2023.
- Huang et al. [Large Language Models Cannot Self-Correct Reasoning Yet](https://arxiv.org/abs/2310.01798), 2023.
- Zhou et al. [Language Agent Tree Search](https://arxiv.org/abs/2310.04406), 2023.
- Wang et al. [Voyager: An Open-Ended Embodied Agent with Large Language Models](https://arxiv.org/abs/2305.16291), 2023.
- Kapoor et al. [AI Agents That Matter](https://www.thetalkingmachines.com/sites/default/files/2024-07/2407.01502v1.pdf), 2024.

**AI 科研与自动实验闭环**

- King et al. [Functional Genomic Hypothesis Generation and Experimentation by a Robot Scientist](https://www.nature.com/articles/nature02236), 2004.
- Frazier and Wang. [Bayesian Optimization for Materials Design](https://arxiv.org/abs/1506.01349), 2015.
- Batra et al. [On-the-fly Closed-loop Autonomous Materials Discovery via Bayesian Active Learning](https://arxiv.org/abs/2006.06141), 2020.
- Lookman et al. [Materials Acceleration Platforms: On the Way to Autonomous Experimentation](https://www.sciencedirect.com/science/article/pii/S2452223620300596), 2020.
- Boiko et al. [Autonomous Chemical Research with Large Language Models](https://www.nature.com/articles/s41586-023-06792-0), 2023.
- Lu et al. [The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery](https://arxiv.org/abs/2408.06292), 2024.
- Yamada et al. [The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search](https://arxiv.org/abs/2504.08066), 2025. -->


</section>

 ]]></description>
  <category>blog</category>
  <guid>https://zty624.github.io/posts/blog-harness-as-automata/</guid>
  <pubDate>Mon, 18 May 2026 16:00:00 GMT</pubDate>
  <media:content url="https://zty624.github.io/files/images/blog_icon_260519.jpg" medium="image" type="image/jpeg"/>
</item>
<item>
  <title>Generative Modeling via Drifting</title>
  <dc:creator>Tengyue Zhang</dc:creator>
  <link>https://zty624.github.io/posts/blog-paper_generative_modeling_via_drifting/</link>
  <description><![CDATA[ 




<blockquote class="blockquote">
<p>Recently I have made a OpenClaw pipeline of reading paper and posting blogs. This blog, of course, is a test sample of the pipeline. So actually this blog is more like a fun.</p>
</blockquote>
<hr>
<section id="generative-modeling-via-drifting把迭代从推理期搬到训练期会发生什么" class="level1">
<h1>Generative Modeling via Drifting：把迭代从推理期搬到训练期，会发生什么？</h1>
<blockquote class="blockquote">
<p>论文链接：<a href="https://arxiv.org/abs/2602.04770" class="uri">https://arxiv.org/abs/2602.04770</a><br>
领域：generative modeling / image generation / one-step generation / diffusion-adjacent methods</p>
</blockquote>
<p>最近几年，生成模型的发展有一个几乎默认不被质疑的前提：想要高质量生成，就得让模型在推理时一步一步地走。diffusion 是这样，score-based model 是这样，flow / ODE 类方法本质上也是这样。它们的差别更多在于这条 trajectory 怎么定义、怎么离散、怎么求解，而不是要不要 trajectory 本身。</p>
<p>《Generative Modeling via Drifting》最有意思的地方，就在于它正面挑战了这个前提。作者没有继续在“怎么把 50 步压到 10 步、再压到 4 步”这条路上卷 sampler，也不是走一条典型的 teacher-student distillation 路线，而是换了一个问题问法：生成过程中那部分“逐步逼近数据分布”的计算，为什么一定要发生在 inference 阶段？如果把这部分迭代前移到 training，最后能不能直接得到一个 one-step generator？</p>
<p>我觉得这是这篇工作真正值得读的原因。它不是单纯把 FID 又刷低了一点，而是在 generative modeling 里提出了一种很有后劲的 framing：<strong>迭代不是某个特定算法的附属物，而是一种可以在 training 与 inference 之间重新分配的计算资源。</strong> 这个视角对 image generation 当然重要，但对 diffusion language model、音视频生成、机器人控制这些同样被 inference latency 困住的方向，也都很 relevant。</p>
<p>先把我的总体判断放在前面：这篇论文值得精读，而且不是那种“结果不错，细节未必重要”的 paper。我会把它看成一篇 idea 很亮、实验也很硬的强 paper。它的概念新意很高，工程潜力也很高，实验说服力相当强；相对弱一点的地方在于理论闭环还没有完全封死，一些关键部分仍然带有 heuristic 色彩。如果我是 reviewer，大概会把它归到 <strong>strong accept / accept</strong> 这一档：不是毫无疑问的完美 paper，但明显是一篇有顶会竞争力、而且很可能会被后续工作反复提到的 paper。</p>
<section id="它到底在解决什么问题" class="level2">
<h2 class="anchored" data-anchor-id="它到底在解决什么问题">它到底在解决什么问题</h2>
<p>高质量生成模型为什么慢，这件事大家其实都很熟悉了。以 diffusion 为代表的方法之所以强，是因为它们把“从简单分布到数据分布”的过程显式地拆成了很多小步：从噪声开始，一点点 denoise，一点点往数据流形上靠。这样做的好处是训练稳定、mode coverage 往往不错、生成质量也高；坏处同样明显——推理要跑很多步，延迟高，交互性差，落到视频、控制、实时系统上尤其痛苦。</p>
<p>过去几年围绕这个问题，社区大致有三条主线。第一条是做更快的 sampler，比如 DDIM、DPM-Solver、高阶 ODE/SDE solver。这条路的价值很大，但本质上还是“少一点步数的多步生成”；从 1000 步变成 50 步、20 步、10 步，已经很好了，可真要 one-step，质量通常还是会明显掉。第二条是蒸馏，把强 teacher 的 trajectory 压缩成 few-step 甚至 one-step student，比如 Progressive Distillation、Consistency Models、DMD 等。这条路线很有代表性，但常见问题是训练复杂、依赖 teacher，而且最后 student 的上限仍然经常受制于 teacher trajectory 的可蒸馏性。第三条是回到 GAN。GAN 天生 one-step，但训练稳定性、mode collapse、复杂数据分布下的鲁棒性问题，社区其实已经非常熟悉了。</p>
<p>Drifting 这篇工作提出的问题，比“怎么更快”更往上一层：<strong>我们为什么默认分布演化一定要在推理时发生？</strong> 作者给出的答案很直接：不一定。与其在 test time 修正单个 sample 的 trajectory，不如在 train time 持续修正整个生成分布，让 generator 自己学会一上来就落在更对的位置上。最后 inference 只做一次前向传播，NFE=1。</p>
<p>这个 conceptual shift 才是全文主线。你可以把它理解成：传统方法把 attention 放在 sample trajectory 上，而 Drifting 把 attention 放在 training 过程中 generated distribution 的 evolution 上。</p>
</section>
<section id="核心直觉不是多走几步而是提前学会走到那里" class="level2">
<h2 class="anchored" data-anchor-id="核心直觉不是多走几步而是提前学会走到那里">核心直觉：不是“多走几步”，而是“提前学会走到那里”</h2>
<p>论文从一个很朴素的设定出发。给定噪声 <img src="https://latex.codecogs.com/png.latex?z%20%5Csim%20%5Cmathcal%7BN%7D(0,%20I)">，generator <img src="https://latex.codecogs.com/png.latex?f_%5Ctheta"> 把它映射成样本 <img src="https://latex.codecogs.com/png.latex?x%20=%20f_%5Ctheta(z)">。这个 generator 诱导出一个生成分布 <img src="https://latex.codecogs.com/png.latex?q%20=%20f_%5Ctheta%20%5C#%20%5Cmathcal%7BN%7D(0,%20I)">，目标当然还是让 <img src="https://latex.codecogs.com/png.latex?q"> 尽量逼近真实数据分布 <img src="https://latex.codecogs.com/png.latex?p">。</p>
<p>区别在于，它不再去学习一个 test-time denoising rule，也不显式地求解一条 ODE/SDE，而是想定义一个 <strong>drifting field</strong> <img src="https://latex.codecogs.com/png.latex?V_%7Bp,q%7D(x)">：对于当前来自生成分布 <img src="https://latex.codecogs.com/png.latex?q"> 的样本 <img src="https://latex.codecogs.com/png.latex?x">，如果想让整个分布更接近 <img src="https://latex.codecogs.com/png.latex?p">，它局部上应该朝哪个方向移动一点。</p>
<p>这个设计的直觉并不难理解。一个生成样本如果靠近真实数据附近、但还不够对，那么来自真实分布的邻近样本应该把它往“更像真的地方”拉；与此同时，来自当前生成分布的样本又在提醒它“别在错误区域里越堆越多”，于是会形成一种排斥。最后，drifting field 表示的就是这种 attraction-repulsion 共同作用下的局部更新方向。</p>
<p>论文里有一个很重要的性质：</p>
<p><img src="https://latex.codecogs.com/png.latex?%0AV_%7Bp,q%7D(x)%20=%20-V_%7Bq,p%7D(x)%0A"></p>
<p>这意味着它天然带着一种平衡态结构。当 <img src="https://latex.codecogs.com/png.latex?p"> 和 <img src="https://latex.codecogs.com/png.latex?q"> 一致时，正负作用应当抵消，drift 消失，训练不再推动分布继续移动。这个性质听起来很自然，也确实是方法成立的核心直觉之一。</p>
<p>如果你熟悉 contrastive learning、kernel method、energy-based model，或者 MMD / interacting particles 这类思路，会很容易感到一种“亲缘感”。它当然不是直接等同于这些方法，但味道确实相通：都在利用局部相似性结构来定义一个“应该往哪儿走”的几何信号。</p>
</section>
<section id="方法上真正关键的两步构造-drifting-field以及在-feature-space-里做-drifting" class="level2">
<h2 class="anchored" data-anchor-id="方法上真正关键的两步构造-drifting-field以及在-feature-space-里做-drifting">方法上真正关键的两步：构造 drifting field，以及在 feature space 里做 drifting</h2>
<p>从形式上看，论文里的 drifting field 本质上是一个核加权的正负样本差分结构。直观地写，可以理解成类似</p>
<p><img src="https://latex.codecogs.com/png.latex?%0AV_%7Bp,q%7D(x)%20%5Cpropto%20%5Cmathbb%7BE%7D_%7By%5E+%20%5Csim%20p,%20y%5E-%20%5Csim%20q%7D%0A%5Cleft%5Bk(x,%20y%5E+)k(x,%20y%5E-)(y%5E+%20-%20y%5E-%20)%5Cright%5D%0A"></p>
<p>这里最重要的不是常数怎么设，而是这个结构表达出的意思：真实样本 <img src="https://latex.codecogs.com/png.latex?y%5E+"> 提供吸引，生成样本 <img src="https://latex.codecogs.com/png.latex?y%5E-"> 提供排斥，kernel 决定谁和谁算局部邻居。于是一个样本并不是被某张 ground-truth image 监督着去“对齐”，而是在当前分布与真实分布的相互作用里，被告知应该朝哪里挪一步。</p>
<p>接下来训练目标就很自然了。模型先生成 <img src="https://latex.codecogs.com/png.latex?x%20=%20f_%5Ctheta(z)">，再计算它的 drifting 向量 <img src="https://latex.codecogs.com/png.latex?V_%7Bp,q%7D(x)">，得到一个被停止梯度的目标位置</p>
<p><img src="https://latex.codecogs.com/png.latex?%0Ax_%7B%5Ctext%7Btarget%7D%7D%20=%20%5Coperatorname%7Bstopgrad%7D(x%20+%20V_%7Bp,q%7D(x))%0A"></p>
<p>然后让 generator 去拟合这个目标，例如最小化</p>
<p><img src="https://latex.codecogs.com/png.latex?%0A%5C%7Cf_%5Ctheta(z)%20-%20x_%7B%5Ctext%7Btarget%7D%7D%5C%7C%5E2.%0A"></p>
<p>这一步非常关键，因为它说明训练监督的对象不是“某张真图”，也不是 teacher 在某个 time step 上的输出，而是“当前生成样本沿着 distribution-correction direction 挪一步之后的位置”。所以整套训练更像是一种 self-bootstrapping 的分布修正过程。stop-gradient 的角色也正是在这里体现出来：它把 drifting target 固定成当前迭代的外部目标，避免梯度直接穿过 drifting field 本身导致训练信号纠缠得过于复杂。</p>
<p>不过，真正让这套想法在 ImageNet 这种复杂视觉分布上站住脚的，并不是上面这些公式本身，而是作者非常清醒地意识到：<strong>不能只在 pixel space 里做 drifting。</strong></p>
<p>如果直接在像素空间里用欧氏距离定义局部邻居，问题几乎是立刻出现的。pixel-level 的接近不一定对应 semantic-level 的接近，高维空间里的 kernel 也很容易退化，最后 drift direction 很可能只是在补纹理，而不是在修语义。作者因此把样本先送进一个 pretrained encoder 的 feature space，用 <img src="https://latex.codecogs.com/png.latex?%5Cphi(x)"> 而不是原始 <img src="https://latex.codecogs.com/png.latex?x"> 来定义相似性与局部几何。这一步我认为是全文最聪明、也最决定成败的设计之一。</p>
<p>原因很简单：一旦你承认 drifting field 本质上是在利用局部几何做分布修正，那么“局部几何在哪里定义”几乎就是全部问题。feature space 选得好，邻近关系就更语义化，drift direction 更可能沿着类别、结构和语义在动，而不是被 pixel noise 带偏；feature space 选不好，这个范式就可能迅速失去支撑。也正因为如此，我会觉得这篇工作对多模态很有启发，但也天然带着对 representation quality 的依赖——将来做 audio、video、joint audio-video drifting，选什么 encoder，绝对不会只是 implementation detail。</p>
</section>
<section id="条件生成与-one-step-inference-为什么能成立" class="level2">
<h2 class="anchored" data-anchor-id="条件生成与-one-step-inference-为什么能成立">条件生成与 one-step inference 为什么能成立</h2>
<p>在 ImageNet 这类 class-conditional 设定下，作者把 drifting 做成了条件化版本。直觉上并不难：正样本来自目标类别，负样本来自当前生成分布以及不匹配的类别区域，于是模型学到的就不只是“往真实图像分布靠近”，而是“往指定 class conditional distribution 靠近”。这让它可以自然处理条件生成，也更容易兼容 classifier-free guidance 之类的实践。</p>
<p>而 one-step inference 之所以成立，本质上正是因为训练期已经持续做了分布修正。diffusion / flow 那类方法把“纠偏”放在推理时显式执行，所以采样必须沿 trajectory 走；drifting 把“纠偏”前移到了训练过程本身，于是 generator 被训练成了一个已经内化 correction 结果的映射。推理时采样一个噪声，过一次 generator，图像就直接出来了。换句话说，它不是把多步过程压缩成了一步，而是试图让“一步”从一开始就成为 native output。</p>
</section>
<section id="为什么我觉得它真正厉害的地方不只是-one-step" class="level2">
<h2 class="anchored" data-anchor-id="为什么我觉得它真正厉害的地方不只是-one-step">为什么我觉得它真正厉害的地方，不只是 one-step</h2>
<p>只说 one-step 生成，其实并不新。真正让我觉得这篇工作有分量的，是它没有把 one-step 仅仅当成一个 distillation endpoint，而是把它组织成了一个相对 principled 的 training paradigm。</p>
<p>第一层当然是结果够硬。按照论文报告的结果，ImageNet 256×256 上 1-NFE 的 FID 非常强，公开数字里 latent drifting 大约到 1.54，pixel drifting 大约到 1.61。对于 one-step generation，这已经是相当猛的成绩了。更重要的是，这不是那种“one-step 但大家都知道画质还是差一截”的结果，而是真的进入了“快且强”的区间。</p>
<p>第二层是效率优势不只是表面上的 NFE=1。论文里给出的 FLOPs 对比也相当夸张，比如 drifting pixel 大约 87G FLOPs，而 StyleGAN-XL 在公开对比里大约是 1574G。也就是说，它不是靠更大的计算代价去硬堆 one-step quality，而是在质量和成本两边都打出了很强的 trade-off。这个点尤其重要，因为 one-step 方法很多，但真正能把“便宜”和“高质量”同时做出来的并不多。</p>
<p>第三层，也是我最看重的一层，是这个想法的可迁移性。它并不只是在说“我有一个更强的 ImageNet 256 baseline”，而是在提出一种新的 thinking template：如果生成任务的瓶颈在于 test-time refinement，那么有没有可能把 refinement 的一部分乃至大部分，迁移成 train-time distribution evolution？一旦这样想，video generation、audio generation、diffusion policy，甚至更远一点的 latent language generation，都会自然进入这套视野。</p>
</section>
<section id="实验该怎么看亮点在哪里哪些地方还只是初步验证" class="level2">
<h2 class="anchored" data-anchor-id="实验该怎么看亮点在哪里哪些地方还只是初步验证">实验该怎么看：亮点在哪里，哪些地方还只是初步验证</h2>
<p>这篇工作的主战场非常明确，就是 ImageNet 256×256 的条件图像生成。评估指标仍然是大家最熟悉的 FID，所以结果的可比性没有什么问题。在这个 benchmark 上，如果论文的数字完全站得住，那么它最强的叙事就是：在最苛刻的 1-NFE 设定下，它不是“勉强可用”，而是做到了真正具有竞争力的高质量生成。</p>
<p>论文同时报告了 pixel space 与 latent space 版本，这一点也很值得注意。首先，这说明 drifting 并不被某一种表示空间锁死；其次，两者的性能差异也在暗示一个更深的问题：<strong>这个范式本身可能是 general 的，但它对表示空间的几何性质非常敏感。</strong> latent 版本更优，某种意义上并不令人意外，因为更“几何友好”的空间往往更适合做局部平滑的分布修正。反过来说，这也再次说明 feature design 不是边角料，而是方法主体的一部分。</p>
<p>作者还把同样的思想扩展到了机器人控制 / diffusion policy 场景，这一点是加分项，因为它至少表明 drifting 不是纯粹依赖图像纹理统计的小 trick，而更像一种 distribution evolution principle。不过如果实话实说，这部分更多还是 concept validation。真正让这篇 paper 在社区里站住、让人认真看待它的，仍然是 ImageNet 上极强的 1-step generation 结果。</p>
</section>
<section id="这篇工作真正的贡献我会怎么概括" class="level2">
<h2 class="anchored" data-anchor-id="这篇工作真正的贡献我会怎么概括">这篇工作真正的贡献，我会怎么概括</h2>
<p>如果不按论文里常见的 contribution list 写法，而是从研究价值上压缩，我会把它的贡献概括成四层。</p>
<p>第一层，也是最核心的一层，是它重新定义了 training 与 inference 之间的分工。它告诉你，生成模型里的“迭代”未必要在 test time 显式跑出来，这本身就是一个强概念贡献。</p>
<p>第二层，是它提出了 drifting field 作为 distribution correction signal。这和直接学习 denoiser、score、velocity 都不一样，也不是标准的 adversarial discriminator loss。它更像是在真实分布和当前生成分布之间定义了一种局部几何相互作用，然后用这个 interaction 来驱动 generator 的更新。</p>
<p>第三层，是 feature-space drifting 让这个想法真正从“有意思”变成“可用”。如果没有这一层，方法大概率只会停留在 toy setting；正是因为引入了 pretrained representation，drifting 才有机会在复杂视觉语义上成立。</p>
<p>第四层当然是硬结果：one-step SOTA 级别的质量，以及非常漂亮的效率优势。没有这一层，这仍可能是一篇令人欣赏的 idea paper；有了这一层，它就成了一篇真正会被认真对待的方法论文。</p>
</section>
<section id="它最让我在意的局限性" class="level2">
<h2 class="anchored" data-anchor-id="它最让我在意的局限性">它最让我在意的局限性</h2>
<p>说完优点，问题也得讲透。对我来说，这篇工作最明显的短板并不在结果，而在它还没有把理论与方法边界完全封死。</p>
<p>我最在意的，是 equilibrium condition 的严格性。论文的核心直觉是：当 drifting field 消失时，生成分布已经和真实分布对齐。这个说法在直觉上非常顺，但从理论上看还远远不够。究竟在什么条件下 <img src="https://latex.codecogs.com/png.latex?V_%7Bp,q%7D(x)=0"> 可以推出 <img src="https://latex.codecogs.com/png.latex?p=q">？这是逐点意义、分布意义、还是某种 kernelized IPM / RKHS 意义下的结论？如果 kernel 的表达能力不够，或者 feature space 本身已经丢失了某些信息，会不会出现“feature-level 平衡了，但 data-level 其实没完全对齐”的伪平衡？这些问题如果不能更 formal 地说明，方法的理论闭环就还不算真正完成。</p>
<p>第二个非常实际的问题，是它对 pretrained feature encoder 的依赖很重。论文里的成功并不是一个“完全自洽、从零开始、只靠 drifting 就能学到全部语义几何”的故事，而是在很大程度上建立在强 representation 已经存在的前提上。这当然不是原罪，现代很多方法都离不开 pretrained features，但它确实会模糊“范式本身的贡献”和“表征系统替你做了多少工作”之间的边界。更重要的是，一旦离开 ImageNet 这种已有成熟表征生态的领域，问题会立刻变得棘手：audio 用什么 encoder？video 的时间语义怎么编码？joint audio-video feature 怎么定义？这些都不是一搬就通的事。</p>
<p>第三个局限，是 kernel 与局部几何的设计仍然相当 heuristic。为什么这个 kernel 最合适？bandwidth 怎么选？对 batch size 是否敏感？feature norm 会不会显著影响 dynamics？正负样本的构成是否会改写训练行为？如果这些部分的 ablation 不够系统，那么方法虽然有效，但还是会留下一种“有很多经验性 knobs”的感觉。</p>
<p>第四个问题是训练动力学本身还不够透明。凡是这种 moving target + self-bootstrap 的方法，我都会天然多留一个心眼：它会不会早期 collapse？会不会 overshoot？在不同 initialization 下会不会落进不同 basin？drifting field 的估计噪声对稳定性影响有多大？这些问题不一定构成致命缺陷，但如果作者未来想把这条路真正发展成一条清晰的方法线，训练动态的分析会非常重要。</p>
<p>最后，还有一个更宏观的限制：现在的成功主要集中在 ImageNet 256 和一个辅助性的 policy 实验上。这个范围已经足够让人重视，但如果要从“强 benchmark paper”走向“公认的新范式 paper”，它还需要在更多数据域、更高分辨率、更多条件形式、甚至 text-conditioned generation 上继续证明自己。</p>
</section>
<section id="放在相关工作里看它站在哪个谱系上" class="level2">
<h2 class="anchored" data-anchor-id="放在相关工作里看它站在哪个谱系上">放在相关工作里看，它站在哪个谱系上</h2>
<p>我觉得看这篇论文，不能只按 related work 列表去记名字，更重要的是搞清楚它在 generative modeling 的谱系里到底站在哪里。</p>
<p>和 diffusion / score-based / flow generation 这一脉相比，它们解决的是同一个大问题：如何把简单分布映射到真实数据分布。不同的是，前者把 transformation rule 显式地部署在 inference 里，所以 test time 必须沿 trajectory 走；drifting 则把 distribution evolution 前移到 training，用训练过程本身去吸收这条 trajectory 的作用。从这个意义上说，它不是在 sampler 层面竞争，而是在“迭代该放在哪个阶段”这个更高层上改写游戏规则。</p>
<p>和 one-step / few-step distillation 方法相比，它最大的区别在于它不是一个 compressed multi-step model，而是试图做一个 native one-step model。Consistency Models、Progressive Distillation、DMD 这些方法大都绕不开 teacher。drifting 的野心更大：它想直接定义一种无需借助 teacher trajectory 的 one-step training principle。如果这个目标真的成立，它在 conceptual 上当然比很多蒸馏路线更有独立性。</p>
<p>和 GAN 比较时就更有意思了。GAN 也是 one-step，也同样从 latent/noise 直接映射到 sample，但它依赖的是 generator-discriminator 的 minimax game，而 drifting 依赖的是由真实分布与当前生成分布局部相互作用构成的修正场。换句话说，它不是 adversarial training 的变体，而更像一种 distribution correction / geometric interaction 机制。如果将来 drifting 真能稳定提供比 GAN 更好的质量-效率平衡，它完全有机会成为 one-step generation 的另一条主线。</p>
<p>再往深一点看，它和 kernel-based distribution alignment、particle transport、energy-based attraction-repulsion 这些想法也有隐约亲缘。reviewer 很可能会问：这和 MMD gradient flow 到底是什么关系？是否可以被更统一地解释成某种 feature-kernel metric 下的 transport direction？我觉得这恰恰说明它的理论拓展空间很大。现在这层关系还没有被完全讲透，但也正因此，这篇工作不太像一个走到头的 engineering trick，反而像一个刚刚打开的新接口。</p>
</section>
<section id="novelty-怎么看" class="level2">
<h2 class="anchored" data-anchor-id="novelty-怎么看">Novelty 怎么看</h2>
<p>如果分层判断 novelty，我会给它相当高的评价。</p>
<p>概念 novelty 很高，因为“把 inference 里的迭代前移到 training”这个 framing 本身就不是常规 incremental improvement，而是一个会改变你看问题方式的提法。</p>
<p>技术 novelty 我会给中高。drifting field 与 kernel interaction、feature geometry 显然不是从真空里长出来的，它和很多已有思想都有血缘；但把这些元素组织成一个有效的 one-step generative training framework，本身仍然是明显有原创性的。</p>
<p>实验 novelty 也很高，因为它不是停留在概念层面，而是真的在最硬的 benchmark 上做出了足够惊人的结果。综合起来，我会把它的 novelty 归到 <strong>high</strong>，而且是那种有机会带出后续工作线的 high，而不是局部小修小补式的“新意”。</p>
</section>
<section id="如果站在-reviewer-视角我会怎么写" class="level2">
<h2 class="anchored" data-anchor-id="如果站在-reviewer-视角我会怎么写">如果站在 reviewer 视角，我会怎么写</h2>
<p>如果必须用 reviewer 口吻压缩总结，我大概会这么写：这篇工作提出了一种新的 generative modeling 范式，不再在 inference 阶段显式执行多步 trajectory，而是在 training 阶段通过 drifting field 持续修正生成分布，最终训练出一个 one-step generator。核心思想清楚，问题 framing 很强，ImageNet 256×256 上的 1-NFE 结果非常有说服力，也展示了向 policy learning 的初步迁移能力。主要疑问集中在理论闭环、对 pretrained encoder 的依赖，以及若干关键设计是否已经被足够系统地 ablate。</p>
<p>具体说 strengths，我会强调三点：一是 idea 很强，不是普通的工程增量；二是结果真的硬，one-step + ImageNet 256 + 强 FID 这组标签本身就很有分量；三是它不是蒸馏模型的附庸，而是在尝试建立一种 native one-step training principle。</p>
<p>weaknesses 则主要有三类：第一，equilibrium 与 distribution matching 的关系还没有被严格刻画；第二，方法对外部 feature geometry 的依赖相当重，这既是优势也是限制；第三，kernel、bandwidth、样本构成、训练动态这些部分还需要更充分的解释和 ablation。</p>
<p>如果要给总体 recommendation，我会偏向 <strong>Strong Accept / Accept</strong>。它不一定是那种理论上完全无懈可击的 paper，但很像一篇会在后续研究里被反复提到的 work。至于 venue，如果论文主打 benchmark result 和视觉生成表现，CVPR / ICCV 会很合适；如果后续进一步补强理论、强调生成建模范式上的重新定义，NeurIPS / ICML 也完全说得过去。</p>
</section>
<section id="对-diffusion-language-model-和音视频生成有什么启发" class="level2">
<h2 class="anchored" data-anchor-id="对-diffusion-language-model-和音视频生成有什么启发">对 diffusion language model 和音视频生成有什么启发</h2>
<p>这部分其实是我觉得你会最关心的地方。</p>
<p>对 diffusion language model 来说，这篇工作最有价值的不是某个具体公式，而是它抛出的元问题：语言生成里的 iterative refinement，是否也有一部分可以从 inference 前移到 training？当然，语言是离散 token，问题会比图像难很多，不能生搬硬套。但如果讨论的是 latent language model、continuous relaxation、representation-space generation，或者某种 semantic editing trajectory，那 drifting 的视角并不是完全无处落脚。</p>
<p>更具体一点，DLM 里一个长期存在的 tension 就是：refinement 往往能换来更强的全局一致性和更好的 sample quality，但 inference latency 又会迅速变高。Drifting 给出的不是直接答案，而是一种非常值得借用的提问方式：你真正需要在 test time 显式执行的 refinement，到底有多少？哪些部分本质上是 distribution-level 的修正，其实可以在训练期被内化？如果以后有人把这件事做进连续 latent token space，我一点也不会意外。</p>
<p>对音视频生成也是类似。尤其是 feature-space drifting 这件事，几乎可以直接改写成另一句话：<strong>选对表征空间，很多原本难学的生成几何会突然变得可学。</strong> 这对 video latent、audio representation、cross-modal feature alignment 都非常 relevant。你现在做音视频模型，如果哪天碰到“想做低步数甚至 one-step，但质量总差一口气”的问题，这篇文章提供的未必是现成方案，但很可能是一个很好的 research trigger。</p>
</section>
<section id="我会怎么建议你读以及值不值得复现" class="level2">
<h2 class="anchored" data-anchor-id="我会怎么建议你读以及值不值得复现">我会怎么建议你读、以及值不值得复现</h2>
<p>我的建议是：值得精读，也值得尝试分层复现，但别一上来就冲 ImageNet 大实验。</p>
<p>最先要吃透的，其实不是实现细节，而是那套直觉：为什么 attraction real samples、repulsion generated samples，会推动整个分布对齐？为什么 equilibrium 值得相信？为什么 feature space 的选择会比 pixel space 关键得多？这些想清楚之后，再去看训练目标、stop-gradient、kernel 设计，就会顺很多。</p>
<p>如果要复现，我会强烈建议先做 toy version。比如 2D toy distribution、CIFAR-10、小型 latent generator，先看 drifting 是否稳定、kernel / feature design 是否敏感、会不会 collapse 或 overshoot。因为这类方法最怕的是只在大 benchmark 上看到最终数字，却没有真正理解它的训练动力学。一旦 toy 版跑通，再往更复杂的视觉任务，乃至你自己的方向——latent video generation、audio representation drifting、continuous latent language generation——去想迁移，才比较有把握。</p>
<p>如果只让我挑一个最值得借鉴的点，我会选这个：<strong>不要把“迭代”默认锁死在 inference。</strong> 把它看成一种可以在 training 与 inference 之间重新分配的资源，这个思路本身就很值钱。它不保证你下一个想法一定能成，但会显著改变你看 generative efficiency 问题的方式。</p>
</section>
<section id="最后的判断" class="level2">
<h2 class="anchored" data-anchor-id="最后的判断">最后的判断</h2>
<p>我对这篇论文的总体评价很明确：它是一篇高质量、强新意、强结果，而且对后续研究方向很有启发性的工作。它最打动人的地方，不是单纯做到了 one-step，而是提供了一个很强的主张：生成里的迭代未必非得出现在推理时，训练过程本身也可以承载分布演化。</p>
<p>这件事如果只是个漂亮想法，那它会是一篇“有意思”的论文；现在的问题在于，它还真把 ImageNet 256 的 1-NFE 结果做得非常强，于是它就不只是有意思，而是值得认真对待。</p>
<p>如果只回答一句“该不该花时间”，我的答案还是：<strong>该，而且不只是读结论，值得认真拆它的方法、framing 和它背后的研究口味。</strong></p>


</section>
</section>

 ]]></description>
  <category>blog</category>
  <category>paper</category>
  <guid>https://zty624.github.io/posts/blog-paper_generative_modeling_via_drifting/</guid>
  <pubDate>Tue, 10 Mar 2026 16:00:00 GMT</pubDate>
  <media:content url="https://zty624.github.io/files/images/openclaw.svg" medium="image" type="image/svg+xml"/>
</item>
<item>
  <title>Deep Learning Notes</title>
  <link>https://zty624.github.io/</link>
  <description>Notes for Deep Learning</description>
  <category>notes</category>
  <category>on</category>
  <guid>https://zty624.github.io/</guid>
  <pubDate>Wed, 21 Jan 2026 16:00:00 GMT</pubDate>
  <media:content url="https://zty624.github.io/files/images/bg3_preview.jpg" medium="image" type="image/jpeg"/>
</item>
<item>
  <title>Introduction to Computational Theory Notes</title>
  <link>https://zty624.github.io/</link>
  <description>Notes for Introduction to Computational Theory</description>
  <category>notes</category>
  <guid>https://zty624.github.io/</guid>
  <pubDate>Sat, 22 Nov 2025 16:00:00 GMT</pubDate>
  <media:content url="https://zty624.github.io/files/images/bg2_preview.png" medium="image" type="image/png" height="89" width="144"/>
</item>
<item>
  <title>QM &amp; QFT Notes</title>
  <link>https://zty624.github.io/</link>
  <description>Notes for Quantum Mechanics &amp; Quantum Field Theory</description>
  <category>notes</category>
  <category>on</category>
  <guid>https://zty624.github.io/</guid>
  <pubDate>Fri, 21 Nov 2025 16:00:00 GMT</pubDate>
  <media:content url="https://zty624.github.io/files/images/bg1_preview.png" medium="image" type="image/png" height="81" width="144"/>
</item>
<item>
  <title>Thinking about Physics and AI</title>
  <dc:creator>Tengyue Zhang</dc:creator>
  <link>https://zty624.github.io/posts/blog-thinking-about-physics-and-ai/</link>
  <description><![CDATA[ 




<p>自从我下定决心转行已经快过去了半年。半年间我学了很多东西，也吃了很多苦头。安逸于物理的稳定和有序已久，猛然惊醒方觉外界换了人间，恍如烂柯。而现在只不过是努力追赶时代脚步罢了。</p>
<p>半年间印象很深的，便是很多人问我，学物理的为什么要来搞 AI，是物理读不下去了还是只是单纯的跟风，或者则是兴趣满满问 AI 和物理怎么联系在一起。正好最近焦虑的发慌，便想写点东西来缓解一下。</p>
<p style="text-align: right;">
Revised on 2025-11-23
</p>
<hr>
<p>2024 年的物理诺奖颁给了人工神经网络之父 Hinton，对物理专业的笔者而言，冲击无疑是巨大的。</p>
<p>笔者认为，自然科学和工程的发展无非是三个阶段的循环：Observation, Theory, Application. 物理学家，尤其是“传统”的物理学家，一般聚焦于观察和理论的阶段，致力于发现新的物理，无论是实验先验还是逻辑先验。</p>
<p>当然，我并没有排斥和贬低任何的工程科学，也没有反对物理学家使用工程师的思维来解决问题。 诚然，现代物理学体系日渐完善，前沿发展极端细分。 我所反对的，是物理学家困于工程师的思维尝试创造物理，但不能解释和分析之，也不能为社会带来实际的价值。 当物理学的工作变成调参，当领域细分的规律从普适逐渐变成了特殊，当物理学家需要用技术来理解研究对象时，物理学正在成为一种新的劳动密集型产业。 我不太清楚物理学的价值何在，我不太清楚物理研究的意义何在。</p>
<section id="paradigm-of-physics-research" class="level2">
<h2 class="anchored" data-anchor-id="paradigm-of-physics-research">Paradigm of Physics Research</h2>
<p>笔者自觉自己四大学的还可以，但是后面的内容，偏理论如广相场论，偏实验如光学凝聚态等等细分便不是很熟悉。 毕竟在同行继续向更深处迈进的时候，笔者已经转行去干完全不相干的 AI 了。 以前笔者自以为自己的理科背景，来 AI 这边应该可以很快的适应吧。然而，笔者现在才发现，从思维方式开始，物理就和 AI 之间存在着巨大的鸿沟。譬如，两者对于数学的态度。</p>
<p>如果说数学是一切自然科学的鼻祖，那么物理学则是一切实验科学和工程技术的鼻祖。物理学有着和数学差不多深的知识树，但是在严谨度和公理化程度方面欠缺（从量子力学中看到的诸多 axioms 可见一斑）；她的普适性和抽象性，却又胜过化学、生物等其他描述性科学。这个特殊的地位，使得物理学在哲学意义上起到了一种桥梁的作用。顺水推舟，物理学的研究整体上可以被划分为理论和实验两个极端。</p>
<p>然而理论和实验，哪个才是物理的主流？回望人类历史，物理学靠着理论和实验两条腿走路，哪一条长一点短一点都硌脚。但是，物理学发展到现代，纯数学和纯实验都已经细分为完善的学科。虽然细分的领域仍然很“物理”，但是物理学的“主流”已经不再是这些方向。当代社会中不可或缺的计算机，其底层的晶体管/CMOS原理，难道和物理学没有关系吗？然而在当代大学中，至少在中国的大学找个物理系的本科生，除非 ta 是搞微电子方向的，那么大概率不知道这些数电的基本知识。物理学研究的是未知数，那些成熟的理论都已经转化为工科的一部分了。Maxwell 说过，<em>Physics is the scientific study of matter, its fundamental constituents, its motion and behavior through space and time, and the related entities of energy and force.</em></p>
<p>所以，无论理论还是实验，都要像爱因斯坦所说一样，要分别出什么是“真正重要的研究”。以他的广义相对论为例，他在思考狭义相对论的时候，就已经意识到了引力的问题，但是他却没有解决问题的数学基础。当他告诉了他的朋友格罗斯曼时，格罗斯曼说：“你的想法是对的，但是你的数学是错的。”然后告诉他黎曼几何。这句话对物理学是一个很好的示例。现代物理学的研究方向有时过于细分，物理学的优点正是在于她的广度，使她可以有效的从数学和实验的两极借鉴知识。你能说黎曼几何不重要吗？当然不能。但是如果没有广义相对论，黎曼几何也许不会有现在这么大的影响力。所以，爱因斯坦对于引力时空的思想是“真正重要的”。毕竟，物理学的本质是研究自然规律，而不是单纯的数学或者实验技术。</p>
<p>谈谈物理学的美。杨先生说物理学表面有表面的美，深层有深层的美，它们的内涵往往随着物理学的发展而产生新的意义。我斗胆猜想，他的意思应该是赞美物理学的普适性。这种普适性能够跨越实验现象，唯象理论，理论架构，甚至数学的界限，使得物理学的美是一种全方位的美。这种美，正是物理学的魅力所在。</p>
<hr>
<p>上述啰唆了这么多，无非是想说，物理学中对数学的依赖并不是那么的纯粹，因此从某种意义上来说，物理学和 AI 一样，都是“半公理化的”对数学的应用。而大多数情况下，物理和 AI 的研究方向是风马牛不相及的。话说到这个层面，那么结论也显而易见了。那些社会上对物理系学生容易转专业的刻板印象，不过是改开的教育红利罢。</p>
</section>
<section id="ai-for-physics" class="level2">
<h2 class="anchored" data-anchor-id="ai-for-physics">AI for Physics?</h2>
<p>AI 的风已经席卷到各行各业，物理学也不例外。大一的时候，笔者曾对最近五年的 Physics Review 系列论文的标题和摘要进行了引用统计，位于关键词云图中央的赫然是 Machine Learning。那时笔者不敢相信统计的数据，以为是把交叉学科的论文也统计进去了，遂手动删去了 Machine Learning 这个 stop word。直到 24 年诺奖结果公布，笔者才意识到，自己当时说不定已经看到了未来，至少是几年以内的未来。</p>
<p>从物理出来后，笔者也接触过一些 AI for Science 的项目，但是整体上都比较 trivial。绝大多数的项目都是想用 AI 来取代/加速原本的研究范式中一些比较 time-consuming 的步骤。或者是，单纯的为了 AI 而 AI，不知道 AI 的价值何在。</p>
<p>笔者以为，一个好的 AI for Science 课题要同时满足以下三个条件:</p>
<ol type="1">
<li><strong>问题已经被良定义</strong>. 不同于 CV, NLP 等拥有诸多 benchmark 和具体任务的方向，AI4Sci 存在这一个重大的问题，即每个 domain 都是具体情况具体分析，甚至在某些领域根本就没有明确的任务。如果一个方向，连 baseline 都没有被定义，一个基本的 benchmark 都没有，那么说难听点，往会议灌水的时候连完整的故事都讲不清楚。</li>
<li><strong>数据充足</strong>. 当前 AI 的主导范式是表征学习，只要数据足够，模型就能自动学习到有用的信息和结构。</li>
<li><strong>物理机制不明确</strong>. 如果物理机制明确，那么 AI 的存在意义何在？AI 在科学中的价值不是“重现已知物理”，而是在中尺度问题上建立有效理论，在现有理论不确定或不可微（non-differentiable）时构建近似模型。因此，AI 最擅长“机制未定但数据可观”的领域，例如蛋白折叠、中尺度气象、复杂材料等。</li>
</ol>
<p>非常可惜的是，物理学天生就不与 AI 适配。</p>
<p>第一，很多物理问题本身就不是良定义的。在物理学中，数据仅用于检验理论，而不是用于学习理论。一旦某个现象的理论解释不明确，物理学家的标准操作是构建新的理论，而不是让理论去 fit 这个模型。这意味着，物理的研究范式并不是让你去实现什么，而是去解释什么。</p>
<p>第二，物理学的实验数据往往非常稀缺。虽然说有很多方向的观测数据非常巨大，比如粒子和天体物理，但是这些数据往往是高度结构化、且信息含量极低，用传统的机器学习方法就可以很好的提取和分析。实验科学的数据稀缺性和昂贵性，使得深度模型天然处于欠定系统中。AI 能否取代传统统计方法、最大似然法、贝叶斯推断、凸优化等方法，仍然是一个值得商榷的问题。</p>
<p>第三，得于半公理化的体系结构，物理学既没法像数学那样提供从 lean 出发的公理化证明路线，又不能直接放手给 AI 去“学”物理。将物理嵌入到 AI 之中，让 AI 通过学习物理来获得物理的洞察，感觉目前并没有什么好的方法。是最致命的是，物理学的理论机制，或者说对实验现象的解释权，一直都是掌握来理论学家手中的。AI 并不具备，也不能具备在语境下提供新物理的能力。</p>
<p>AI for Physics 真正能做的，往往是在一些工程物理中，做一些理论已经明确，只不过数据量巨大的问题。比如材料科学，蛋白折叠，中尺度气象等。然而，如果都已经往工程上靠拢，那么去做 multimodal 和 NLP，岂不是更加的具有学术和社会价值？</p>
</section>
<section id="physics-of-ai" class="level2">
<h2 class="anchored" data-anchor-id="physics-of-ai">Physics of AI</h2>
<p>回到 subtitle, 其实说来神奇，当下流行的 NN 一开始是在研究多体问题中发现的。</p>
<p><a href="hn.jpg"><img src="https://zty624.github.io/posts/blog-thinking-about-physics-and-ai/hn.jpg" class="img-fluid" style="width:90.0%"></a></p>
<p>在经典的 Ising 自旋体系中，当自旋耦合的结构足够复杂时，系统的能量景观往往会形成许多彼此分离的低能谷。这些低能构型对应着不同的稳定自旋排列，每一个稳定排列都可以被视为一种“模式”。系统在动力学演化中，无论从何处出发，都会被吸入这些低能谷之一，从而表现出类似记忆的特性。在统计物理中，这类现象被称作多稳定态，常见于自旋玻璃等复杂系统。</p>
<p>横场 Ising 模型是在这种经典结构上加入量子涨落：横向磁场使每个自旋都有概率发生翻转，从而能够在不同构型之间产生隧穿效应。尽管如此，只要横场的强度不至于压倒自旋耦合所决定的能量结构，这些原本的低能谷依然会保留下来。换句话说，量子涨落会在局部对稳定构型产生轻微扰动，但无法抹平整个能量景观。系统仍然拥有一系列相对稳定的量子态，它们与经典的自旋排列高度相似，并在动力学上继续充当吸引子。</p>
<p>在 Hopfield network 里，人们首次系统地把“模式存储”现象引入人工神经网络的语境：每个神经元只取两种离散状态，网络中所有连接是对称的，并通过一个类似能量的标量来刻画整体状态的“好坏”。当网络从一个带噪声的初始状态出发，按照局部规则异步更新时，这个能量会单调下降，最终把系统拉进某个稳定构型。每一个稳定构型对应一幅“记忆图像”或“模式”，不同的模式则对应能量景观里的不同谷底。这样，Hopfield network 就把“联想记忆”具体实现为：从不完整或受扰动的输入出发，通过动力学演化回到最近的稳定模式。</p>
<p>Hinton 提出了 Boltzmann machine、受限玻尔兹曼机等一系列模型，把“能量函数”当作统一的建模语言：你只要设计好能量函数，概率分布、采样过程以及学习目标就都随之确定。他进一步发展了近似学习算法，用有限步的随机演化来逼近真实的热平衡采样，从而在实际规模上训练这些能量模型，让其真正成为现代机器学习中的一个重要分支。</p>
</section>
<section id="future" class="level2">
<h2 class="anchored" data-anchor-id="future">Future</h2>
<p>GPT 只是三年前的产物，大名鼎鼎的 ds-r1 在年初问世，现在就被嘴刁的用户嫌弃。大多数人学习的速度赶不上 AI 技术迭代的速度，又有多少人已经成为 LLM 的 distilled-model？和计算机、网络等技术不同，表征和连续学习的能力真的可以取代人类存在本身，劳动的异化正在以一种前所未有的方式成为现实。</p>
<p>和手机，网络等技术一样，AI 正在逐渐成为我们身体和能力的延伸。当笔者执笔写下这段文字时，已经深深感到自己文笔的生疏，词汇的贫乏，以及思维的迟钝。被日新月异技术裹携着，笔者对未来毫无头绪。唯望笔者能在 AI 洪流之下，仍然做一颗会思考的苇草。</p>
<!--Include social share buttons-->
<!-- {{< include /files/includes/_socialshare.qmd >}} -->


</section>

 ]]></description>
  <category>blog</category>
  <guid>https://zty624.github.io/posts/blog-thinking-about-physics-and-ai/</guid>
  <pubDate>Tue, 22 Jul 2025 16:00:00 GMT</pubDate>
</item>
</channel>
</rss>
