Tengyue Zhang

Why Harness Works and Why I Think It Is Not Important

Tengyue Zhang — Mon, 18 May 2026 16:00:00 GMT

最近事务繁忙，这篇文章先把想法交给 codex 起草。我保留其中的判断，也保留 agent 代笔留下的痕迹。

脚本之外

最近用了一圈好用的 harness 和它们的配套插件——快速总结 skill 的 hermes agent，写代码的神 claude code，还有 ARIS、ralph-loop 之类。一方面，它们确实有用，极大加速了笔者学习和工作的效率；另一方面，也看到了不少像 Openclaw 这种噱头大于实质的 agent。

笔者一直对所谓 agent，或者更时髦一点的 harness engineering，抱有一种矛盾态度。说它只是脚本，好像太轻了：同一个基座模型，套上不同 harness 之后，真实任务表现确实会差很多。说它是新的智能范式，又好像太重了：大多数 harness 拆开看，不过是状态管理、工具调用、失败重试、日志记录、权限隔离、verifier 和 budget control。

笔者自然尊重 harness, 以及当前的各种 agentic 的研究工作。但是笔者想要问的，或者是强调的问题是：harness 到底改变了什么？它的有效性来自哪里？以及这种有效性为什么仍然不构成一种根本重要性？

Agent 与控制论

如果只看当下的 AI 圈，harness 很容易被说成一种新东西：agent framework、tool-use wrapper、workflow engine、multi-agent orchestration、auto-research loop……换一套词，它似乎就带上了革命色彩。可是把时间轴稍微拉长，harness 并不神秘。它更像控制论在 LLM 时代重新露出的一副面孔。

控制论最早关心的并不是“机器有没有心智”，而是系统怎样在扰动中维持目标。Rosenblueth、Wiener 和 Bigelow 在 1943 年的 Behavior, Purpose and Teleology 中讨论目的性行为时，抓住的是 negative feedback：系统观测自身与目标之间的偏差，再用动作缩小偏差。Wiener 后来在 Cybernetics 中把这个领域定义为动物和机器中的控制与通信。把这个定义放到今天看，几乎就是 agent harness 的骨架：观测、误差、动作、反馈、再观测。

harness 的第一层意义，不是“让模型更聪明”，而是把模型放进反馈回路。如果说，裸 LLM 可以看作一个单步生成的开环系统 , 那么控制论意义上的 harness 则是闭环：

系统不仅仅问“模型这一次说了什么”，而且追问“这条运行轨迹有没有把系统推向目标”。譬如，写代码 agent 的目标不是吐出一段看起来像 patch 的文本，而是让测试通过、diff 可读、让仓库状态一致、失败可复现。科研 agent 的目标也不该只是写出一篇像论文的文章，而应当形成假设、设计实验、运行实验、读出证据、更新判断。换句话说，harness 把语言模型从一个 generator 放进了 feedback loop，让它成为其中的 controller component。

Ashby 的控制论尤其适合说明这里面的工程直觉。他在 An Introduction to Cybernetics 里提出 Law of Requisite Variety：只有足够的 variety 才能吸收环境的 variety。一个系统面对的扰动越复杂，调节器本身就越需要丰富的状态和动作。放到 LLM harness 上，这句话并不抽象。真实任务会在格式、权限、依赖、网络、测试、资源、上下文、模型幻觉、工具错误、评测漏洞等地方失败。如果 harness 只有 run -> done 两个状态，它当然调节不了这些扰动。于是它长出 parser、retry、timeout、checkpoint、sandbox、verifier、cache、human review、budget control。这些不是装饰，而是 requisite variety。

Conant 和 Ashby 1970 年的 Good Regulator Theorem 说得更直接：每一个好的调节器都必须包含被调节系统的模型。一个 harness 若想调节 agent，就不能只知道“再跑一次”。它必须知道哪些失败可重试，哪些失败致命，哪些状态可恢复，哪些动作越权，哪些输出可以被 verifier 接受。好的 harness 不是更厚的胶水，而是更准确的系统模型。

所以，harness engineering 虽然常常像工程杂活，却经常决定系统表现。控制器的质量不在于叙事有多宏大，而在于它是否把关键状态、关键误差和关键动作编码进闭环。一个能区分 FORMAT_ERROR、TEST_FAILURE、DEPENDENCY_MISSING、UNSAFE_ACTION、BUDGET_EXHAUSTED 的 harness，比一个只会返回 FAILED 的 harness 多了许多调节能力。

To be Continued

Generative Modeling via Drifting

Tengyue Zhang — Tue, 10 Mar 2026 16:00:00 GMT

Recently I have made a OpenClaw pipeline of reading paper and posting blogs. This blog, of course, is a test sample of the pipeline. So actually this blog is more like a fun.

Generative Modeling via Drifting：把迭代从推理期搬到训练期，会发生什么？

论文链接：https://arxiv.org/abs/2602.04770
领域：generative modeling / image generation / one-step generation / diffusion-adjacent methods

最近几年，生成模型的发展有一个几乎默认不被质疑的前提：想要高质量生成，就得让模型在推理时一步一步地走。diffusion 是这样，score-based model 是这样，flow / ODE 类方法本质上也是这样。它们的差别更多在于这条 trajectory 怎么定义、怎么离散、怎么求解，而不是要不要 trajectory 本身。

《Generative Modeling via Drifting》最有意思的地方，就在于它正面挑战了这个前提。作者没有继续在“怎么把 50 步压到 10 步、再压到 4 步”这条路上卷 sampler，也不是走一条典型的 teacher-student distillation 路线，而是换了一个问题问法：生成过程中那部分“逐步逼近数据分布”的计算，为什么一定要发生在 inference 阶段？如果把这部分迭代前移到 training，最后能不能直接得到一个 one-step generator？

我觉得这是这篇工作真正值得读的原因。它不是单纯把 FID 又刷低了一点，而是在 generative modeling 里提出了一种很有后劲的 framing：迭代不是某个特定算法的附属物，而是一种可以在 training 与 inference 之间重新分配的计算资源。 这个视角对 image generation 当然重要，但对 diffusion language model、音视频生成、机器人控制这些同样被 inference latency 困住的方向，也都很 relevant。

先把我的总体判断放在前面：这篇论文值得精读，而且不是那种“结果不错，细节未必重要”的 paper。我会把它看成一篇 idea 很亮、实验也很硬的强 paper。它的概念新意很高，工程潜力也很高，实验说服力相当强；相对弱一点的地方在于理论闭环还没有完全封死，一些关键部分仍然带有 heuristic 色彩。如果我是 reviewer，大概会把它归到 strong accept / accept 这一档：不是毫无疑问的完美 paper，但明显是一篇有顶会竞争力、而且很可能会被后续工作反复提到的 paper。

它到底在解决什么问题

高质量生成模型为什么慢，这件事大家其实都很熟悉了。以 diffusion 为代表的方法之所以强，是因为它们把“从简单分布到数据分布”的过程显式地拆成了很多小步：从噪声开始，一点点 denoise，一点点往数据流形上靠。这样做的好处是训练稳定、mode coverage 往往不错、生成质量也高；坏处同样明显——推理要跑很多步，延迟高，交互性差，落到视频、控制、实时系统上尤其痛苦。

过去几年围绕这个问题，社区大致有三条主线。第一条是做更快的 sampler，比如 DDIM、DPM-Solver、高阶 ODE/SDE solver。这条路的价值很大，但本质上还是“少一点步数的多步生成”；从 1000 步变成 50 步、20 步、10 步，已经很好了，可真要 one-step，质量通常还是会明显掉。第二条是蒸馏，把强 teacher 的 trajectory 压缩成 few-step 甚至 one-step student，比如 Progressive Distillation、Consistency Models、DMD 等。这条路线很有代表性，但常见问题是训练复杂、依赖 teacher，而且最后 student 的上限仍然经常受制于 teacher trajectory 的可蒸馏性。第三条是回到 GAN。GAN 天生 one-step，但训练稳定性、mode collapse、复杂数据分布下的鲁棒性问题，社区其实已经非常熟悉了。

Drifting 这篇工作提出的问题，比“怎么更快”更往上一层：我们为什么默认分布演化一定要在推理时发生？ 作者给出的答案很直接：不一定。与其在 test time 修正单个 sample 的 trajectory，不如在 train time 持续修正整个生成分布，让 generator 自己学会一上来就落在更对的位置上。最后 inference 只做一次前向传播，NFE=1。

这个 conceptual shift 才是全文主线。你可以把它理解成：传统方法把 attention 放在 sample trajectory 上，而 Drifting 把 attention 放在 training 过程中 generated distribution 的 evolution 上。

核心直觉：不是“多走几步”，而是“提前学会走到那里”

论文从一个很朴素的设定出发。给定噪声，generator 把它映射成样本。这个 generator 诱导出一个生成分布，目标当然还是让尽量逼近真实数据分布。

区别在于，它不再去学习一个 test-time denoising rule，也不显式地求解一条 ODE/SDE，而是想定义一个 drifting field ：对于当前来自生成分布的样本，如果想让整个分布更接近，它局部上应该朝哪个方向移动一点。

这个设计的直觉并不难理解。一个生成样本如果靠近真实数据附近、但还不够对，那么来自真实分布的邻近样本应该把它往“更像真的地方”拉；与此同时，来自当前生成分布的样本又在提醒它“别在错误区域里越堆越多”，于是会形成一种排斥。最后，drifting field 表示的就是这种 attraction-repulsion 共同作用下的局部更新方向。

论文里有一个很重要的性质：

这意味着它天然带着一种平衡态结构。当和一致时，正负作用应当抵消，drift 消失，训练不再推动分布继续移动。这个性质听起来很自然，也确实是方法成立的核心直觉之一。

如果你熟悉 contrastive learning、kernel method、energy-based model，或者 MMD / interacting particles 这类思路，会很容易感到一种“亲缘感”。它当然不是直接等同于这些方法，但味道确实相通：都在利用局部相似性结构来定义一个“应该往哪儿走”的几何信号。

方法上真正关键的两步：构造 drifting field，以及在 feature space 里做 drifting

从形式上看，论文里的 drifting field 本质上是一个核加权的正负样本差分结构。直观地写，可以理解成类似

这里最重要的不是常数怎么设，而是这个结构表达出的意思：真实样本提供吸引，生成样本提供排斥，kernel 决定谁和谁算局部邻居。于是一个样本并不是被某张 ground-truth image 监督着去“对齐”，而是在当前分布与真实分布的相互作用里，被告知应该朝哪里挪一步。

接下来训练目标就很自然了。模型先生成，再计算它的 drifting 向量，得到一个被停止梯度的目标位置

然后让 generator 去拟合这个目标，例如最小化

这一步非常关键，因为它说明训练监督的对象不是“某张真图”，也不是 teacher 在某个 time step 上的输出，而是“当前生成样本沿着 distribution-correction direction 挪一步之后的位置”。所以整套训练更像是一种 self-bootstrapping 的分布修正过程。stop-gradient 的角色也正是在这里体现出来：它把 drifting target 固定成当前迭代的外部目标，避免梯度直接穿过 drifting field 本身导致训练信号纠缠得过于复杂。

不过，真正让这套想法在 ImageNet 这种复杂视觉分布上站住脚的，并不是上面这些公式本身，而是作者非常清醒地意识到：不能只在 pixel space 里做 drifting。

如果直接在像素空间里用欧氏距离定义局部邻居，问题几乎是立刻出现的。pixel-level 的接近不一定对应 semantic-level 的接近，高维空间里的 kernel 也很容易退化，最后 drift direction 很可能只是在补纹理，而不是在修语义。作者因此把样本先送进一个 pretrained encoder 的 feature space，用而不是原始来定义相似性与局部几何。这一步我认为是全文最聪明、也最决定成败的设计之一。

原因很简单：一旦你承认 drifting field 本质上是在利用局部几何做分布修正，那么“局部几何在哪里定义”几乎就是全部问题。feature space 选得好，邻近关系就更语义化，drift direction 更可能沿着类别、结构和语义在动，而不是被 pixel noise 带偏；feature space 选不好，这个范式就可能迅速失去支撑。也正因为如此，我会觉得这篇工作对多模态很有启发，但也天然带着对 representation quality 的依赖——将来做 audio、video、joint audio-video drifting，选什么 encoder，绝对不会只是 implementation detail。

条件生成与 one-step inference 为什么能成立

在 ImageNet 这类 class-conditional 设定下，作者把 drifting 做成了条件化版本。直觉上并不难：正样本来自目标类别，负样本来自当前生成分布以及不匹配的类别区域，于是模型学到的就不只是“往真实图像分布靠近”，而是“往指定 class conditional distribution 靠近”。这让它可以自然处理条件生成，也更容易兼容 classifier-free guidance 之类的实践。

而 one-step inference 之所以成立，本质上正是因为训练期已经持续做了分布修正。diffusion / flow 那类方法把“纠偏”放在推理时显式执行，所以采样必须沿 trajectory 走；drifting 把“纠偏”前移到了训练过程本身，于是 generator 被训练成了一个已经内化 correction 结果的映射。推理时采样一个噪声，过一次 generator，图像就直接出来了。换句话说，它不是把多步过程压缩成了一步，而是试图让“一步”从一开始就成为 native output。

为什么我觉得它真正厉害的地方，不只是 one-step

只说 one-step 生成，其实并不新。真正让我觉得这篇工作有分量的，是它没有把 one-step 仅仅当成一个 distillation endpoint，而是把它组织成了一个相对 principled 的 training paradigm。

第一层当然是结果够硬。按照论文报告的结果，ImageNet 256×256 上 1-NFE 的 FID 非常强，公开数字里 latent drifting 大约到 1.54，pixel drifting 大约到 1.61。对于 one-step generation，这已经是相当猛的成绩了。更重要的是，这不是那种“one-step 但大家都知道画质还是差一截”的结果，而是真的进入了“快且强”的区间。

第二层是效率优势不只是表面上的 NFE=1。论文里给出的 FLOPs 对比也相当夸张，比如 drifting pixel 大约 87G FLOPs，而 StyleGAN-XL 在公开对比里大约是 1574G。也就是说，它不是靠更大的计算代价去硬堆 one-step quality，而是在质量和成本两边都打出了很强的 trade-off。这个点尤其重要，因为 one-step 方法很多，但真正能把“便宜”和“高质量”同时做出来的并不多。

第三层，也是我最看重的一层，是这个想法的可迁移性。它并不只是在说“我有一个更强的 ImageNet 256 baseline”，而是在提出一种新的 thinking template：如果生成任务的瓶颈在于 test-time refinement，那么有没有可能把 refinement 的一部分乃至大部分，迁移成 train-time distribution evolution？一旦这样想，video generation、audio generation、diffusion policy，甚至更远一点的 latent language generation，都会自然进入这套视野。

实验该怎么看：亮点在哪里，哪些地方还只是初步验证

这篇工作的主战场非常明确，就是 ImageNet 256×256 的条件图像生成。评估指标仍然是大家最熟悉的 FID，所以结果的可比性没有什么问题。在这个 benchmark 上，如果论文的数字完全站得住，那么它最强的叙事就是：在最苛刻的 1-NFE 设定下，它不是“勉强可用”，而是做到了真正具有竞争力的高质量生成。

论文同时报告了 pixel space 与 latent space 版本，这一点也很值得注意。首先，这说明 drifting 并不被某一种表示空间锁死；其次，两者的性能差异也在暗示一个更深的问题：这个范式本身可能是 general 的，但它对表示空间的几何性质非常敏感。 latent 版本更优，某种意义上并不令人意外，因为更“几何友好”的空间往往更适合做局部平滑的分布修正。反过来说，这也再次说明 feature design 不是边角料，而是方法主体的一部分。

作者还把同样的思想扩展到了机器人控制 / diffusion policy 场景，这一点是加分项，因为它至少表明 drifting 不是纯粹依赖图像纹理统计的小 trick，而更像一种 distribution evolution principle。不过如果实话实说，这部分更多还是 concept validation。真正让这篇 paper 在社区里站住、让人认真看待它的，仍然是 ImageNet 上极强的 1-step generation 结果。

这篇工作真正的贡献，我会怎么概括

如果不按论文里常见的 contribution list 写法，而是从研究价值上压缩，我会把它的贡献概括成四层。

第一层，也是最核心的一层，是它重新定义了 training 与 inference 之间的分工。它告诉你，生成模型里的“迭代”未必要在 test time 显式跑出来，这本身就是一个强概念贡献。

第二层，是它提出了 drifting field 作为 distribution correction signal。这和直接学习 denoiser、score、velocity 都不一样，也不是标准的 adversarial discriminator loss。它更像是在真实分布和当前生成分布之间定义了一种局部几何相互作用，然后用这个 interaction 来驱动 generator 的更新。

第三层，是 feature-space drifting 让这个想法真正从“有意思”变成“可用”。如果没有这一层，方法大概率只会停留在 toy setting；正是因为引入了 pretrained representation，drifting 才有机会在复杂视觉语义上成立。

第四层当然是硬结果：one-step SOTA 级别的质量，以及非常漂亮的效率优势。没有这一层，这仍可能是一篇令人欣赏的 idea paper；有了这一层，它就成了一篇真正会被认真对待的方法论文。

它最让我在意的局限性

说完优点，问题也得讲透。对我来说，这篇工作最明显的短板并不在结果，而在它还没有把理论与方法边界完全封死。

我最在意的，是 equilibrium condition 的严格性。论文的核心直觉是：当 drifting field 消失时，生成分布已经和真实分布对齐。这个说法在直觉上非常顺，但从理论上看还远远不够。究竟在什么条件下可以推出？这是逐点意义、分布意义、还是某种 kernelized IPM / RKHS 意义下的结论？如果 kernel 的表达能力不够，或者 feature space 本身已经丢失了某些信息，会不会出现“feature-level 平衡了，但 data-level 其实没完全对齐”的伪平衡？这些问题如果不能更 formal 地说明，方法的理论闭环就还不算真正完成。

第二个非常实际的问题，是它对 pretrained feature encoder 的依赖很重。论文里的成功并不是一个“完全自洽、从零开始、只靠 drifting 就能学到全部语义几何”的故事，而是在很大程度上建立在强 representation 已经存在的前提上。这当然不是原罪，现代很多方法都离不开 pretrained features，但它确实会模糊“范式本身的贡献”和“表征系统替你做了多少工作”之间的边界。更重要的是，一旦离开 ImageNet 这种已有成熟表征生态的领域，问题会立刻变得棘手：audio 用什么 encoder？video 的时间语义怎么编码？joint audio-video feature 怎么定义？这些都不是一搬就通的事。

第三个局限，是 kernel 与局部几何的设计仍然相当 heuristic。为什么这个 kernel 最合适？bandwidth 怎么选？对 batch size 是否敏感？feature norm 会不会显著影响 dynamics？正负样本的构成是否会改写训练行为？如果这些部分的 ablation 不够系统，那么方法虽然有效，但还是会留下一种“有很多经验性 knobs”的感觉。

第四个问题是训练动力学本身还不够透明。凡是这种 moving target + self-bootstrap 的方法，我都会天然多留一个心眼：它会不会早期 collapse？会不会 overshoot？在不同 initialization 下会不会落进不同 basin？drifting field 的估计噪声对稳定性影响有多大？这些问题不一定构成致命缺陷，但如果作者未来想把这条路真正发展成一条清晰的方法线，训练动态的分析会非常重要。

最后，还有一个更宏观的限制：现在的成功主要集中在 ImageNet 256 和一个辅助性的 policy 实验上。这个范围已经足够让人重视，但如果要从“强 benchmark paper”走向“公认的新范式 paper”，它还需要在更多数据域、更高分辨率、更多条件形式、甚至 text-conditioned generation 上继续证明自己。

放在相关工作里看，它站在哪个谱系上

我觉得看这篇论文，不能只按 related work 列表去记名字，更重要的是搞清楚它在 generative modeling 的谱系里到底站在哪里。

和 diffusion / score-based / flow generation 这一脉相比，它们解决的是同一个大问题：如何把简单分布映射到真实数据分布。不同的是，前者把 transformation rule 显式地部署在 inference 里，所以 test time 必须沿 trajectory 走；drifting 则把 distribution evolution 前移到 training，用训练过程本身去吸收这条 trajectory 的作用。从这个意义上说，它不是在 sampler 层面竞争，而是在“迭代该放在哪个阶段”这个更高层上改写游戏规则。

和 one-step / few-step distillation 方法相比，它最大的区别在于它不是一个 compressed multi-step model，而是试图做一个 native one-step model。Consistency Models、Progressive Distillation、DMD 这些方法大都绕不开 teacher。drifting 的野心更大：它想直接定义一种无需借助 teacher trajectory 的 one-step training principle。如果这个目标真的成立，它在 conceptual 上当然比很多蒸馏路线更有独立性。

和 GAN 比较时就更有意思了。GAN 也是 one-step，也同样从 latent/noise 直接映射到 sample，但它依赖的是 generator-discriminator 的 minimax game，而 drifting 依赖的是由真实分布与当前生成分布局部相互作用构成的修正场。换句话说，它不是 adversarial training 的变体，而更像一种 distribution correction / geometric interaction 机制。如果将来 drifting 真能稳定提供比 GAN 更好的质量-效率平衡，它完全有机会成为 one-step generation 的另一条主线。

再往深一点看，它和 kernel-based distribution alignment、particle transport、energy-based attraction-repulsion 这些想法也有隐约亲缘。reviewer 很可能会问：这和 MMD gradient flow 到底是什么关系？是否可以被更统一地解释成某种 feature-kernel metric 下的 transport direction？我觉得这恰恰说明它的理论拓展空间很大。现在这层关系还没有被完全讲透，但也正因此，这篇工作不太像一个走到头的 engineering trick，反而像一个刚刚打开的新接口。

Novelty 怎么看

如果分层判断 novelty，我会给它相当高的评价。

概念 novelty 很高，因为“把 inference 里的迭代前移到 training”这个 framing 本身就不是常规 incremental improvement，而是一个会改变你看问题方式的提法。

技术 novelty 我会给中高。drifting field 与 kernel interaction、feature geometry 显然不是从真空里长出来的，它和很多已有思想都有血缘；但把这些元素组织成一个有效的 one-step generative training framework，本身仍然是明显有原创性的。

实验 novelty 也很高，因为它不是停留在概念层面，而是真的在最硬的 benchmark 上做出了足够惊人的结果。综合起来，我会把它的 novelty 归到 high，而且是那种有机会带出后续工作线的 high，而不是局部小修小补式的“新意”。

如果站在 reviewer 视角，我会怎么写

如果必须用 reviewer 口吻压缩总结，我大概会这么写：这篇工作提出了一种新的 generative modeling 范式，不再在 inference 阶段显式执行多步 trajectory，而是在 training 阶段通过 drifting field 持续修正生成分布，最终训练出一个 one-step generator。核心思想清楚，问题 framing 很强，ImageNet 256×256 上的 1-NFE 结果非常有说服力，也展示了向 policy learning 的初步迁移能力。主要疑问集中在理论闭环、对 pretrained encoder 的依赖，以及若干关键设计是否已经被足够系统地 ablate。

具体说 strengths，我会强调三点：一是 idea 很强，不是普通的工程增量；二是结果真的硬，one-step + ImageNet 256 + 强 FID 这组标签本身就很有分量；三是它不是蒸馏模型的附庸，而是在尝试建立一种 native one-step training principle。

weaknesses 则主要有三类：第一，equilibrium 与 distribution matching 的关系还没有被严格刻画；第二，方法对外部 feature geometry 的依赖相当重，这既是优势也是限制；第三，kernel、bandwidth、样本构成、训练动态这些部分还需要更充分的解释和 ablation。

如果要给总体 recommendation，我会偏向 Strong Accept / Accept。它不一定是那种理论上完全无懈可击的 paper，但很像一篇会在后续研究里被反复提到的 work。至于 venue，如果论文主打 benchmark result 和视觉生成表现，CVPR / ICCV 会很合适；如果后续进一步补强理论、强调生成建模范式上的重新定义，NeurIPS / ICML 也完全说得过去。

对 diffusion language model 和音视频生成有什么启发

这部分其实是我觉得你会最关心的地方。

对 diffusion language model 来说，这篇工作最有价值的不是某个具体公式，而是它抛出的元问题：语言生成里的 iterative refinement，是否也有一部分可以从 inference 前移到 training？当然，语言是离散 token，问题会比图像难很多，不能生搬硬套。但如果讨论的是 latent language model、continuous relaxation、representation-space generation，或者某种 semantic editing trajectory，那 drifting 的视角并不是完全无处落脚。

更具体一点，DLM 里一个长期存在的 tension 就是：refinement 往往能换来更强的全局一致性和更好的 sample quality，但 inference latency 又会迅速变高。Drifting 给出的不是直接答案，而是一种非常值得借用的提问方式：你真正需要在 test time 显式执行的 refinement，到底有多少？哪些部分本质上是 distribution-level 的修正，其实可以在训练期被内化？如果以后有人把这件事做进连续 latent token space，我一点也不会意外。

对音视频生成也是类似。尤其是 feature-space drifting 这件事，几乎可以直接改写成另一句话：选对表征空间，很多原本难学的生成几何会突然变得可学。 这对 video latent、audio representation、cross-modal feature alignment 都非常 relevant。你现在做音视频模型，如果哪天碰到“想做低步数甚至 one-step，但质量总差一口气”的问题，这篇文章提供的未必是现成方案，但很可能是一个很好的 research trigger。

我会怎么建议你读、以及值不值得复现

我的建议是：值得精读，也值得尝试分层复现，但别一上来就冲 ImageNet 大实验。

最先要吃透的，其实不是实现细节，而是那套直觉：为什么 attraction real samples、repulsion generated samples，会推动整个分布对齐？为什么 equilibrium 值得相信？为什么 feature space 的选择会比 pixel space 关键得多？这些想清楚之后，再去看训练目标、stop-gradient、kernel 设计，就会顺很多。

如果要复现，我会强烈建议先做 toy version。比如 2D toy distribution、CIFAR-10、小型 latent generator，先看 drifting 是否稳定、kernel / feature design 是否敏感、会不会 collapse 或 overshoot。因为这类方法最怕的是只在大 benchmark 上看到最终数字，却没有真正理解它的训练动力学。一旦 toy 版跑通，再往更复杂的视觉任务，乃至你自己的方向——latent video generation、audio representation drifting、continuous latent language generation——去想迁移，才比较有把握。

如果只让我挑一个最值得借鉴的点，我会选这个：不要把“迭代”默认锁死在 inference。 把它看成一种可以在 training 与 inference 之间重新分配的资源，这个思路本身就很值钱。它不保证你下一个想法一定能成，但会显著改变你看 generative efficiency 问题的方式。

最后的判断

我对这篇论文的总体评价很明确：它是一篇高质量、强新意、强结果，而且对后续研究方向很有启发性的工作。它最打动人的地方，不是单纯做到了 one-step，而是提供了一个很强的主张：生成里的迭代未必非得出现在推理时，训练过程本身也可以承载分布演化。

这件事如果只是个漂亮想法，那它会是一篇“有意思”的论文；现在的问题在于，它还真把 ImageNet 256 的 1-NFE 结果做得非常强，于是它就不只是有意思，而是值得认真对待。

如果只回答一句“该不该花时间”，我的答案还是：该，而且不只是读结论，值得认真拆它的方法、framing 和它背后的研究口味。

Deep Learning Notes

Wed, 21 Jan 2026 16:00:00 GMT

Notes for Deep Learning

Introduction to Computational Theory Notes

Sat, 22 Nov 2025 16:00:00 GMT

Notes for Introduction to Computational Theory

QM & QFT Notes

Fri, 21 Nov 2025 16:00:00 GMT

Notes for Quantum Mechanics & Quantum Field Theory

Thinking about Physics and AI

Tengyue Zhang — Tue, 22 Jul 2025 16:00:00 GMT

自从我下定决心转行已经快过去了半年。半年间我学了很多东西，也吃了很多苦头。安逸于物理的稳定和有序已久，猛然惊醒方觉外界换了人间，恍如烂柯。而现在只不过是努力追赶时代脚步罢了。

半年间印象很深的，便是很多人问我，学物理的为什么要来搞 AI，是物理读不下去了还是只是单纯的跟风，或者则是兴趣满满问 AI 和物理怎么联系在一起。正好最近焦虑的发慌，便想写点东西来缓解一下。

Revised on 2025-11-23

2024 年的物理诺奖颁给了人工神经网络之父 Hinton，对物理专业的笔者而言，冲击无疑是巨大的。

笔者认为，自然科学和工程的发展无非是三个阶段的循环：Observation, Theory, Application. 物理学家，尤其是“传统”的物理学家，一般聚焦于观察和理论的阶段，致力于发现新的物理，无论是实验先验还是逻辑先验。

当然，我并没有排斥和贬低任何的工程科学，也没有反对物理学家使用工程师的思维来解决问题。诚然，现代物理学体系日渐完善，前沿发展极端细分。我所反对的，是物理学家困于工程师的思维尝试创造物理，但不能解释和分析之，也不能为社会带来实际的价值。当物理学的工作变成调参，当领域细分的规律从普适逐渐变成了特殊，当物理学家需要用技术来理解研究对象时，物理学正在成为一种新的劳动密集型产业。我不太清楚物理学的价值何在，我不太清楚物理研究的意义何在。

Paradigm of Physics Research

笔者自觉自己四大学的还可以，但是后面的内容，偏理论如广相场论，偏实验如光学凝聚态等等细分便不是很熟悉。毕竟在同行继续向更深处迈进的时候，笔者已经转行去干完全不相干的 AI 了。以前笔者自以为自己的理科背景，来 AI 这边应该可以很快的适应吧。然而，笔者现在才发现，从思维方式开始，物理就和 AI 之间存在着巨大的鸿沟。譬如，两者对于数学的态度。

如果说数学是一切自然科学的鼻祖，那么物理学则是一切实验科学和工程技术的鼻祖。物理学有着和数学差不多深的知识树，但是在严谨度和公理化程度方面欠缺（从量子力学中看到的诸多 axioms 可见一斑）；她的普适性和抽象性，却又胜过化学、生物等其他描述性科学。这个特殊的地位，使得物理学在哲学意义上起到了一种桥梁的作用。顺水推舟，物理学的研究整体上可以被划分为理论和实验两个极端。

然而理论和实验，哪个才是物理的主流？回望人类历史，物理学靠着理论和实验两条腿走路，哪一条长一点短一点都硌脚。但是，物理学发展到现代，纯数学和纯实验都已经细分为完善的学科。虽然细分的领域仍然很“物理”，但是物理学的“主流”已经不再是这些方向。当代社会中不可或缺的计算机，其底层的晶体管/CMOS原理，难道和物理学没有关系吗？然而在当代大学中，至少在中国的大学找个物理系的本科生，除非 ta 是搞微电子方向的，那么大概率不知道这些数电的基本知识。物理学研究的是未知数，那些成熟的理论都已经转化为工科的一部分了。Maxwell 说过，Physics is the scientific study of matter, its fundamental constituents, its motion and behavior through space and time, and the related entities of energy and force.

所以，无论理论还是实验，都要像爱因斯坦所说一样，要分别出什么是“真正重要的研究”。以他的广义相对论为例，他在思考狭义相对论的时候，就已经意识到了引力的问题，但是他却没有解决问题的数学基础。当他告诉了他的朋友格罗斯曼时，格罗斯曼说：“你的想法是对的，但是你的数学是错的。”然后告诉他黎曼几何。这句话对物理学是一个很好的示例。现代物理学的研究方向有时过于细分，物理学的优点正是在于她的广度，使她可以有效的从数学和实验的两极借鉴知识。你能说黎曼几何不重要吗？当然不能。但是如果没有广义相对论，黎曼几何也许不会有现在这么大的影响力。所以，爱因斯坦对于引力时空的思想是“真正重要的”。毕竟，物理学的本质是研究自然规律，而不是单纯的数学或者实验技术。

谈谈物理学的美。杨先生说物理学表面有表面的美，深层有深层的美，它们的内涵往往随着物理学的发展而产生新的意义。我斗胆猜想，他的意思应该是赞美物理学的普适性。这种普适性能够跨越实验现象，唯象理论，理论架构，甚至数学的界限，使得物理学的美是一种全方位的美。这种美，正是物理学的魅力所在。

上述啰唆了这么多，无非是想说，物理学中对数学的依赖并不是那么的纯粹，因此从某种意义上来说，物理学和 AI 一样，都是“半公理化的”对数学的应用。而大多数情况下，物理和 AI 的研究方向是风马牛不相及的。话说到这个层面，那么结论也显而易见了。那些社会上对物理系学生容易转专业的刻板印象，不过是改开的教育红利罢。

AI for Physics?

AI 的风已经席卷到各行各业，物理学也不例外。大一的时候，笔者曾对最近五年的 Physics Review 系列论文的标题和摘要进行了引用统计，位于关键词云图中央的赫然是 Machine Learning。那时笔者不敢相信统计的数据，以为是把交叉学科的论文也统计进去了，遂手动删去了 Machine Learning 这个 stop word。直到 24 年诺奖结果公布，笔者才意识到，自己当时说不定已经看到了未来，至少是几年以内的未来。

从物理出来后，笔者也接触过一些 AI for Science 的项目，但是整体上都比较 trivial。绝大多数的项目都是想用 AI 来取代/加速原本的研究范式中一些比较 time-consuming 的步骤。或者是，单纯的为了 AI 而 AI，不知道 AI 的价值何在。

笔者以为，一个好的 AI for Science 课题要同时满足以下三个条件:

问题已经被良定义. 不同于 CV, NLP 等拥有诸多 benchmark 和具体任务的方向，AI4Sci 存在这一个重大的问题，即每个 domain 都是具体情况具体分析，甚至在某些领域根本就没有明确的任务。如果一个方向，连 baseline 都没有被定义，一个基本的 benchmark 都没有，那么说难听点，往会议灌水的时候连完整的故事都讲不清楚。
数据充足. 当前 AI 的主导范式是表征学习，只要数据足够，模型就能自动学习到有用的信息和结构。
物理机制不明确. 如果物理机制明确，那么 AI 的存在意义何在？AI 在科学中的价值不是“重现已知物理”，而是在中尺度问题上建立有效理论，在现有理论不确定或不可微（non-differentiable）时构建近似模型。因此，AI 最擅长“机制未定但数据可观”的领域，例如蛋白折叠、中尺度气象、复杂材料等。

非常可惜的是，物理学天生就不与 AI 适配。

第一，很多物理问题本身就不是良定义的。在物理学中，数据仅用于检验理论，而不是用于学习理论。一旦某个现象的理论解释不明确，物理学家的标准操作是构建新的理论，而不是让理论去 fit 这个模型。这意味着，物理的研究范式并不是让你去实现什么，而是去解释什么。

第二，物理学的实验数据往往非常稀缺。虽然说有很多方向的观测数据非常巨大，比如粒子和天体物理，但是这些数据往往是高度结构化、且信息含量极低，用传统的机器学习方法就可以很好的提取和分析。实验科学的数据稀缺性和昂贵性，使得深度模型天然处于欠定系统中。AI 能否取代传统统计方法、最大似然法、贝叶斯推断、凸优化等方法，仍然是一个值得商榷的问题。

第三，得于半公理化的体系结构，物理学既没法像数学那样提供从 lean 出发的公理化证明路线，又不能直接放手给 AI 去“学”物理。将物理嵌入到 AI 之中，让 AI 通过学习物理来获得物理的洞察，感觉目前并没有什么好的方法。是最致命的是，物理学的理论机制，或者说对实验现象的解释权，一直都是掌握来理论学家手中的。AI 并不具备，也不能具备在语境下提供新物理的能力。

AI for Physics 真正能做的，往往是在一些工程物理中，做一些理论已经明确，只不过数据量巨大的问题。比如材料科学，蛋白折叠，中尺度气象等。然而，如果都已经往工程上靠拢，那么去做 multimodal 和 NLP，岂不是更加的具有学术和社会价值？

Physics of AI

回到 subtitle, 其实说来神奇，当下流行的 NN 一开始是在研究多体问题中发现的。

在经典的 Ising 自旋体系中，当自旋耦合的结构足够复杂时，系统的能量景观往往会形成许多彼此分离的低能谷。这些低能构型对应着不同的稳定自旋排列，每一个稳定排列都可以被视为一种“模式”。系统在动力学演化中，无论从何处出发，都会被吸入这些低能谷之一，从而表现出类似记忆的特性。在统计物理中，这类现象被称作多稳定态，常见于自旋玻璃等复杂系统。

横场 Ising 模型是在这种经典结构上加入量子涨落：横向磁场使每个自旋都有概率发生翻转，从而能够在不同构型之间产生隧穿效应。尽管如此，只要横场的强度不至于压倒自旋耦合所决定的能量结构，这些原本的低能谷依然会保留下来。换句话说，量子涨落会在局部对稳定构型产生轻微扰动，但无法抹平整个能量景观。系统仍然拥有一系列相对稳定的量子态，它们与经典的自旋排列高度相似，并在动力学上继续充当吸引子。

在 Hopfield network 里，人们首次系统地把“模式存储”现象引入人工神经网络的语境：每个神经元只取两种离散状态，网络中所有连接是对称的，并通过一个类似能量的标量来刻画整体状态的“好坏”。当网络从一个带噪声的初始状态出发，按照局部规则异步更新时，这个能量会单调下降，最终把系统拉进某个稳定构型。每一个稳定构型对应一幅“记忆图像”或“模式”，不同的模式则对应能量景观里的不同谷底。这样，Hopfield network 就把“联想记忆”具体实现为：从不完整或受扰动的输入出发，通过动力学演化回到最近的稳定模式。

Hinton 提出了 Boltzmann machine、受限玻尔兹曼机等一系列模型，把“能量函数”当作统一的建模语言：你只要设计好能量函数，概率分布、采样过程以及学习目标就都随之确定。他进一步发展了近似学习算法，用有限步的随机演化来逼近真实的热平衡采样，从而在实际规模上训练这些能量模型，让其真正成为现代机器学习中的一个重要分支。

Future

GPT 只是三年前的产物，大名鼎鼎的 ds-r1 在年初问世，现在就被嘴刁的用户嫌弃。大多数人学习的速度赶不上 AI 技术迭代的速度，又有多少人已经成为 LLM 的 distilled-model？和计算机、网络等技术不同，表征和连续学习的能力真的可以取代人类存在本身，劳动的异化正在以一种前所未有的方式成为现实。

和手机，网络等技术一样，AI 正在逐渐成为我们身体和能力的延伸。当笔者执笔写下这段文字时，已经深深感到自己文笔的生疏，词汇的贫乏，以及思维的迟钝。被日新月异技术裹携着，笔者对未来毫无头绪。唯望笔者能在 AI 洪流之下，仍然做一颗会思考的苇草。