好——下面我把“神经网络架构搜索(NAS) 的评估(evaluation)”这个子领域 最新研究方向 和 为什么近几年看不到太多顶会/顶刊里爆款论文 两个问题做一个清晰、证据支持的归纳与分析(含可引用的关键文献/资源)。我会先给结论要点,再把理由与证据展开说明,并给出对研究者/审稿人/工程师的实用建议。
结论要点(先看三句话总结)
- 近年NAS评估的研究重心从“找更高的最终性能”转向了更可靠、更高效、对资源/硬件/任务更公平的评估方法(例如零训练/零成本代理、one-shot评估校准、综合基准集与可复现基线)。(arXiv)
- 评估相关工作的数量/显著性看起来下降,原因主要是:领域逐步成熟 + 社区对可复现/稳健性质疑增多 + 研究注意力被大模型/预训练/生成式模型等新热点吸走,以及顶会对“真正新颖度与严格评估”的门槛提高。(arXiv)
- 因此现在的高价值工作更偏向“解决评估本身的问题”(基准、协议、节能/硬件/多目标评估、训练/推理成本测量),而不是仅仅用更多算力追求小幅提升的SOTA。(automl.org)
目前NAS评估(Evaluation)的主要研究方向(带解释与代表性参考)
- 训练/评估成本极低的方法(Zero-cost / zero-shot proxies、training-free NAS)
- 思路:在不或几乎不训练的情况下预测架构好坏,用梯度谱、网络初始化信息、权重敏感性等指标快速打分。目标是把评估成本从“训练数千个模型”降到“几毫秒/个模型”。
- 代表与综述:有系统综述与近年多篇工作专注此方向(training-free / zero-cost)。这类工作在节能与快速迭代上价值很大,但也面临泛化与偏差问题。(ScienceDirect)
- one-shot / supernet 方法的评估与校准(以及它们的缺陷修补)
- 问题:one-shot(训练一个超网后抽子网评估)节省算力,但超网训练的不公平性、参数共享带来的偏差,会导致搜索结果不稳定或过拟合于评估协议。近年来有大量工作在量化、诊断和提出更严谨的评估协议与工具链。(OUP Academic)
- 更大、更全面、可复现的基准与评测套件(NAS-Bench 系列、NAS-Bench-Suite 等)
- 作用:提供已穷举或代理评估的搜索空间与性能表格,方便公平比较与复现实验,避免“算力炒作”。近年扩展到更多数据集(CV、NLP)、硬件指标、多任务设置。(automl.org)
- 跨数据集/迁移性与“未见数据集”评估(generalization / transferability)
- 关注点:在训练集或某类任务上表现好的架构,是否能迁移到新任务/更大规模数据?近期有工作专门建立 unseen-dataset 挑战与数据集集合来测这点。(CVF Open Access)
- 多目标与硬件感知的评估(延迟、能耗、内存、吞吐量)
- 趋势:评估不再只看准确率,而是“准确率 vs 延迟/能耗/参数量”的Pareto前沿,越来越强调真实设备上的测量(手机、嵌入式、ASIC/FPGA)。这类评估往往需要标准化测量协议。(automl.org)
- 鲁棒性/安全性/可靠性评估(对抗、可靠性、多样化噪声)
- 趋势:把架构搜索目标扩展到对抗鲁棒性或分布失配下的稳定性,评估方法需要考虑这些额外指标(并且代价大)。(OpenReview)
- 可解释性/性能预测器与学习-to-rank 的评估方法
- 利用性能预测器(surrogate models)或学习到排序的方法来替代真实训练评估,同时研究这些代理的置信度与偏差。相关的 NAS-Bench-Suite 与 surrogate benchmark 也在发展。(arXiv)
为什么近几年“少有”顶会/顶刊中大量新NAS评估方向论文?(原因分析)
- 领域从“爆发式进展”进入“验证与稳固”阶段(成熟化)
- 可复现性危机与基准暴露出很多方法的局限
- 一些早期声称的SOTA改进在严格基准/复现检查下并不稳健(不同搜索空间/数据集下不一致)。社区因此更关注“评估协议与基准建设”,而顶会对小改进的容忍降低,导致看起来“创新论文少”。(见 NAS-Bench-Suite 等指出结论不泛化的工作)。(arXiv)
- 研究注意力向大预训练模型 / 基础模型 /生成式AI 转移
- 过去两三年里,学界与工业界大量资源转向 LLM、视觉基础模型、多模态模型与预训练范式。那部分工作带来高影响力的论文,会议版面被“热点”占用,NAS 的“增量性改进”不再那么引人注目。这个结构性转移会减少顶会中关于NAS的出现频率。(一般趋势,见领域综述与会议主题变化)(OUP Academic)
- 评估研究往往成本高、可发表路径更偏向专门期刊/benchmarks 而非短篇会议
- 做好一个严格的评估/基准需要大量实验、不同硬件/任务的测量、可重复的代码与数据集维护。这样的工作往往更适合期刊/数据集/benchmark track(或 workshop)而非短篇会议论文。加上近年顶会对“新颖性/理论性”的要求更高,造成发表渠道和形式转变。(PNAS)