Loading · 页面切换
正在整理新的社区内容
稍等一下,正在准备页面数据、图片和交互状态。
Loading · 页面切换
稍等一下,正在准备页面数据、图片和交互状态。
AI News · 资讯流
聚合值得关注的 AI 动态、产品发布、行业变化和社区相关机会。
论文"Harness Updating Is Not Harness Benefit"挑战了常见直觉--把最强模型放在进化者位置以写出更好更新。实验表明,廉价模型Qwen3.5-9B即可写出与Claude Opus 4.6效果相近的提示、记忆和技能更新。昂贵模型更适合作为求解任务的智能体,因弱模型无法正确加载或遵循更新,强模型已近能力上限,收益有限。甜区在中档模型:既能调用新程序,又有足够学习空间。
一项系统研究探讨 Transformer 注意力机制中是否必须使用三个独立的投影(Query、Key、Value)。通过分析多种 QKV 变体结构,论文对「三投影」这一设计选择进行了系统性评估。
Harness-1 将大语言模型的记忆工作转移到外部辅助系统(harness),解决传统搜索智能体需在同一上下文窗口内处理语义决策与状态记录导致的效率低下问题。模型仅负责搜索、验证等关键语义选择,而可恢复状态(候选池、证据链接、去重记录、预算感知记忆等)由 harness 追踪。这一分离使一个 20B 参数模型实现了更好的搜索表现。在强化学习中,外部化状态避免了失败原因混淆,有助于策略学习。Harness-1 在未见 benchmark 上提升更大,表明模型学到了可复用的搜索策略而非记忆领域习惯。论文 arXiv:2606.02373。
Anthropic 发布报告显示,Claude 正被深度用于开发下一代 AI,趋势加速或导致系统自主设计后继版本。外部指标:模型可靠完成任务时长约每 4 个月翻倍,SWE-bench 两年内饱和,CORE-Bench 15 个月内饱和,长时任务达 16 小时。内部数据:截至 2026 年 5 月超 80% 主干代码由 Claude 撰写;工程师日均合并代码量是 2024 年的 8 倍;员工中位数估计产出为无 AI 时的 4 倍;实验执行从约 3x 提升至约 52x;自主研究恢复能力达人类两组研究者一周工作量的 97%(人类约 23%);研究判断优于人类比例从 51% 升至 64%。报告探讨了趋势停滞、持续自动化、完整递归自我改进三种未来情景。
Google 新论文 LEAP 提出智能体框架,通过规划证明、分解子目标、复用已有引理并利用 Lean 验证器反馈,将通用 LLM 在形式化数学证明上的性能从不到 10% 提升至 70%。传统单次完整证明在长难题上表现极差,而 LEAP 将证明存储为有向图结构,先规划再逐步验证。在 Putnam 2025 竞赛中,LEAP 成功解出全部 12 道题;在包含 60 道 IMO 风格题目的 Lean 基准测试中,也实现了上述性能跃升。
Google Research 开发了一种被动心率监测系统(PHRM),利用智能手机前置摄像头在日常使用中(人脸解锁后数秒内)捕捉面部视频,通过深度学习估算心率,平均绝对百分比误差(MAPE)低于10%(对比心电图金标准),满足各肤色人群的行业精度标准。系统将全天心率测量整合为每日静息心率(RHR),平均绝对误差(MAE)低于5 bpm(对比可穿戴设备)。研究同时发布了迄今最大规模的公开智能手机视频数据集及预训练模型PHRM-mini,合格研究人员可申请访问。
Anthropic内部数据显示,Claude正在加速AI开发--这可能走向递归自我改进,即AI自主构建更强大的后继者。进展比预期更快,影响值得更多关注。主推文仅感叹:"foom!"
HOLY SHIT LET'S FUCKING GOO 我们内部数据显示,Claude 正在加速 AI 发展--这可能通往递归自我改进,即 AI 自主构建更强大的后继者。 这发生得比我们想象的更快,其影响值得更多关注。
Anthropic 发布内部研究,称 Claude 正加速 AI 开发,可能通往递归自我改进--即 AI 自主构建更强大的继任者。研究显示,Claude Mythos Preview 可连续工作至少 16 小时,达到 METR 可测量上限。同时,Anthropic 工程师当前每季度交付的代码量是 2021-2025 年期间的 8 倍。
我们又有另一份来自英伟达的65页前沿模型报告要读,作者@eliebakouch @stochasticchasm及其团队。
EVA-Bench Data 2.0 将评估范围从单一企业领域扩展至航空公司客户服务管理(CSM)、企业 IT 服务管理(ITSM)和医疗 HR 服务交付(HRSD)三个领域,共涵盖 121 个工具、213 个场景,场景数较原始版本增长约 4 倍。每个场景均经 OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6 验证可解性。数据集遵循语音优先、真实性、多样性、认证流程和可复现性五项设计原则,包含单意图、多意图(最多 4 个意图)和对抗性呼叫类型。所有三个数据集已开源,可通过 `load_dataset` 从 Hugging Face 直接下载。后续将推出多语言扩展。
在 Nemotron-3 Nano 模型的 100B token 续训练实验中,任务种子合成数据生成(Task-Seeded SDG)使 MMLU-Pro 提升 1.8 分,平均代码提升 1.9 分,常识理解提升 1.6 分,GPQA 提升 11.1 分,数学成绩保持稳定。该流程利用 lm-eval-harness 中约 70 个公开任务(约 700 子任务)的训练集作为种子,生成新示例并补充推理和上下文,经过格式校验、去重和答案验证后得到精选合成数据集,用于 Nemotron Ultra 和 Super 训练。
伊利诺伊大学和清华大学等实验室研究发现,LLM智能体重复重写自身记忆会导致记忆变得更不可靠。原始经历(实际过往尝试和解决方案)往往比提炼后的总结更有用。测试中,GPT-5.4在小型ARC-AGI数据集上无记忆时正确率100%,但建立记忆并持续更新后降至约54%。失败原因包括分组不当、教训过度泛化及过拟合。研究建议智能体不应自动将每个经历重写为摘要,保留原始证据并仅偶尔总结效果更好。
Google DeepMind论文首次系统分类六类攻击:HTML注释/白色文本隐藏指令、图像隐写、PDF元数据/演讲者笔记覆写、跨会话内存投毒、目标劫持及多智能体级联攻击。隐藏提示注入在86%场景中部分控制智能体,子智能体劫持成功率58-90%,数据泄露攻击在五种架构中均超80%。内存投毒成功率超80%,仅需不足0.1%数据污染。论文指出网页、邮件等非受信材料可被武器化,构成主要攻击面。
一项由斯坦福大学领导的盲测研究,对近3000场匿名对决的分析发现,16所法学院的法律教授在合同法问题中,有75%的时间更偏好AI生成的答案,而非教授自己写的答案,并且认为AI回答的教学危害性远低于后者(3.5% vs 12%)。 "研究团队测试了多种系统,包括商业辅导工具和Google的NotebookLM。" 现在想象6-12个月后模型的表现。
辐射场的质量取决于其背后的图像。 PPISP 可帮助补偿不同拍摄之间的光度变化,使 3D 重建在光照和相机设置不完全一致时更加鲁棒。 🔗 项目:https://nvda.ws/43JeJpk
Dream.exe 是一个评估视频生成模型物理世界理解能力的框架,通过视频到执行的流水线,将生成的机器人操作视频转化为真实可执行轨迹,并在物理模拟器中验证成功率。研究评估了8个模型,包括GPT-4o、Sora、CogVideoX-5B、Meta-LLaMA 3D、GR-1等,覆盖101个手动设计的操作任务,分为三个物理复杂度等级,评测视觉质量、轨迹保真度和执行成功率。结果显示,多个模型达到了可测量的执行成功率,但视觉质量不能预测可执行性。Dream.exe即将开源。
一对多时间定位(OMTG)旨在定位文本查询对应的多个不连续视频片段。现有SOTA多模态大模型(MLLMs)在此任务上几乎得零分,缺乏事件基数感知。为此,研究者建立了首个综合OMTG基准,引入计数准确率(C-Acc)和有效时间F1(EtF1)作为评测指标;构建包含56k样本的高质量OMTG数据集;开发了针对OMTG的时间奖励和描述奖励函数,其中描述奖励利用密集视频描述的链式推理指导策略优化。该方法在OMTG Bench上达到43.65%的EtF1,分别超过Gemini 2.5 Pro和Seed-1.8达15.85%和15.61%。
提出PropMe框架,通过对比前缀攻击与非对抗性评估,衡量大语言模型在普通使用中泄露训练数据的倾向性。配套SimpleTrace管道,基于infini-gram对生成内容进行确定性溯源,计算逐字、近似逐字及倾向性转换后的记忆指标。在Comma和DFM Decoder两个全开放模型、Common Pile和Dynaword两个数据集上的评估显示:前缀攻击可大幅提升记忆提取,但非对抗性提示下倾向性分数始终较低,说明模型能泄露数据但通常不会自发这么做。DFM Decoder(从Comma持续预训练而来)在Common Pile上的记忆能力和倾向性均下降,表明后续训练侧重不同数据可降低记忆。建议记忆审计同时报告最坏情况可提取性和日常泄露倾向性。
AdaPlanBench是一个动态交互基准,用于测试大语言模型智能体在渐进揭示的世界约束和用户约束下自适应规划与重新规划的能力。该基准基于307个家务任务,通过多轮交互协议仅在计划违反约束时暴露隐藏约束,迫使智能体从反馈中推断并迭代修改计划。对10个领先大语言模型的实验显示,最佳模型准确率仅达67.75%,性能随约束累积下降,用户约束挑战尤为显著,失败常源于物理理解不足和重新规划效率降低。该基准凸显了双重约束下自适应规划的难度。
标准连续时间生成模型需处理从各向同性噪声到复杂数据分布的不同信号状态,统一架构效率低下。本文提出复杂度平衡分裂(CBS)框架,基于函数逼近理论和de Boor均衡分布原理,将扩散时间线划分为等近似负担的片段,为生成动力学难建模区域分配更多表示容量。通过两种互补监测函数--基于流Dirichlet能量的空间测度和基于采样轨迹加速度的几何测度--估算局部复杂度,无需启发式分割或搜索。在SiT、JiT、UNet等架构及数据集上,CBS不增加每步推理成本,持续提升合成质量:在SiT-XL上使用CFG时,相比朴素时间划分,FID改善约35%。
代码切换ASR(CS-ASR)因多语言代码切换语音资源稀缺而极具挑战。现有方法依赖合成数据生成或特定语言对微调,但扩展性受限于语言对数量随支持语言数组合增长。本文通过模型合并与领域泛化方法,探究从有限已见语言对学到的CS能力能否泛化至未见语言对。实验表明,合并的双语CS-ASR模型仅能适度泛化到未见语言对,提示双语CS能力在跨语言对间的迁移有限。
大语言模型(LLM)翻译极低资源语言时,现有方法(继续训练或编码语法书)易过拟合特定语言,零样本迁移有限。本文提出一种强化学习(RL)方法,以字符级翻译指标chrF作为奖励,训练模型从丰富语言上下文中提取并应用语言知识,实现对完全未见语言的翻译。实验表明,即使使用轻量级奖励,RL训练模型在未见语言上的表现优于上下文学习和监督微调。研究显示,结果导向的RL可超越数学、编程等传统推理任务,成为从上下文中学习语言的通用方案。
现有基准仅评测角色扮演语言智能体(RPLA)对给定章节的事实回忆,未检验其回应是否贴合角色心理发展轨迹,尤其当场景超出原著文本时。ArcANE 是自动构建的基准,覆盖17部小说和80个主角,利用角色弧线将叙事沿心理轴分段,并为每个阶段提出相同场景(含原著内与外)。在6个模型和6种上下文模式下,使用角色弧线作为条件均优于其他策略,在原著外场景(检索无法获取信息)上差距最大。进一步微调开源权重模型得 ArcANE-8B/32B,在原著外场景上扩大了弧线优势。
传统在线策略蒸馏(OPD)仅在输出空间匹配下一个token概率,受限于大词汇表(如Qwen约150k token)的采样方差,且忽略教师中间隐藏状态。OPRD将蒸馏提升至隐藏状态空间,在同一rollout上对齐学生与教师选定层的表示,绕过LM头。理论上消除采样方差,提供逐层结构信息。在AIME 2024/2025和AIMO上,OPRD缩小师生差距,而OPD基线低于教师。训练速度提升1.44倍,内存减少54%。代码已开源。
DataCOPE 是一个无监督验证器引导的技能发现框架,用于提升数据智能体性能,无需更新模型参数。它从探索轨迹中提取验证器信号,迭代协调数据智能体、无监督验证器和技能管理器进行对比性技能蒸馏。报告式分析中实例化为自适应检查表验证器,推理式分析中实例化为答案一致性验证器。在 Deep Data Research 和 DABStep 上的评估显示,DataCOPE 在四种模型设置下平均将报告式任务分数提升 9.71%,推理式任务提升 32.30%。
MLEvolve 是一个基于大语言模型的多智能体框架,用于端到端机器学习算法自动发现。它通过渐进式 MCGS 树搜索实现跨分支信息流动,并引入熵驱动的演进式调度,使搜索从广泛探索转向集中利用。框架配备 Retrospective Memory,结合冷启动知识库与动态全局记忆,实现任务经验检索复用。战略规划与代码生成解耦,保证长时间迭代稳定。在 MLE-Bench 评测中,MLEvolve 在 12 小时预算(半标准时长)内取得平均奖牌率和有效提交率等多项 SOTA,并在数学算法优化任务上超越 AlphaEvolve,展现跨域泛化能力。代码已开源。
Future-L1 是一种交错潜在视觉推理框架,让 MLLM 在自回归解码中交替生成语言 token 与连续潜在视觉 span。为此构建了 Future-L1-50K 数据集,并用潜在感知 RL 目标 LA-DAPO 优化采样轨迹。在 FutureBench 上,Future-L1 将 Qwen3-VL-8B 得分从 61.0 提升至 85.4,超过此前最优 Video-CoE 10.4 分;在 TwiFF-Bench 上平均分从 2.44 升至 3.04。结果表明,将中间视觉语义保留在潜在空间而非转化为文本,有益于未来视频推理。
NF-CoT 在大语言模型骨干内实例化 TARFlow 风格的归一化流,为从显式 CoT 蒸馏的紧凑连续思想定义可处理概率模型。连续思想位置由 NF head 生成,文本位置由同一因果流中的标准 LM head 生成。该设计保留因果自回归生成、概率采样、KV 缓存兼容性和精确似然估计,并支持潜在推理空间的直接策略梯度优化。在代码生成基准上,NF-CoT 相比显式 CoT 和先前潜在推理方法提高了通过率,同时显著降低了中间推理成本。
自动驾驶需推理自车动作如何影响世界演化,现有端到端方法依赖直接状态-动作映射,缺乏对动作条件动力学的显式建模;连续潜空间世界模型缺乏组合因果推理。Discrete-WAM提出统一潜视觉-动作世界策略,将未来视觉状态与自车动作表示为对齐的离散token,在离散扩散框架内联合实现世界建模、世界-动作策略和层级决策策略,支持跨替代未来的组合因果推理与可控生成。在大规模自动驾驶基准上取得有竞争力的性能。
WLA模型以文本指令、图像和机器人状态为输入,联合预测文本子任务、子目标图像和动作。其核心为自回归Transformer(非双向扩散Transformer),通过World Expert监督物理动态,并利用元查询使世界预测隐式影响动作生成(推理时可禁用,也可激活以支持测试时缩放)。原型WLA-0拥有2B活跃参数,在RTX 5090上单次推理40ms。在模拟与真实环境评估中,WLA-0在RoboTwin2.0 Clean上达92.94%成功率,在RMBench上达56.5%,并可直接从跨具身机器人视频学习新任务(无需动作标注)。
LoomVideo是一个5B参数的高效统一架构,支持视频生成与编辑。它用多模态大语言模型(MLLM)替换标准文本编码器,通过Deepstack注入机制对齐MLLM特征与扩散Transformer。核心创新为零开销的Scale-and-Add条件方法,直接缩放和加性处理源视频潜变量,避免token拼接导致的序列长度翻倍与自注意力计算复杂度增加。集成Negative Temporal RoPE策略处理多张参考图像。该模型在综合基准上达到或接近SOTA,尤其在电商和时尚生成场景表现突出,推理速度相比同类模型提升至少5.41倍。
安全社区的技术在应对AI驱动的网络攻击方面表现如何? 我们检查了832个恶意账户,并将其活动映射到一个长期存在的威胁行为者战术和技术数据库。 以下是我们学到的:https://www.anthropic.com/news/AI-enabled-cyber-threats-mitre-attack
一份在中西部装瓶厂进行的三个月试点显示,当AI超越聊天进入决策领域时会发生什么--约束条件变化、风险真实、答案必须可靠。 https://msft.it/6015vjYUN
多伦多大学研究人员展示了一种人工智能蠕虫,能够主动传播并攻击任何联网设备,无需人工干预即可在系统间移动。这项研究揭示了AI驱动自主攻击的潜在威胁。
嘿,这是我们发表的论文! 【引用 @PNAS News】:过去一周PNAS最高浏览量文章之一--《劝说大语言模型遵守有异议的请求》。查看论文:https://ow.ly/wOxl50Z6fZA 更多热门文章请访问 https://ow.ly/uLkC50Z6fZz。
NVIDIA Research在CVPR 2026展示三篇Physical AI论文:GraspGen-X是首个零样本抓取基础模型,基于数十亿模拟抓取训练;LCDrive用紧凑潜在表示取代昂贵文本推理;NitroGen是通用游戏AI基础模型,基于NVIDIA Isaac GR00T训练具身智能体。
Google 新研究 LEAP 将通用大语言模型封装在智能体框架中,每个步骤基于 Lean 编译器,并依赖验证器反馈进行迭代。同一通用模型解决了全部 12 道 Putnam 2025 问题,并将 Lean-IMO-Bench 一次性解决率从不到 10% 提升至 70%,击败了得分 48% 的专业金牌系统。论文链接:https://arxiv.org/abs/2606.03303。
NVIDIA Research 在 CVPR 2026 上发表三篇论文,展示规模化训练带来的泛化能力。GraspGen-X 是首个零样本抓取基础模型,基于 20 亿次模拟抓取训练,可为任意末端执行器生成抓取姿态。LCDrive 用紧凑潜在表示替代文本推理,让自动驾驶在嵌入式硬件上更快推理。NitroGen 基于 Isaac GR00T 架构,在大量虚拟环境中训练具身智能体。此外还发布了新的物理 AI 智能体技能,以及配合 GraspGen-X 使用的 CUDA 加速运动规划库 curoboV2 和闭环抓取论文 Grasp-MPC。
Anthropic分析了2025年3月至2026年3月间因恶意网络活动被封禁的832个账号,映射至MITRE ATT&CK框架。67.3%的账号使用AI编写恶意软件,6.5%用于横向移动。攻击者中高风险比例从上半年的33%升至下半年的56%。AI使用从初始访问转向后期活动,账户发现增长8.9%,AI辅助钓鱼下降8.6%。攻击者技能与使用技术数量无显著关联(最低技能者平均16种,最高约20种),所用平台也与风险等级不相关。更高风险攻击者将AI集中于操作密集型技术,并构建允许模型自动链式执行攻击步骤的脚手架。MITRE ATT&CK框架未收录AI自主编排攻击链等行为。
Anthropic 分析 2025 年 3 月至 2026 年 3 月间 832 个被封禁的恶意账户,映射至 MITRE ATT&CK 框架。67.3% 使用 AI 编写恶意软件,6.5% 用于横向移动。六个月间中高风险攻击者占比从 33% 升至 56%。AI 用于账户发现增长 8.9%,AI 辅助钓鱼下降 8.6%。传统基于技术数量或平台(Claude Code、API、聊天界面)的威胁评估失效,而 MITRE ATT&CK 框架尚未收录此类智能体编排行为。
斯坦福团队研究发现,使用未过滤Common Crawl数据训练模型时,在计算量充足下效果可能优于清洗后数据,结论呈现模型规模依赖性:小模型(15M)上过滤数据全面领先,但大模型(330M、1B)未过滤数据在充分训练后反而超越过滤版本,原因是大模型参数容量足够大,可在训练中自行隔离噪声与有效信息。
研究团队推出VSTAT基准测试,用于评估多模态大语言模型(MLLMs)在视频中追踪动态状态的能力。测试任务看似简单,包括计数杯子、识别键入的文字、统计翻页次数等,人类可以轻松完成,但当前MLLMs表现欠佳。该测试旨在推动视觉状态跟踪这一前沿方向的发展,解决模型从不完整、有噪声的视觉观察中建立和更新内部世界状态的核心挑战。
Google DeepMind发布了基于Gemini的多Agent系统Co-Scientist,旨在实现科研流程自动化。该系统能够生成、辩论和验证假设,帮助科学家从高强度脑力劳动中解放出来。过去一年,它已在肝纤维化新靶点、ALS新疗法等复杂问题上与科学家合作探索出新方向。其定位并非取代科学家,而是作为"专职研究伙伴"。目前,其假设生成功能已通过Gemini for Science向个人研究者开放。
斯坦福大学法学院的一项研究表明,人工智能的表现优于法学教授。该发现引发了广泛关注,在Hacker News平台获得了104个Points。
TIDE是一种模板引导的迭代框架,用于从用户上下文中主动发现多个隐藏问题。传统智能体仅响应显式请求,而大量共存的潜藏问题存在于文档、工具和代码中。TIDE通过迭代发现机制每轮批量筛选候选问题,并基于已发现结果调节后续搜索以扩大覆盖;同时通过思维模板从历史案例中提炼复用模式,指示模型关注哪些上下文信号及如何关联,将每个预测锚定到可识别的问题类别。在个人工作空间和软件仓库两个真实场景中,基于四个模型骨干的验证显示,TIDE在任务覆盖、问题识别与解决方面均显著优于单次预测和并行多智能体基线。
SePO提出自指设计,单个提示智能体同时优化任务智能体及自身的系统提示,通过开放式演化搜索维护候选提示档案。训练分两阶段:预训练(多任务池演化)与微调(目标任务)。在数学(AIME'25)、抽象推理(ARC-AGI-1)、研究生科学(GPQA)、代码生成(MBPP)和数独五个基准上,SePO一致超越Manual-CoT、TextGrad和MetaSPO,平均准确率较Manual-CoT提升4.49个百分点。预训练习得的提示优化技能可泛化至未见任务。
研究个人相机胶卷视觉问答场景,AI助手可访问用户相机胶卷并检索相关照片回答事实性或开放性问题。构建camroll数据集,包含50名用户、31,476张图像和2,500个问答对。设计camroll-agent对话式智能体,配备层次化记忆和最小工具集以高效导航大规模个性化视觉记忆。实验表明其优于多种基线方法,揭示个性化视觉记忆需要不同于标准长上下文文本记忆的方法,尤其在一致性、视觉细节和用户特定上下文方面。
VideoKR是首个专为强化知识与推理密集型视频理解设计的大规模训练语料,包含315K个视频推理示例,覆盖145K个新收集的CC许可专家领域视频。研究开发了一种人机协同、面向技能的示例生成管道,并构建了专家标注基准VideoKR-Eval。实验表明,在标准SFT→GRPO流水线下,基于VideoKR后训练的模型在知识密集型视频推理上超越先前方法,同时在通用视频推理上保持竞争力。消融实验进一步证实了数据设计的驱动作用。
Video2LoRA通过感知器超网络读取冻结视觉语言模型编码视频时的逐层中间表示,单次前向传播生成LoRA适配器,无需迭代梯度更新。在SmolVLM2 500M和2.2B上训练后,同一冻结VLM仅从适配器回答查询,上下文中零视觉token。在五个字幕基准和八个视频问答基准配对中,Video2LoRA非劣效且等价于直接视频上下文推理。虽仅用12帧384px训练,但稳定支持1024帧和1024px,将回答时视觉token负载减少最高1500倍,查询TTFT减少6-80倍。非重叠视频段独立生成的适配器可在秩空间中组合。
世界动作模型(WAMs)通过迭代扩散联合生成未来视频与机器人动作,但数十步去噪成本阻碍实时控制。Flash-WAM 提出模态感知步蒸馏:为动作流低噪声区采用线性梯度缩放参数化,为视频流高噪声区采用方差保持参数化,将推理压缩至单步。在 LingBot-VA 上实例化后,RoboTwin 2.0 每块延迟从 8.1 秒降至 348 ms(NVIDIA L40S),23 倍加速。仿真基准成功率保持(RoboTwin 2.0 85.5%,LIBERO 95.7%),真实世界 Unitree G1 人形机器人平均 60%,而朴素一致性蒸馏仅 24%。
经验内化将LLM智能体过往交互经验转化为可复用参数化能力。现有研究集中于单次迁移,但多轮学习下已有方法出现渐进式能力崩溃。通过分析三个维度发现:原则级经验比实例级更持久;逐步注入模式优于全局注入;离策略上下文蒸馏比在策略更稳定。这些发现为构建稳定可持续的经验内化方法提供指导。
SpeechEditBench 是一个双语多属性基准测试,系统评估指令引导的语音编辑能力。基准涵盖七种原子编辑任务及组合编辑任务,并提出基于锚点的评估协议,分别衡量目标属性编辑成功、非目标属性保持成功及联合成功。评测主流语音大语言模型和专用语音编辑系统发现:(1)无单一模型在所有维度表现优异;(2)闭源语音LLM整体优于开源模型;(3)组合编辑极具挑战。该基准为定位语音LLM瓶颈提供诊断框架,数据代码已公开。
以圣彼得堡博弈为平台,评估28个大语言模型。多数模型在原始博弈中生成有限出价,看似与人类风险行为相似;但通过扰动截断、重复玩法、财富量、职业身份等控制变体发现,模型转向条件性和计算合理性行为,人类提示词和指令微调仅降低出价而未改变机制层面响应模式。结果表明风险决策中的行为对齐可能停留在表面。
ZipSplat是一种基于token的前馈3D高斯泼溅模型。它通过k-means聚类将多视图密集视觉token压缩为紧凑场景token,再经交叉/自注意力细化后由轻量MLP解码为位置不受限的高斯组。推理时进行聚类,单一训练模型无需重训即可沿质量-效率曲线运行。无需真值位姿或内参,在DL3DV和RealEstate10K上以约6倍少于像素对齐方法的高斯数超越最佳无位姿基线,PSNR分别高2.1dB和1.2dB,并零样本泛化至Mip-NeRF360和ScanNet++,超越所有可比基线。
DAR(Deontic Agentic Reasoning)是一种让模型按需与法规交互的智能体推理设置,用于解决应用规则和策略回答具体事实问题的道义推理任务。在DeonticBench困难子集上的评估发现,智能体框架能推动道义推理的前沿性能,但改进并不均匀:较弱的模型在数值任务中表现退化,同时消耗更多模型token。
MedSP1000是一个包含1,638个标准化病人(SP)案例和24,602条经同行评审的轨迹级评分标准的交互式基准,用于评估临床智能体动态决策能力。在闭环模拟中,智能体行为依据专家标准逐项打分。测试通用及医学专用大语言模型发现,静态基准表现无法可靠迁移到该场景。最佳模型GPT-5.5仅完成60.4%的专家评分项,最强医学专用模型达40.0%,增加测试时计算量未带来可测量提升。当前大语言模型尚不足以安全整合到临床实践。
整理社区讨论中的工具、案例和观点。
关注常州本地的一人公司、独立产品和 AI 创业实践。
追踪常州及国内 AI 产业政策、项目申报与政企机会。
内容来自公开资讯源与社区整理,原文链接会保留在每条资讯中。
访问 AI HOT