Loading · 页面切换
正在整理新的社区内容
稍等一下,正在准备页面数据、图片和交互状态。
Loading · 页面切换
稍等一下,正在准备页面数据、图片和交互状态。
AI News · 资讯流
聚合值得关注的 AI 动态、产品发布、行业变化和社区相关机会。
@Lentils80 分享了两段来自 Claude Mythos 的惊人输出,零样本且几乎无需费力。这是自 2025 年 10 月 Gemini A/B 模型以来,针对该提示词我看到的最佳输出。主推文感叹:Claude Mythos 将进入完全不同的水准,这些输出太疯狂了。
更新后的 Grok-build 模型(仍是 0.5T 那个)比以前好很多。它不那么偷懒、更自主、更准确。我们仍在改进长时任务。请期待并在我们漂亮的 TUI 中使用新的使用限制!🚀
谷歌 Magenta 团队昨日发布 Magenta RealTime 2(MRT2)模型,免费放出乐器应用 Jam 及 DAW 插件 MRT2。MRT2 提供两种规模:高质量模型 mrt2_base(24 亿参数)和高速模型 mrt2_small(2.3 亿参数),均针对苹果 Apple Silicon 优化,mrt2_small 可在 M1 及以上芯片 Mac 实时运行。相较前代延迟约 3 秒,MRT2 改为逐帧生成(每帧 40 毫秒),控制延迟约 200 毫秒,降低至 15 分之一。支持文本和音频风格提示、MIDI 音符与鼓开关控制及 Auto-Strum 模式。技术基于 Codec Language Model,采用 SpectroStream 编解码器处理 48kHz 立体声音频。
xAI 通过 API 开放预览版图像转视频模型 grok-imagine-video-1.5-preview,可将一张静态图像扩展为流畅的电影感视频片段。用户提供起始图片并用自然语言描述运动方式后,模型可控制镜头移动、画面节奏、环境氛围与物理效果。该模型最高支持 720p 视频生成,适合概念验证、分镜测试和短内容生产,并能通过逐段动画化将多镜头串联为更长场景。
NVIDIA推出Cosmos 3,号称首个全模态物理AI开放世界基础模型。该模型可理解和生成文本、图像、视频、声音和动作,支持原生视觉推理与世界/动作生成。发布Super(32B)和Nano(8B)两种参数规模变体,可用于构建机器人策略(原生生成动作数据)及扩展视觉AI智能体(场景理解+异常检测),在公开排行榜多项能力中排名第一。
NVIDIA 发布 Nemotron 3 Ultra,总参数量 550B(活跃参数 55B)的开源混合专家(MoE)模型,采用 Mamba-Transformer 混合架构,专为长时间运行的 AI 智能体设计。该模型支持 1M token 上下文窗口,推理吞吐量比同等准确率的开源大语言模型最高提升约 6 倍。权重、训练数据和配方以 OpenMDW-1.1 许可开放。
NVIDIA 在 Huggingface 上发布 Nemotron 3 Ultra(Nemotron-3-Ultra-550B-A55B-NVFP4),一个 550B 参数的 MoE 前沿智能开源大语言模型,专为长时间运行的 AI 智能体设计。相比其他开源前沿模型,推理速度提升 5 倍,复杂智能体任务成本降低 30%。模型具备强大的智能体、推理和对话能力。
那太酷了!我爱这些家伙的创意。 一个仅2.4B参数的开放模型,用于实时音乐生成。 如果你在长途飞行中无聊,现在可以开始创作神曲了。
Nemotron 3.5 Content Safety基于Gemma 3 4B IT,提供128K上下文窗口,支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行,允许企业用自然语言定义专属安全规则;THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言,并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架(13核心类别+10细分类别)。同步发布多模态、多语言安全数据集,可在8GB+ VRAM GPU上实时部署。
Google AI for Developers 宣布推出开放权重的实时音乐模型 Magenta RealTime 2 (MRT2)。该模型可通过 MIDI 键盘、实时文本提示甚至手势进行演奏。MRT2 在 MacBook 上原生运行,延迟低于 200ms,提供开放权重、开源推理引擎以及配套应用和插件套件。
NVIDIA 正式发布 Nemotron 3 Ultra,550B 总参数(55B 活跃)的完全开源 MoE 模型,权重、训练数据和完整配方全部公开。采用混合 Mamba-Attention 架构,专为长上下文快速解码和轻内存占用设计。在长输出智能体工作负载上,吞吐量约为可比开源模型的 6 倍(推理速度提升 5 倍),复杂智能体任务成本降低最多 30%。该模型在 4-bit(NVFP4)精度下预训练 20T tokens,后训练使用 MOPD 技术,由十余个专家教师模型蒸馏技能至学生模型。这是首个达到前沿水平且可完全复现的开源模型。
neolab 推出 Nex-N2-Pro,基于 Qwen3.5-397B-A17B,总参数 397B 的 MoE 推理模型,支持 262K 上下文与多模态(VLM),性能达到 GPT-5.5 和 Claude Opus 4.7 级别。模型可自动调节推理深度,减少 30-50% 思考 token 且无性能折损,在 Terminal Bench 2.1、GDPVal、SWE-Verified 上取得 SOTA。擅长智能体编码、深度搜索和工具使用,兼容 Claude Code、Cursor 等工具。硅基流动已提供 T+0 支持,前两周免费使用。
商汤SenseTime发布SenseNova U1,一个原生理解和生成文本与图像的统一模型。该模型已开源,用户可自行运行。被@gurru_tech称赞"令人印象深刻"。提供在线演示平台SenseNova Studio、HuggingFace模型、GitHub代码及Discord社区。
商汤 SenseTime 推出 SenseNova U1 开源多模态模型,实现原生理解与生成文本和图像,可一键将提示词转化为专业信息图。该模型被开发者 @gurru_tech 评价为"非常令人印象深刻"。项目已开源,提供 SenseNova Studio 在线试用,并公开 HuggingFace 模型集合、GitHub 源码仓库及 Discord 社区入口。
NVIDIA 今日发布 Nemotron 3 Ultra,一个 550B MoE 前沿智能开源模型,专为长时间运行智能体设计。相比其他开源前沿模型,推理速度提升 5 倍,复杂智能体任务成本降低 30%。
NVIDIA 发布 Nemotron 3 Ultra,为目前最智能的美国开源权重模型。在 Artificial Analysis Intelligence Index 得分 47.7,领先 Gemma 4 31B(39.2)、Nemotron 3 Super(36.0)和 gpt-oss-120b(33.3),但低于中国开源模型 Kimi K2.6(53.9)。模型总参数约 550B,激活 55B,推理速度超 400 tokens/s,较 gpt-oss-120b 略快且智能显著更高。NVFP4 精度得分 47.7,BF16 得分 48.2,精度差异极小。
推出 NVIDIA Nemotron 3 Ultra。 一个前沿的智能开放模型,专为需要规划、推理、使用工具并持续处理复杂编码、研究和企业工作流程的长时间运行智能体而构建。 推理速度最高提升 5 倍,智能体任务成本最高降低 30%。 了解更多:https://nvda.ws/4x9nGps
今天我们正式推出 Nemotron 3 Ultra。 这是一款 550B MoE 前沿智能开源模型,专为长时间运行的智能体而构建。 与其他开源前沿模型相比,它实现 5 倍更快的推理,并将复杂智能体任务的成本降低高达 30%。
NVIDIA 发布 Nemotron 3 Ultra 模型,专为长时间运行的 AI 智能体设计。该模型能够在多轮对话中保持上下文、调用工具、调用子智能体,并高效处理复杂工作流。随着多智能体协作导致模型 token 数量快速增长,Nemotron 3 Ultra 通过优化推理流程显著提升速度并降低计算成本,使长期运行的智能体任务更加可行。
阶跃星辰的 Step 3.7 Flash 已上架 Fireworks AI。该模型为 198B 稀疏 MoE 多模态大模型(VLM),含 196B 语言骨干和 1.8B 视觉编码器,从设计之初优化推理效率,采用硬件友好架构与 MTP 辅助解码,速度达 400 tokens/s。具备原生多模态理解与行动、可靠工具使用、增强搜索能力,面向真实智能体工作负载,采用 Apache 2.0 开源许可。
SGLang 与 Miles 在发布首日即支持 NVIDIA Nemotron 3 Ultra。该模型为开放前沿推理模型,总参数 550B、激活参数 55B,采用混合 Transformer-Mamba 架构的 MoE,支持最长 1M token 上下文。针对长运行自主智能体优化,具备工具调用、编码、深度研究与编排能力,后训练使用多环境强化学习(NeMo RL)。SGLang 提供高性能推理,支持 NVFP4 和 BF16 精度,NVFP4 检查点可在 Blackwell GPU 运行;Miles 支持强化学习工作流。模型权重、数据与配方均开源。在智能体生产力、指令遵循与长上下文任务上准确率领先,成本节省高达 30%。
Miso Labs 推出 MisoTTS,一款开放权重的 8B 参数文本转语音模型。该模型采用残差向量量化(RVQ)在不增加参数量的情况下扩展声音范围,并同时基于文本和音频上下文来响应用户语调。架构由 7.7B 主骨干与 300M 深度解码器组成。
xAI 发布 grok-imagine-video-1.5-preview 图像转视频模型,能将静态图片转换为最高 720p 分辨率的影视级视频,支持文本提示控制,多个片段可拼接为更长的场景。
Ideogram 6月3日发布开源文生图模型 Ideogram 4.0,核心规模 9.3B 参数,采用单流架构,文本 tokens 与图像 tokens 共享自注意力序列。模型使用 Qwen3-VL-8B-Instruct 文本编码器、34 层单流 DiT、Euler 流匹配采样器及冻结 KL 自动编码器。擅长文字绘制,能准确呈现较长文本;通过对象和文本边界框训练,配合结构化 JSON 字幕数据,支持用提示词指定版式和布局。在 DesignArena 人类评价排名中位列全球第 4。
阶跃星辰发布开源 Step 3.7 Flash(Apache 2.0),采用 MoE 架构(198B 总参/11B 活跃参),配备 MTP 辅助解码(3 个预测头),输出速度超 400 tokens/s,是同类两倍多。Artificial Analysis Intelligence Index 得分 42.6,较 Step 3.5 Flash 提升 4 分。智能体能力明显增强:GDPval-AA Elo 升至 1298,TerminalBench Hard 升至 35.6%。新增 1.8B 视觉编码器,MMMU-Pro 得分 75.3%。上下文窗口 256K tokens,提供 BF16、FP8、NVFP4 版本。缺点:AA-Omniscience 准确率仅 25.4%,幻觉率 84.4%。
StepFun 开源 Step 3.7 Flash(Apache 2.0),总参数 198B、激活 11B(MoE),上下文 256K。在 Artificial Analysis 智能指数上得分 42.6,较 Step 3.5 Flash 提升 4 分,输出速度超 400 tokens/s,通过 Multi-Token Prediction(3 个 token)加速。新增 1.8B 视觉编码器支持原生多模态,MMMU-Pro 得分 75.3%。代理能力提升:GDPval-AA Elo 从 1070 升至 1298,TerminalBench Hard 达 35.6%,AA-LCR 63.7%。知识/幻觉仍弱:AA-Omniscience 准确率 25.4%,幻觉率 84.4%。提供 BF16、FP8、NVFP4 精度权重以降低部署成本。
Grok Imagine Video 1.5 现在在 Video Arena 排行榜上排名第一。🥇
香港生成式人工智能研发中心(HKGAI)发布HKGAI V3大模型及香港首个生产力级超级智能体。V3实现超10倍Token压缩效率提升,Agent无干预运行时长增长近百倍,单次稳定运行达28小时,并针对香港本地语境优化。HKGAI联合香港浪潮云及三大运营商向海外开放推理算力与智能服务。同时发布HKGAI政商一体机,内置V3模型实现本地推理、数据不出站,适用于政务、金融、医疗等高安全场景。
Reve 2.0 图像模型支持原生4K输出,核心亮点在于类似 Photoshop 的图像分层编辑能力。用户点击图像中的任意部分即可选中该区域,无需复杂的中间处理步骤,直接进行针对性编辑。该功能大幅简化了图像局部修改的工作流。
来看看我们的 Gemma 4 12B 模型:它是一个功能非常强大的开源权重模型,可以直接在你的笔记本电脑上运行。
MiniMax M3 即将推出,现在即可在 OpenCode 免费试用。M3 已回到免费层,快来体验!
Ideogram 发布首个开源 AI 图像模型 Ideogram 4.0,主推文字渲染与版面控制。模型引入 bounding box(边界框)控制,允许用坐标精确指定元素位置;支持结构化 JSON 提示词格式,不再仅限纯文本;英文 OCR 准确率达 0.97(X-Omni 基准),支持跨语言密集文字渲染,涵盖中日韩等非拉丁文字。
Vercel 的 AI Gateway 上现已推出 Grok Imagine Video 1.5。该服务支持图生视频并同步音频,一次性完成。示例代码: `await generateVideo({ model: 'xai/grok-imagine-video-1.5-preview', prompt: 'a rabbit sprinting through nyc' });`
OpenMOSS团队发布MOSS-Audio,一个融合语音(Speech)、环境音(Sound)、音乐(Music)的开源音频-语言模型,已冲上Hugging Face Trending第一。该模型从架构上打通三大音频域,可同时转录对话、识别背景音、理解音乐情绪并生成文本或执行下游任务。模型完全开源可商用,代码和权重已在Hugging Face及GitHub公布,开发者可本地运行。
Google 发布 Gemma 4 12B 开源模型,采用无编码器 Unified 架构,可直接处理文本、图像、音频、视频,无需独立编码器。16GB 显存可运行,4-bit 量化后低至 8GB。支持 256K token 上下文、140+ 语言,内置 Thinking 模式和 Function Calling。
15.6× faster decoding at 1M tokens 🔥 感谢 @FireworksAI_HQ 为 M3 提供推理支持。 立即尝试 👇
Google 昨晚发布Gemma 4 12B 多模态的大模型,至少需要16G 内存就可以运行。 应该和Qwen 的模型进行对比其效果如何~
SpaceXAI 不断刷新标准。🔥 Grok Imagine Video 1.5 预览版现已上线 API,效果看起来极为电影感。📽️ 去亲自试试吧。💻 祝 SpaceXAI 好运。🚀
Mem0 是 MiniMax M3 的官方启动合作伙伴! M3 的 1M token 上下文窗口 + @mem0ai 的记忆层 = 真正记住的 AI 应用。 构建具有持久记忆的个性化 AI 智能体,现在启动周内 M3 享五折优惠。 开始使用 Minimax → https://platform.minimax.io/docs/guides/models-intro 注册 mem0 → http://app.mem0.ai/?utm_source=minimax_x_post
新模型 Reve 2.0 上线,在 Text-to-Image 竞技场中排名第二,超越 Nano Banana 2 和 GPT-Image-1.5。该模型采用全新图像生成与编辑方式,利用精确布局实现可交互的图像创作:图像被表示为代码,每个区域均可寻址、编辑和操控;图像被自动分割并标注,用户可对每一元素进行精细化控制。
我们正在为 GPT-Rosalind 带来新功能,这是一个专为企业级生命科学研究打造的模型系列。 它将 GPT-5.5 的智能体编码和工具使用能力与更强大的智能相结合,用于药物发现、分析、设计和实验工作流程。 https://openai.com/index/introducing-new-capabilities-to-gpt-rosalind
@mem0ai 是 MiniMax M3 的官方发布合作伙伴! M3 的百万 token 上下文窗口 + @mem0ai 的记忆层 = 真正能记住的 AI 应用。 构建带有持久记忆的个性化 AI 智能体,发布周期间 M3 可享 5 折优惠。 开始使用 Minimax → https://platform.minimax.io/docs/guides/models-intro 注册 mem0 → http://app.mem0.ai/?utm_source=minimax_x_post
Gemma 4 12B 是 Google DeepMind 推出的开源模型,原生支持处理文本、图像和音频,仅需 16GB RAM 即可在笔记本上运行。在基准测试中几乎追平两倍参数规模的 26B 模型,采用 Apache 2.0 许可证,可用于商业用途。
Gemma 4 系列累计下载量突破1.5亿次,Google随之推出新成员Gemma 4 12B。该模型仅12B参数,可在16GB VRAM笔记本上本地运行,兼顾尺寸与性能,支持多步推理和智能体工作流。采用Apache 2.0开源许可,供社区使用。
Google 开源 Gemma 4 12B(密集参数,Apache 2.0 许可),采用全新无编码器架构:移除独立的视觉(550M 参数、27 层 Transformer)和音频(300M 参数、12 层 Conformer)编码器。视觉改为 35M 嵌入层(约缩小 15 倍),音频以 40ms 帧直接投影到大语言模型。模型在 16GB VRAM 笔记本上即可运行智能体推理、视觉和音频任务,性能接近 26B 参数模型。共享权重支持一次 LoRA 调优覆盖视觉、音频和文本。
Gemma 4 12B 采用新的编码方案与 token 预测,实现了超越自身参数规模的性能表现。该模型专为在 16GB RAM 的笔记本电脑上本地运行而设计。
Gemma 4 12B 是 Google DeepMind 发布的无需编码器的多模态模型,直接将视觉和音频输入大语言模型骨干,支持原生音频,可在 16 GB 笔记本电脑上本地运行,采用 Apache 2.0 开源许可。
Demis Hassabis 宣布 Gemma 4 系列下载量突破 1.5 亿,并正式发布新版 Gemma 4 12B 模型。该模型是一个统一的、无编码器的多模态模型,兼具边缘端效率与高级推理能力。尽管参数规模仅为 12B,但性能强劲,且足够小巧,可在仅需 16GB VRAM 的笔记本上本地运行。采用 Apache 2.0 开源许可证,方便开发者自由构建。
Ideogram 发布 4.0 版本文本到图像模型,采用开放权重,支持原生2K分辨率、边界框控制和改进的文本渲染。在 DesignArena 排行榜上,该模型位列所有开放模型之首;仅 OpenAI 和 Google 的闭源系统得分更高。商业使用需购买付费许可证。
介绍 Ideogram v4.0。 原生 2K 分辨率,出色的文字渲染,支持 JSON 提示词。 立即在 Krea 中体验。
Miso Labs 开源 8B 参数文本转语音模型 Miso One,专注于生成富有情感的表达,如温暖、犹豫或兴奋,告别机械音。模型专为短视频、播客和教育内容等旁白场景设计,推理延迟仅 110 毫秒,快于人类反应时间。模型权重完全开源,支持自托管、微调和数据私有化,API 即将开放。
Gemma 4 12B 是 Google 发布的一款统一架构、无需独立视觉编码器的多模态大语言模型(LLM)。该模型直接处理图像与文本输入,无需传统视觉编码器,简化了多模态推理流程。基于 12B 参数规模,Gemma 4 12B 面向开发者工具生态开放。目前其具体 benchmark 分数、上下文窗口、价格及开源/API 可用性等细节尚未披露。
🏆 Cosmos 3 刚刚登顶 7 个物理 AI 排行榜。 NVIDIA CosmosTM 3,面向物理 AI 的开放全模态模型,在世界生成、机器人行动策略和工业视觉理解方面均排名第一。 🌎 世界生成:Artificial Analysis、PAI-Bench、Physics-IQ、R-Bench 🤖 机器人策略:RoboLab 👁️ 视觉:VANTAGE-Bench、TAR 一个模型。覆盖物理 AI 的每个领域。 现已可通过 Hugging Face 获取 ▶️ https://nvda.ws/4e09TbR
Miso One 正式发布,一个 8B 参数的开源权重语音模型(TTS),旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆(只需短样本),推理延迟仅 110ms。模型权重已开源至 GitHub,无需 API 即可自托管,音频数据不离开本地。API 访问即将推出。演示已上线,可先试听再克隆仓库。
整理社区讨论中的工具、案例和观点。
关注常州本地的一人公司、独立产品和 AI 创业实践。
追踪常州及国内 AI 产业政策、项目申报与政企机会。
内容来自公开资讯源与社区整理,原文链接会保留在每条资讯中。
访问 AI HOT