Changzhou AI Club页面切换中正在准备新的页面内容

AI News · 资讯流

AI 资讯

聚合值得关注的 AI 动态、产品发布、行业变化和社区相关机会。

分类

全部模型产品行业论文观点

全部动态

全部动态 · 模型发布/更新

01

06/05 15:55X：Kim (@kimmonismus)模型

Claude Mythos 即将发布，零样本输出惊艳

@Lentils80 分享了两段来自 Claude Mythos 的惊人输出，零样本且几乎无需费力。这是自 2025 年 10 月 Gemini A/B 模型以来，针对该提示词我看到的最佳输出。主推文感叹：Claude Mythos 将进入完全不同的水准，这些输出太疯狂了。

AI HOT原文

02

06/05 15:13X：Elon Musk (@elonmusk, xAI)模型

Grok模型更新：更自主更准确

更新后的 Grok-build 模型（仍是 0.5T 那个）比以前好很多。它不那么偷懒、更自主、更准确。我们仍在改进长时任务。请期待并在我们漂亮的 TUI 中使用新的使用限制！🚀

AI HOT原文

03

06/05 13:48IT之家（RSS）模型

谷歌推出 Magenta RealTime 2 本地实时音乐 AI 模型：延迟降低至 1/15

谷歌 Magenta 团队昨日发布 Magenta RealTime 2（MRT2）模型，免费放出乐器应用 Jam 及 DAW 插件 MRT2。MRT2 提供两种规模：高质量模型 mrt2_base（24 亿参数）和高速模型 mrt2_small（2.3 亿参数），均针对苹果 Apple Silicon 优化，mrt2_small 可在 M1 及以上芯片 Mac 实时运行。相较前代延迟约 3 秒，MRT2 改为逐帧生成（每帧 40 毫秒），控制延迟约 200 毫秒，降低至 15 分之一。支持文本和音频风格提示、MIDI 音符与鼓开关控制及 Auto-Strum 模式。技术基于 Codec Language Model，采用 SpectroStream 编解码器处理 48kHz 立体声音频。

AI HOT原文

04

06/05 12:43IT之家（RSS）模型

xAI 开放预览版图转视频模型 grok-imagine-video-1.5-preview，单图生成最高 720p 电影感视频

xAI 通过 API 开放预览版图像转视频模型 grok-imagine-video-1.5-preview，可将一张静态图像扩展为流畅的电影感视频片段。用户提供起始图片并用自然语言描述运动方式后，模型可控制镜头移动、画面节奏、环境氛围与物理效果。该模型最高支持 720p 视频生成，适合概念验证、分镜测试和短内容生产，并能通过逐段动画化将多镜头串联为更长场景。

AI HOT原文

05

06/05 07:27X：NVIDIA (@nvidia)模型

NVIDIA发布Cosmos 3：首个全模态物理AI开放模型

NVIDIA推出Cosmos 3，号称首个全模态物理AI开放世界基础模型。该模型可理解和生成文本、图像、视频、声音和动作，支持原生视觉推理与世界/动作生成。发布Super（32B）和Nano（8B）两种参数规模变体，可用于构建机器人策略（原生生成动作数据）及扩展视觉AI智能体（场景理解+异常检测），在公开排行榜多项能力中排名第一。

AI HOT原文

06

06/05 05:42MarkTechPost（RSS）模型

NVIDIA AI 发布 Nemotron 3 Ultra：开源 550B MoE 混合 Mamba-Transformer，面向长时间运行智能体

NVIDIA 发布 Nemotron 3 Ultra，总参数量 550B（活跃参数 55B）的开源混合专家（MoE）模型，采用 Mamba-Transformer 混合架构，专为长时间运行的 AI 智能体设计。该模型支持 1M token 上下文窗口，推理吞吐量比同等准确率的开源大语言模型最高提升约 6 倍。权重、训练数据和配方以 OpenMDW-1.1 许可开放。

AI HOT原文

07

06/05 03:57X：Testing Catalog (@testingcatalog)模型

NVIDIA 发布 Nemotron 3 Ultra 开源模型，推理速度提升 5 倍

NVIDIA 在 Huggingface 上发布 Nemotron 3 Ultra（Nemotron-3-Ultra-550B-A55B-NVFP4），一个 550B 参数的 MoE 前沿智能开源大语言模型，专为长时间运行的 AI 智能体设计。相比其他开源前沿模型，推理速度提升 5 倍，复杂智能体任务成本降低 30%。模型具备强大的智能体、推理和对话能力。

AI HOT原文

08

06/05 03:44X：Kim (@kimmonismus)模型

2.4B开放模型实现实时音乐生成

那太酷了！我爱这些家伙的创意。一个仅2.4B参数的开放模型，用于实时音乐生成。如果你在长途飞行中无聊，现在可以开始创作神曲了。

AI HOT原文

09

06/05 02:57Hugging Face：Blog（RSS）模型

Nemotron 3.5 Content Safety：面向全球企业AI的可定制多模态安全

Nemotron 3.5 Content Safety基于Gemma 3 4B IT，提供128K上下文窗口，支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行，允许企业用自然语言定义专属安全规则；THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言，并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架（13核心类别+10细分类别）。同步发布多模态、多语言安全数据集，可在8GB+ VRAM GPU上实时部署。

AI HOT原文

10

06/05 02:32X：Google AI for Developers (@googleaidevs)模型

Google Magenta RealTime 2 （MRT2）实时音乐模型发布

Google AI for Developers 宣布推出开放权重的实时音乐模型 Magenta RealTime 2 （MRT2）。该模型可通过 MIDI 键盘、实时文本提示甚至手势进行演奏。MRT2 在 MacBook 上原生运行，延迟低于 200ms，提供开放权重、开源推理引擎以及配套应用和插件套件。

AI HOT原文

11

06/04 23:23X：Kim (@kimmonismus)模型

NVIDIA Nemotron 3 Ultra 发布：完全开源 550B MoE 模型

NVIDIA 正式发布 Nemotron 3 Ultra，550B 总参数（55B 活跃）的完全开源 MoE 模型，权重、训练数据和完整配方全部公开。采用混合 Mamba-Attention 架构，专为长上下文快速解码和轻内存占用设计。在长输出智能体工作负载上，吞吐量约为可比开源模型的 6 倍（推理速度提升 5 倍），复杂智能体任务成本降低最多 30%。该模型在 4-bit（NVFP4）精度下预训练 20T tokens，后训练使用 MOPD 技术，由十余个专家教师模型蒸馏技能至学生模型。这是首个达到前沿水平且可完全复现的开源模型。

AI HOT原文

12

06/04 23:00X：硅基流动 SiliconFlow (@SiliconFlowAI)模型

Nex-N2-Pro 发布：基于 Qwen3.5 的 397B MoE 推理模型，性能达 GPT-5.5 水平

neolab 推出 Nex-N2-Pro，基于 Qwen3.5-397B-A17B，总参数 397B 的 MoE 推理模型，支持 262K 上下文与多模态（VLM），性能达到 GPT-5.5 和 Claude Opus 4.7 级别。模型可自动调节推理深度，减少 30-50% 思考 token 且无性能折损，在 Terminal Bench 2.1、GDPVal、SWE-Verified 上取得 SOTA。擅长智能体编码、深度搜索和工具使用，兼容 Claude Code、Cursor 等工具。硅基流动已提供 T+0 支持，前两周免费使用。

AI HOT原文

13

06/04 22:46X：商汤 SenseTime (@SenseTime_AI)模型

商汤SenseNova U1开源统一文本图像模型

商汤SenseTime发布SenseNova U1，一个原生理解和生成文本与图像的统一模型。该模型已开源，用户可自行运行。被@gurru_tech称赞"令人印象深刻"。提供在线演示平台SenseNova Studio、HuggingFace模型、GitHub代码及Discord社区。

AI HOT原文

14

06/04 22:42X：商汤 SenseTime (@SenseTime_AI)模型

SenseNova U1 开源统一模型：原生图文生成

商汤 SenseTime 推出 SenseNova U1 开源多模态模型，实现原生理解与生成文本和图像，可一键将提示词转化为专业信息图。该模型被开发者 @gurru_tech 评价为"非常令人印象深刻"。项目已开源，提供 SenseNova Studio 在线试用，并公开 HuggingFace 模型集合、GitHub 源码仓库及 Discord 社区入口。

AI HOT原文

15

06/04 22:14X：Elvis Saravia (@omarsar0, DAIR.AI)模型

NVIDIA 发布 Nemotron 3 Ultra 550B 开源模型

NVIDIA 今日发布 Nemotron 3 Ultra，一个 550B MoE 前沿智能开源模型，专为长时间运行智能体设计。相比其他开源前沿模型，推理速度提升 5 倍，复杂智能体任务成本降低 30%。

AI HOT原文

16

06/04 21:32X：Artificial Analysis (@ArtificialAnlys)模型

NVIDIA 发布 Nemotron 3 Ultra，成美国开源权重模型智能新标杆

NVIDIA 发布 Nemotron 3 Ultra，为目前最智能的美国开源权重模型。在 Artificial Analysis Intelligence Index 得分 47.7，领先 Gemma 4 31B（39.2）、Nemotron 3 Super（36.0）和 gpt-oss-120b（33.3），但低于中国开源模型 Kimi K2.6（53.9）。模型总参数约 550B，激活 55B，推理速度超 400 tokens/s，较 gpt-oss-120b 略快且智能显著更高。NVFP4 精度得分 47.7，BF16 得分 48.2，精度差异极小。

AI HOT原文

17

06/04 21:10X：NVIDIA (@nvidia)模型

NVIDIA发布Nemotron 3 Ultra前沿开放智能体模型

推出 NVIDIA Nemotron 3 Ultra。一个前沿的智能开放模型，专为需要规划、推理、使用工具并持续处理复杂编码、研究和企业工作流程的长时间运行智能体而构建。推理速度最高提升 5 倍，智能体任务成本最高降低 30%。了解更多：https：//nvda.ws/4x9nGps

AI HOT原文

18

06/04 21:06X：NVIDIA AI (@NVIDIAAI)模型

NVIDIA发布Nemotron 3 Ultra模型

今天我们正式推出 Nemotron 3 Ultra。这是一款 550B MoE 前沿智能开源模型，专为长时间运行的智能体而构建。与其他开源前沿模型相比，它实现 5 倍更快的推理，并将复杂智能体任务的成本降低高达 30%。

AI HOT原文

19

06/04 21:02NVIDIA Technical Blog（开发者技术博客 · RSS）模型

NVIDIA Nemotron 3 Ultra 为长时间运行的智能体带来更快、更高效的推理能力

NVIDIA 发布 Nemotron 3 Ultra 模型，专为长时间运行的 AI 智能体设计。该模型能够在多轮对话中保持上下文、调用工具、调用子智能体，并高效处理复杂工作流。随着多智能体协作导致模型 token 数量快速增长，Nemotron 3 Ultra 通过优化推理流程显著提升速度并降低计算成本，使长期运行的智能体任务更加可行。

AI HOT原文

20

06/04 21:01X：阶跃星辰 StepFun (@StepFun_ai)模型

阶跃星辰 Step 3.7 Flash 在 Fireworks AI 上架

阶跃星辰的 Step 3.7 Flash 已上架 Fireworks AI。该模型为 198B 稀疏 MoE 多模态大模型（VLM），含 196B 语言骨干和 1.8B 视觉编码器，从设计之初优化推理效率，采用硬件友好架构与 MTP 辅助解码，速度达 400 tokens/s。具备原生多模态理解与行动、可靠工具使用、增强搜索能力，面向真实智能体工作负载，采用 Apache 2.0 开源许可。

AI HOT原文

21

06/04 20:52LMSYS：Blog（Chatbot Arena 团队）模型

SGLang 和 Miles 即日支持 NVIDIA Nemotron 3 Ultra

SGLang 与 Miles 在发布首日即支持 NVIDIA Nemotron 3 Ultra。该模型为开放前沿推理模型，总参数 550B、激活参数 55B，采用混合 Transformer-Mamba 架构的 MoE，支持最长 1M token 上下文。针对长运行自主智能体优化，具备工具调用、编码、深度研究与编排能力，后训练使用多环境强化学习（NeMo RL）。SGLang 提供高性能推理，支持 NVFP4 和 BF16 精度，NVFP4 检查点可在 Blackwell GPU 运行；Miles 支持强化学习工作流。模型权重、数据与配方均开源。在智能体生产力、指令遵循与长上下文任务上准确率领先，成本节省高达 30%。

AI HOT原文

22

06/04 16:11MarkTechPost（RSS）模型

Miso Labs 发布 MisoTTS：8B 参数情感文本转语音模型，开放权重

Miso Labs 推出 MisoTTS，一款开放权重的 8B 参数文本转语音模型。该模型采用残差向量量化（RVQ）在不增加参数量的情况下扩展声音范围，并同时基于文本和音频上下文来响应用户语调。架构由 7.7B 主骨干与 300M 深度解码器组成。

AI HOT原文

23

06/04 16:04The Decoder：AI News（RSS）模型

xAI 更新 Grok Imagine 至 1.5，新增 720p 图像转视频生成

xAI 发布 grok-imagine-video-1.5-preview 图像转视频模型，能将静态图片转换为最高 720p 分辨率的影视级视频，支持文本提示控制，多个片段可拼接为更长的场景。

AI HOT原文

24

06/04 13:58IT之家（RSS）模型

Ideogram 4.0 开源文生图模型发布

Ideogram 6月3日发布开源文生图模型 Ideogram 4.0，核心规模 9.3B 参数，采用单流架构，文本 tokens 与图像 tokens 共享自注意力序列。模型使用 Qwen3-VL-8B-Instruct 文本编码器、34 层单流 DiT、Euler 流匹配采样器及冻结 KL 自动编码器。擅长文字绘制，能准确呈现较长文本；通过对象和文本边界框训练，配合结构化 JSON 字幕数据，支持用提示词指定版式和布局。在 DesignArena 人类评价排名中位列全球第 4。

AI HOT原文

25

06/04 12:08X：阶跃星辰 StepFun (@StepFun_ai)模型

阶跃星辰开源 Step 3.7 Flash：MoE 架构、400+ tokens/s、Apache 2.0

阶跃星辰发布开源 Step 3.7 Flash（Apache 2.0），采用 MoE 架构（198B 总参/11B 活跃参），配备 MTP 辅助解码（3 个预测头），输出速度超 400 tokens/s，是同类两倍多。Artificial Analysis Intelligence Index 得分 42.6，较 Step 3.5 Flash 提升 4 分。智能体能力明显增强：GDPval-AA Elo 升至 1298，TerminalBench Hard 升至 35.6%。新增 1.8B 视觉编码器，MMMU-Pro 得分 75.3%。上下文窗口 256K tokens，提供 BF16、FP8、NVFP4 版本。缺点：AA-Omniscience 准确率仅 25.4%，幻觉率 84.4%。

AI HOT原文

26

06/04 11:48X：Artificial Analysis (@ArtificialAnlys)模型

StepFun 开源 Step 3.7 Flash 模型，性能与速度并进

StepFun 开源 Step 3.7 Flash（Apache 2.0），总参数 198B、激活 11B（MoE），上下文 256K。在 Artificial Analysis 智能指数上得分 42.6，较 Step 3.5 Flash 提升 4 分，输出速度超 400 tokens/s，通过 Multi-Token Prediction（3 个 token）加速。新增 1.8B 视觉编码器支持原生多模态，MMMU-Pro 得分 75.3%。代理能力提升：GDPval-AA Elo 从 1070 升至 1298，TerminalBench Hard 达 35.6%，AA-LCR 63.7%。知识/幻觉仍弱：AA-Omniscience 准确率 25.4%，幻觉率 84.4%。提供 BF16、FP8、NVFP4 精度权重以降低部署成本。

AI HOT原文

27

06/04 11:30X：cb_doge (@cb_doge)模型

Grok Imagine Video 1.5 登顶视频排行

Grok Imagine Video 1.5 现在在 Video Arena 排行榜上排名第一。🥇

AI HOT原文

28

06/04 10:21IT之家（RSS）模型

香港首个生产力级超级智能体发布，本地大模型 HKGAI V3 登场

香港生成式人工智能研发中心（HKGAI）发布HKGAI V3大模型及香港首个生产力级超级智能体。V3实现超10倍Token压缩效率提升，Agent无干预运行时长增长近百倍，单次稳定运行达28小时，并针对香港本地语境优化。HKGAI联合香港浪潮云及三大运营商向海外开放推理算力与智能服务。同时发布HKGAI政商一体机，内置V3模型实现本地推理、数据不出站，适用于政务、金融、医疗等高安全场景。

AI HOT原文

29

06/04 10:05X：歸藏 (@op7418)模型

Reve 2.0 图像模型：原生4K输出与分层编辑能力

Reve 2.0 图像模型支持原生4K输出，核心亮点在于类似 Photoshop 的图像分层编辑能力。用户点击图像中的任意部分即可选中该区域，无需复杂的中间处理步骤，直接进行针对性编辑。该功能大幅简化了图像局部修改的工作流。

AI HOT原文

30

06/04 10:00X：Jeff Dean (@JeffDean)模型

Gemma 4 12B 开源模型，可在笔记本运行

来看看我们的 Gemma 4 12B 模型：它是一个功能非常强大的开源权重模型，可以直接在你的笔记本电脑上运行。

AI HOT原文

31

06/04 09:57X：MiniMax (@MiniMax_AI)模型

MiniMax M3 回归 OpenCode 免费层

MiniMax M3 即将推出，现在即可在 OpenCode 免费试用。M3 已回到免费层，快来体验！

AI HOT原文

32

06/04 09:38X：小互 (@xiaohu)模型

Ideogram 4.0 开源：边界框控制+多语言文字渲染

Ideogram 发布首个开源 AI 图像模型 Ideogram 4.0，主推文字渲染与版面控制。模型引入 bounding box（边界框）控制，允许用坐标精确指定元素位置；支持结构化 JSON 提示词格式，不再仅限纯文本；英文 OCR 准确率达 0.97（X-Omni 基准），支持跨语言密集文字渲染，涵盖中日韩等非拉丁文字。

AI HOT原文

33

06/04 08:54X：Elon Musk (@elonmusk, xAI)模型

Grok Imagine 1.5制作《伊利亚特》预告片

伊利亚特（特洛伊）预告片由刚刚发布的 Grok Imagine 1.5 制作

AI HOT原文

34

06/04 08:36X：Elon Musk (@elonmusk, xAI)模型

Grok Imagine视频生成上线Vercel

Vercel 的 AI Gateway 上现已推出 Grok Imagine Video 1.5。该服务支持图生视频并同步音频，一次性完成。示例代码： `await generateVideo（{ model： 'xai/grok-imagine-video-1.5-preview'， prompt： 'a rabbit sprinting through nyc' }）；`

AI HOT原文

35

06/04 08:23X：Berry Xia (@berryxia)模型

MOSS-Audio：开源统一语音、环境音、音乐的音频-语言模型登顶HF Trending第一

OpenMOSS团队发布MOSS-Audio，一个融合语音（Speech）、环境音（Sound）、音乐（Music）的开源音频-语言模型，已冲上Hugging Face Trending第一。该模型从架构上打通三大音频域，可同时转录对话、识别背景音、理解音乐情绪并生成文本或执行下游任务。模型完全开源可商用，代码和权重已在Hugging Face及GitHub公布，开发者可本地运行。

AI HOT原文

36

06/04 08:22X：小互 (@xiaohu)模型

Google 发布 Gemma 4 12B 开源模型

Google 发布 Gemma 4 12B 开源模型，采用无编码器 Unified 架构，可直接处理文本、图像、音频、视频，无需独立编码器。16GB 显存可运行，4-bit 量化后低至 8GB。支持 256K token 上下文、140+ 语言，内置 Thinking 模式和 Function Calling。

AI HOT原文

37

06/04 07:34X：MiniMax (@MiniMax_AI)模型

MiniMax M3 1M token 解码加速 15.6 倍

15.6× faster decoding at 1M tokens 🔥 感谢 @FireworksAI_HQ 为 M3 提供推理支持。立即尝试 👇

AI HOT原文

38

06/04 07:03X：Berry Xia (@berryxia)模型

Gemma 4 12B 发布，16G内存即可运行

Google 昨晚发布Gemma 4 12B 多模态的大模型，至少需要16G 内存就可以运行。应该和Qwen 的模型进行对比其效果如何~

AI HOT原文

39

06/04 06:58X：cb_doge (@cb_doge)模型

Grok Imagine Video 1.5 预览版上线 API

SpaceXAI 不断刷新标准。🔥 Grok Imagine Video 1.5 预览版现已上线 API，效果看起来极为电影感。📽️ 去亲自试试吧。💻 祝 SpaceXAI 好运。🚀

AI HOT原文

40

06/04 05:56X：Greg Brockman (@gdb)模型

GPT-Rosalind 重大升级，提升药物发现智能

GPT-Rosalind 重大升级，药物发现、分析、设计和实验工作流的智能大幅提升：

AI HOT原文

41

06/04 05:41X：MiniMax (@MiniMax_AI)模型

MiniMax M3联袂Mem0推持久记忆AI

Mem0 是 MiniMax M3 的官方启动合作伙伴！ M3 的 1M token 上下文窗口 + @mem0ai 的记忆层 = 真正记住的 AI 应用。构建具有持久记忆的个性化 AI 智能体，现在启动周内 M3 享五折优惠。开始使用 Minimax → https：//platform.minimax.io/docs/guides/models-intro 注册 mem0 → http：//app.mem0.ai/？utm_source=minimax_x_post

AI HOT原文

42

06/04 05:31X：Testing Catalog (@testingcatalog)模型

Reve 2.0 发布，登顶文生图排行榜第二

新模型 Reve 2.0 上线，在 Text-to-Image 竞技场中排名第二，超越 Nano Banana 2 和 GPT-Image-1.5。该模型采用全新图像生成与编辑方式，利用精确布局实现可交互的图像创作：图像被表示为代码，每个区域均可寻址、编辑和操控；图像被自动分割并标注，用户可对每一元素进行精细化控制。

AI HOT原文

43

06/04 05:15X：OpenAI (@OpenAI)模型

GPT-Rosalind 新增企业生命科学能力

我们正在为 GPT-Rosalind 带来新功能，这是一个专为企业级生命科学研究打造的模型系列。它将 GPT-5.5 的智能体编码和工具使用能力与更强大的智能相结合，用于药物发现、分析、设计和实验工作流程。 https：//openai.com/index/introducing-new-capabilities-to-gpt-rosalind

AI HOT原文

44

06/04 04:04X：fofr (@fofrAI)模型

Ideogram v4 开放权重，图像清晰出色

Ideogram v4 表现出色，开放权重。图像清晰，感觉焕然一新。

AI HOT原文

45

06/04 04:00X：MiniMax (@MiniMax_AI)模型

MiniMax M3携mem0推1M记忆层

@mem0ai 是 MiniMax M3 的官方发布合作伙伴！ M3 的百万 token 上下文窗口 + @mem0ai 的记忆层 = 真正能记住的 AI 应用。构建带有持久记忆的个性化 AI 智能体，发布周期间 M3 可享 5 折优惠。开始使用 Minimax → https：//platform.minimax.io/docs/guides/models-intro 注册 mem0 → http：//app.mem0.ai/？utm_source=minimax_x_post

AI HOT原文

46

06/04 03:54The Decoder：AI News（RSS）模型

Google DeepMind 发布 Gemma 4 12B：开源多模态模型，16GB 内存笔记本即可运行

Gemma 4 12B 是 Google DeepMind 推出的开源模型，原生支持处理文本、图像和音频，仅需 16GB RAM 即可在笔记本上运行。在基准测试中几乎追平两倍参数规模的 26B 模型，采用 Apache 2.0 许可证，可用于商业用途。

AI HOT原文

47

06/04 03:36X：Sundar Pichai (@sundarpichai)模型

Gemma 4 12B发布：笔记本本地运行的多步推理模型

Gemma 4 系列累计下载量突破1.5亿次，Google随之推出新成员Gemma 4 12B。该模型仅12B参数，可在16GB VRAM笔记本上本地运行，兼顾尺寸与性能，支持多步推理和智能体工作流。采用Apache 2.0开源许可，供社区使用。

AI HOT原文

48

06/04 03:20X：Kim (@kimmonismus)模型

Google 开源 Gemma 4 12B：无编码器架构，本地 16GB VRAM 运行

Google 开源 Gemma 4 12B（密集参数，Apache 2.0 许可），采用全新无编码器架构：移除独立的视觉（550M 参数、27 层 Transformer）和音频（300M 参数、12 层 Conformer）编码器。视觉改为 35M 嵌入层（约缩小 15 倍），音频以 40ms 帧直接投影到大语言模型。模型在 16GB VRAM 笔记本上即可运行智能体推理、视觉和音频任务，性能接近 26B 参数模型。共享权重支持一次 LoRA 调优覆盖视觉、音频和文本。

AI HOT原文

49

06/04 03:13X：fofr (@fofrAI)模型

Ideogram v4开源权重，图像清晰出色

Ideogram v4 真的很好，而且开源权重。图像清新锐利，令人耳目一新。

AI HOT原文

50

06/04 03:10Ars Technica：AI（RSS）模型

Google 新发布的 Gemma 4 12B 模型可在任何 16GB 内存笔记本电脑上运行

Gemma 4 12B 采用新的编码方案与 token 预测，实现了超越自身参数规模的性能表现。该模型专为在 16GB RAM 的笔记本电脑上本地运行而设计。

AI HOT原文

51

06/04 02:46MarkTechPost（RSS）模型

Google DeepMind 发布 Gemma 4 12B：无需编码器的多模态模型，支持原生音频，可在16GB笔记本上运行

Gemma 4 12B 是 Google DeepMind 发布的无需编码器的多模态模型，直接将视觉和音频输入大语言模型骨干，支持原生音频，可在 16 GB 笔记本电脑上本地运行，采用 Apache 2.0 开源许可。

AI HOT原文

52

06/04 02:38X：cb_doge (@cb_doge)模型

Grok Imagine 1.5 预览版发布

Grok Imagine 1.5 预览版已发布，即日起可在 API 中体验。SpaceXAI 正在发力。

AI HOT原文

53

06/04 02:35X：Demis Hassabis (@demishassabis)模型

Gemma 4 12B 发布：150M+ 下载量里程碑，16GB VRAM 本地运行

Demis Hassabis 宣布 Gemma 4 系列下载量突破 1.5 亿，并正式发布新版 Gemma 4 12B 模型。该模型是一个统一的、无编码器的多模态模型，兼具边缘端效率与高级推理能力。尽管参数规模仅为 12B，但性能强劲，且足够小巧，可在仅需 16GB VRAM 的笔记本上本地运行。采用 Apache 2.0 开源许可证，方便开发者自由构建。

AI HOT原文

54

06/04 02:34The Decoder：AI News（RSS）模型

Ideogram 4.0 发布：开放权重模型，原生2K分辨率与改进文本渲染

Ideogram 发布 4.0 版本文本到图像模型，采用开放权重，支持原生2K分辨率、边界框控制和改进的文本渲染。在 DesignArena 排行榜上，该模型位列所有开放模型之首；仅 OpenAI 和 Google 的闭源系统得分更高。商业使用需购买付费许可证。

AI HOT原文

55

06/04 01:40X：Krea AI (@krea_ai)模型

Ideogram v4.0 发布：2K 分辨率和 JSON 提示支持

介绍 Ideogram v4.0。原生 2K 分辨率，出色的文字渲染，支持 JSON 提示词。立即在 Krea 中体验。

AI HOT原文

56

06/04 01:38X：Elvis Saravia (@omarsar0, DAIR.AI)模型

Miso One 8B开源情感TTS模型发布

Miso Labs 开源 8B 参数文本转语音模型 Miso One，专注于生成富有情感的表达，如温暖、犹豫或兴奋，告别机械音。模型专为短视频、播客和教育内容等旁白场景设计，推理延迟仅 110 毫秒，快于人类反应时间。模型权重完全开源，支持自托管、微调和数据私有化，API 即将开放。

AI HOT原文

57

06/04 01:36X：阿易 AI Notes (@AYi_AInotes)模型

Ideogram 4.0 开源图像模型仅次于前两名

世界最好的开源图像模型，仅次于GPT-image-2和Nanobanana2

AI HOT原文

58

06/04 01:09Hacker News 热门（buzzing.cc 中文翻译）模型

Gemma 4 12B：一种统一的、无需编码器的多模态模型

Gemma 4 12B 是 Google 发布的一款统一架构、无需独立视觉编码器的多模态大语言模型（LLM）。该模型直接处理图像与文本输入，无需传统视觉编码器，简化了多模态推理流程。基于 12B 参数规模，Gemma 4 12B 面向开发者工具生态开放。目前其具体 benchmark 分数、上下文窗口、价格及开源/API 可用性等细节尚未披露。

AI HOT原文

59

06/04 00:54X：NVIDIA (@nvidia)模型

NVIDIA Cosmos 3 登顶 7 项物理 AI 排行榜

🏆 Cosmos 3 刚刚登顶 7 个物理 AI 排行榜。 NVIDIA CosmosTM 3，面向物理 AI 的开放全模态模型，在世界生成、机器人行动策略和工业视觉理解方面均排名第一。 🌎 世界生成：Artificial Analysis、PAI-Bench、Physics-IQ、R-Bench 🤖 机器人策略：RoboLab 👁️ 视觉：VANTAGE-Bench、TAR 一个模型。覆盖物理 AI 的每个领域。现已可通过 Hugging Face 获取 ▶️ https：//nvda.ws/4e09TbR

AI HOT原文

60

06/04 00:32X：Kim (@kimmonismus)模型

Miso One 开源语音模型：8B 参数、110ms 延迟、一次语音克隆

Miso One 正式发布，一个 8B 参数的开源权重语音模型（TTS），旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆（只需短样本），推理延迟仅 110ms。模型权重已开源至 GitHub，无需 API 即可自托管，音频数据不离开本地。API 访问即将推出。演示已上线，可先试听再克隆仓库。

AI HOT原文

Daily

AI 日报 · 6月5日

01模型发布/更新4 条

02产品发布/更新8 条

03行业动态7 条

04论文研究3 条

05技巧与观点7 条

阅读完整日报