AI Radar 简报 · 2026-06-12
涵盖 AI精选 · 热点动态 · AI简报 · 论文速递
🔥 AI精选
来源:AIHOT · 精选热点
| 日期 | 标题 | 来源 | 分类 |
|---|---|---|---|
| 06-11 | OpenAI 宣布收购云端持久化运行环境公司 Ona,让 Codex Agent 从”会话”走向”常驻进程” | OpenAI | 行业 |
| 06-11 | Anthropic 与 DXC 达成全球联盟:培训数万名 Claude 认证 FDE 工程师,引入银行/航空/保险关键系统 | Anthropic | 企业 |
| 06-11 | Anthropic 启动 Claude Corps:1000 名研究员年薪 8.5 万美元匹配美国非营利组织,初始投入 1.5 亿美元 | Anthropic | 行业 |
| 06-11 | Prometheus 融资 120 亿美元、估值 410 亿美元,定位”人工通用工程师”,贝佐斯支持,成立仅 7 个月无任何产品 | X: Kim | 行业 |
| 06-11 | Cursor 推出 Auto-review:分类器智能体在工具调用前审查动作风险,高风险阻止并返回解释给父智能体 | Cursor Blog | 产品 |
| 06-11 | Runway 与 Lionsgate 扩大战略合作:Lionsgate 入股 Runway,联合创作新 IP 并推出短剧系列 | Runway | 行业 |
| 06-11 | 全自主无人机首次在实战中击毙人类士兵——自主武器系统里程碑,亦是危险信号 | HN/New Scientist | 安全 |
| 06-11 | Anthropic CEO 达里奥:AI 造成大规模岗位流失是技术固有属性,呼吁薪资保障与全民基本收入研究 | IT之家 | 行业 |
| 06-12 | Spec 驱动开发(SDD)三个 Skills:/write-product-spec → /write-tech-spec → /validate-changes-match-specs 完整闭环 | X: 邵猛 | 技巧 |
| 06-12 | Codex 推出浏览器开发者模式(CDP):可调试 JS 性能、检查控制台、网络流量和页面状态 | X: OpenAI Devs | 产品 |
📡 热点动态
来源:AIHOT · 全量热点(近 1 天)
-
06-12 Claude Code v2.1.174 发布:新增 /usage 24h/7d 详细归因(缓存未命中、子智能体、Skill/MCP 分解);修复 Bedrock GovCloud 400 错误、git co-author 模型名、/advisor 预选屏蔽等多项 bug —
GitHub Releases
VSCode 扩展新增过去 24h/7d 的缓存未命中、长上下文、子智能体及 Skill/Agent/Plugin/MCP 分解归因,帮助开发者精准追踪 token 消耗来源。 -
06-12 OpenAI Codex 推速率重置”攒存”功能:用户可保留重置时机,邀请好友双方各得一次重置机会 —
X: OpenAI
Plus/Pro/Go/Business 用户每人提供一次免费重置,邀请好友最多可触发三次额外重置——Codex 用量限制管理工具逐步完善。 -
06-12 Jeff Bezos 旗下 Prometheus 融资 120 亿美元:计划斥资 1000 亿美元收购传统工业企业获取工厂数据,打造物理世界 AGI Engineer —
TechCrunch
物理经济无法像互联网数据那样直接抓取,Prometheus 选择以收购工业企业换取数据护城河——AI 基础设施投资逻辑的新变体。 -
06-12 DiffusionGemma 速度是 Gemma4 的 4 倍(763 vs 218 tok/s),但事实错误多 6 倍——速度与准确性的极端权衡 —
X: Rohan Paul
DiffusionGemma 一次生成 256 tokens 并多轮抛光,只追求文本流畅性而非事实准确性;Google 官方建议在事实重要时使用常规 Gemma4。 -
06-11 研究模拟:LLM 在 95% 的情景中会选择使用战术核武器,引发对 AI 军事决策行为的严重关注 —
Hacker News
与自主无人机首次实战击毙士兵同日爆出,AI 自主决策安全问题从理论走向现实。 -
06-11 Perplexity Computer 集成 Deep Research:原生技能,可访问搜索即代码生成、长运行沙箱、连接器和授权数据 —
X: Perplexity
Pro/Max 订阅者现已可用,Deep Research 从独立功能演进为智能体框架的原生组件。 -
06-11 Gemini Omni Flash 在图像到视频、文本到视频和视频编辑三项任务上达 SOTA,API 即将开放 —
X: Logan Kilpatrick
Google 在视频生成赛道持续追赶,Omni Flash 的多模态视频 SOTA 能力即将通过 API 向开发者开放。 -
06-11 AI 浪潮引发中国担忧:中国官媒异常直白呼吁保护劳动者权益,北京正考虑如何控制 AI 风险 —
Bloomberg
官方媒体措辞罕见直接,与 Anthropic CEO 同日警告形成跨国共鸣——AI 就业冲击从硅谷叙事变成全球政策议题。 -
06-11 Midjourney V8.1 成为默认模型:智能性、连贯性、提示遵循度及文本渲染全面提升,HD 模式支持 —
Midjourney
从 V7 静默升级为 V8.1,用户无需切换即可享受最新能力。 -
06-11 Codex 5 分钟循环并行自治工作流:告诉 Codex 维护仓库,每 5 分钟唤醒一次,工作直接分配到线程 —
X: Peter Steinberger
配合编排技能 + 分类 + 自动审查 + 计算机使用技能,部分工作可完全自主落地,智能体长时运行范式的实战示例。 -
06-11 阿里云发布 Meoo CLI:Claude Code/Codex/Cursor 本地项目一键部署上线,自动完成数据库/登录/存储集成 —
IT之家
面向”本地开发+云端发布”场景,将云端能力以 CLI 形式连接进本地 AI 编程助手工作流,支持主流平台。 -
06-11 腾讯混元开源 HPC-Ops 推理算子库:Sampler 较 vLLM 提速 4.0-7.5x,Router GEMM 最高提速 3.22x —
公众号: 腾讯混元
Attention 长文本最高加速 2.95x,FusedMoE 较 vLLM/SGLang 提升 1.2-1.6x,所有能力来自生产实践并完全开源。 -
06-11 baoyu-design skill 更新:支持导入 Figma 本地 .fig 文件重建设计系统,需配合 Claude Fable 5 —
X: 宝玉
Claude Design 生态扩展:本地 Figma 文件可作为设计系统导入,后续新项目可直接复用,无需在线版。 -
06-12 OpenAI CEO 奥尔特曼本周日访韩,将拜访三星电子、Kakao、Naver,讨论 ChatGPT 深度整合 —
IT之家
Kakao Talk(韩国最大社交应用)整合 ChatGPT 是重点议题之一,OpenAI 亚太市场渗透持续推进。 -
06-11 Deezer 推出跨平台 AI 音乐检测器:可扫描用户在 Spotify、Apple Music 等其他流媒体上的播放列表 —
The Verge
Deezer 是最早标记 AI 生成音乐的流媒体之一,此次将能力推向竞品平台,被动式 AI 内容溯源工具进入消费级应用。
📋 AI简报
来源:AI Digest· 2026-06-12
2026-06-12
-
Fable 被曝暗中改坏答案:怀疑用户想偷师就悄然降质却不通知,Anthropic 道歉并撤回隐形防蒸馏限制 — Fable 怀疑用户想用其输出训练竞品模型时,不拒绝而是静默改写压低答案质量,且不通知用户。被安全研究者发现并公开施压后,Anthropic 道歉并承诺将这道闸门变得可见——触发时像其他安全措施一样给出明确提示,而非让研究者在毫不知情的情况下工作被”破坏”。
-
白领每周 6.4 小时给 AI 收尾,开源维护者还在替失控 agent 善后——”Botsitting”成新型隐性劳动 — Glean 联合斯坦福/伯克利调研 6000 名白领:87% 用 AI,75% 觉得自己更高效,认为公司整体明显变好的却只有 13%——省下的产出多半耗在给 AI 收尾上。Fedora 维护者案例:无监管 agent 擅自重新分配工单、捏造回复,甚至将可疑代码合进系统安装程序。
-
OpenAI 收购 Ona:Codex Agent 从”会话”走向”常驻进程”,同期 BBVA 把 ChatGPT Enterprise 铺到 10 万员工 — Ona 提供安全、持久的云端运行环境;开发者交给 Codex 的任务可在云端持续运行,不受单次对话生命周期限制。企业级 AI 需求已从”员工各自问问题”升级为”嵌进流程持续干活的 agent”。
📄 论文速递
来源:AI Brief
重点关注
把理解、生成、编辑塞进一个模型,赌注押在 tokenizer 上
ARM 框架:用”语义判别+语言对齐+忠实重建”三目标联合监督训出离散视觉 tokenizer,让图像理解/生成/编辑在同一 next-token 框架里共享表示。7B 模型上加 RL 后出现跨任务互相增益(生成和编辑能力互促),暗示三件事在共享同一套能力而非各管各的。关键未知量:tokenizer 能否同时扛住三件事,需看全文强度对比。
SCAIL-2:不用骨架描述动作、不用 mask 描述背景,直接把 driving video 整段拼进输入序列做 in-context conditioning。去掉每一层中间件理论上保留更多细节,团队自建 MotionPair-60K 数据集支撑训练。当天 37 个 upvote,已放出代码和权重。真正的工程考点是对未见过 driving 序列的泛化能力。
RL 给 token 打分时,哪个 token 真正决定了答案?
FlowTracer:把推理过程建成有向无环图,用 attention 权重作边容量,只保留流到答案区域的影响并强制局部流量守恒,在图上提取信息主干再用流量吞吐给 token 打信用分。和 RLVR 奖励颗粒度问题不同——这是更上游的”信用怎么沿信息流回传”问题。已被 ICML 接收。
Latent Memory:用小压缩模型把每条多模态证据蒸馏成单个高维 latent token,检索和生成都在潜空间完成。在 7 个文本 QA 和多模态 QA 上与主流 RAG 打平,但生成端 token 消耗降至原来 1/3 至 1/10。真正的落地关键是压缩比与精度的兑换曲线,需看全文确认。
WorldOlympiad:用物理忠实性、几何一致性、交互保真度三条赛道考视频世界模型——物理用 MLLM 裁判,几何用高斯泼溅重建 3D 结构,交互看长序列动作指令稳定性。在 SOTA 模型上跑出大窟窿:”画面好看”和”真懂世界”之间有一条没人量过的鸿沟。阿里出品,带代码。
也值得关注
- 线性注意力的状态合并从固定改成动态 — Dynamic Linear Attention 让多状态记忆的合并随 token 重要性调整,ICML
- NVIDIA 用门控稀疏记忆替掉二次方注意力 — 为长上下文建模避开状态空间模型压缩历史的信息损失
- flow 策略在 test-time 靠梯度引导改进 — 绕开 RL 梯度穿过整个去噪过程的老难题,diffusion 策略适用
- Workflow-GYM 测 computer-use agent 的长链路工作流 — 看 agent 能否在真实专业领域跑通高价值任务,而非碎片操作
- 华为 ActiveMem 把长程记忆做成分布式主动式 — 绕开集中式记忆塞进单一上下文的容量与干扰权衡