AI技术分享

模型发布/更新

1. NVIDIA 发布 Nemotron-Labs-TwoTower 开放权重扩散语言模型

MarkTechPost（RSS） · 3 天前

NVIDIA 发布 Nemotron-Labs-TwoTower，基于冻结的自回归骨干 Nemotron-3-Nano-30B-A3B 的扩散语言模型。采用双塔架构：上下文塔冻结，降噪器塔训练，通过层对齐交叉注意力和状态播种协作。在 2×H100 上 BF16 评估，保留 98.7% 的 AR 基线质量，生成吞吐量提升 2.42 倍（γ=0.8，块大小 S=16）。降噪器在约 2.1T token 上训练，骨干使用 25T token 预训练。总参数约 60B，每 token 活跃参数约 3B/塔。支持扩散、模拟 AR 和 AR 三种解码模式。

2. Anthropic 宣布 Claude Fable 5 于 7 月 1 日起恢复上线

X：宝玉 (@dotey) · 3 天前

Anthropic 的 Claude Fable 5 于 7 月 1 日恢复上线。Pro、Max、Team 及部分 Enterprise 用户在 7 月 7 日前每周可用限额的 50%，之后改为按使用积分计费；标准 Enterprise 席位无免费额度，全部按积分计费。AWS、Google Cloud、Microsoft Foundry 接入仍在恢复中。Mythos 5 仅对经美国政府批准的美国机构开放。Anthropic 称 Fable 5 将配备新分类器以阻止网络安全任务，短期常规任务回退至 Opus 4.8。公司正与 Amazon、Microsoft、Google 等 Glasswing 合作伙伴起草共识框架，用于评估 AI 越狱严重性及响应机制，并扩大与美国政府在模型预发布评估、越狱信息共享方面的合作。

3. 美团 LongCat-2.0 正式发布：国产算力集群训练的万亿参数大模型

公众号：龙猫LongCat（美团） · 3 天前

美团于6月30日发布新一代万亿参数大模型LongCat-2.0并开源。总参数1.6T，平均激活约48B，原生支持1M超长上下文，在五万卡国产算力集群上完成全流程训练与推理。采用LSA稀疏注意力、零计算专家、ScMoE及MOPD多专家融合（Agent/Reasoning/Interaction三组专家）架构。评测中SWE-bench Pro获59.5，SWE-bench Multilingual获77.3。预览版已通过OpenRouter和longcat.ai开放，月调用量跻身OpenRouter全球前三。

产品发布/更新

4. Claude Code v2.1.198 发布

Claude Code：GitHub Releases（RSS） · 2 天前

Claude Code v2.1.198 更新。Claude in Chrome 现已全面可用。为 claude agents 新增后台智能体通知（agent_needs_input / agent_completed）。新增 /dataviz 技能，提供图表与仪表盘设计指导及配色验证器。Gateway 增加 AWS 上的 Claude Platform 作为上游提供商。后台智能体在 worktree 中完成代码后自动提交、推送并创建草稿 PR。内置 Explore 智能体现继承主会话模型（上限 opus）。修复网络短暂断开导致响应中断、后台任务卡在"Running"状态、智能体团队队友因 API 错误失败等问题。

5. Google Cloud Workbench Notebooks 扩展发布：在 VS Code 中连接云端 Jupyter 环境

Google Developers Blog（RSS） · 2 天前

Google Cloud Workbench Notebooks 扩展正式上线，开发者可在 VS Code 中直接连接可扩展的云端 Jupyter 环境，无需切换上下文即可利用高性能 Google Cloud 基础设施完成机器学习全流程。该扩展已完全开源，可在 GitHub 和 VS Code Marketplace 获取。

6. 智谱推出GLM-5.2官方开发环境ZCode

X：智谱 Z.ai (@Zai_org) · 2 天前

推出 ZCode，GLM-5.2 的官方开发环境 - GLM Coding Plan 订阅用户：现可在 ZCode 获得 1.5 倍使用配额 - 支持 BYOK：可与您现有的订阅和 API 配合使用 - 适用于 macOS、Windows 和 Linux 立即下载：http：//zcode.z.ai/en

7. xAI 推出 Voice Agent Builder 语音智能体平台

X：xAI (@xai) · 2 天前

介绍 Voice Agent Builder：一个无代码平台，可使用 Grok Voice 创建类人语音智能体。今日可用，$0.05 / 分钟。 http：//x.ai/voice

8. Cloudflare 推出全新AI流量管理选项：区分搜索、智能体与训练爬虫，保护广告页面

Cloudflare Blog · 3 天前

Cloudflare 为所有网站所有者提供更精细的AI流量管控选项，取代一刀切的屏蔽方式。用户可轻松区分并管理搜索爬虫、AI智能体爬虫和训练爬虫，同时新增保护广告变现页面的能力。

9. xAI 发布 Voice Agent Builder 测试版

xAI：News（网页） · 3 天前

xAI 推出 Voice Agent Builder 测试版，这是一个基于 Grok Voice 的无代码平台，可在两分钟内创建生产级语音智能体。它集成电话、知识检索、工具、MCP、Guardrails 及可观测性，支持连接现有 SIP 号码、API 和 WebSocket，采用语音到语音路径。在 τ-voice Bench 上，Grok Voice Think Fast 1.0 得分 67.3%，领先 Gemini 3.1 Flash Live（43.8%）和 GPT Realtime 1.5（35.3%）。定价为每分钟音频 0.05 美元、电话费 0.01 美元，提供 80+ 种语音及声音克隆，每个账户附赠一个免费电话号码。

行业动态

10. Cloudflare新政策：默认屏蔽混合爬虫，推动AI公司付费

TechCrunch：AI（RSS） · 2 天前

Cloudflare宣布，自2026年9月15日起，其默认设置将屏蔽同时用于搜索、AI智能体及训练的"混合用途"爬虫访问托管广告的页面，除非站点所有者手动调整。此举旨在保护出版商内容不被无偿使用。同时将原有的"Pay Per Crawl"模式升级为"Pay Per Use"，允许出版商在内容创造价值时向AI公司收费，初期合作方为Ceramic.ai和You.com。Cloudflare数据显示，AI爬虫超过50%的抓取流量浪费在重复获取未变更页面上。新政策适用于新客户、现有客户的新站点及所有现有免费客户。

11. Meta效仿SpaceX，将过剩AI算力变现

TechCrunch：AI（RSS） · 3 天前

据Bloomberg报道，Meta正计划推出云基础设施业务Meta Compute，对外出售AI计算能力和模型访问权限，直接与AWS、Google Cloud及Azure竞争。Meta已承诺未来几年投入1829亿美元建设AI基础设施，其中俄亥俄州数据中心（规模如曼哈顿）将于今年上线。新业务由基础设施主管Santosh Janardhan、Meta超级智能实验室负责人Daniel Gross和总裁Dina Powell McCormick领导。Meta可能效仿CoreWeave出售裸计算能力，并像AWS一样托管AI模型（包括近期发布的闭源模型Muse Spark）。扎克伯格此前已表示云业务"definitely on the table"。

12. OpenAI论文揭示GPT-5.6三个Pro变体，打破单一顶级策略

The Decoder：AI News（RSS） · 3 天前

OpenAI论文首次列出GPT-5.6的三个Pro变体：Luna Pro、Terra Pro和Sol Pro，取代以往单一Pro模式。在基因组学基准中，Sol Pro通过率31.5%居60个测试模型之首，领先标准Sol（28.7%）和Claude Opus 4.8（16.0%）。Pro相比标准版本提升逐级递减：Luna Pro提升7.1个百分点（16.5%→23.6%），Terra Pro提升5.2（23.3%→28.5%），Sol Pro仅提升2.8（28.7%→31.5%）。Terra Pro（28.5%）几乎与标准Sol（28.7%）持平。论文未披露Pro运行的token用量，也不清楚该分层是否会在ChatGPT中实际推出。

13. 亚马逊 AWS 砸 10 亿美元，派遣工程师进驻客户公司

IT之家（RSS） · 3 天前

亚马逊 AWS 宣布设立新部门，组建前置驻场工程师团队，先期投入 10 亿美元（约 67.97 亿元人民币）。团队分批派驻客户企业，每批 5-6 组工程师，驻场周期 45 天，协助客户落地人工智能软件与智能体应用。该模式在 Palantir、Salesforce、Anthropic、谷歌云等企业已有先例，领英数据显示 2023 至 2025 年间同类岗位需求增长 42 倍。新部门员工规模将达数千人，首批客户包括 NBA 与理光。

14. Anthropic在Claude Code中植入隐写术代码识别中国用户

公众号：数字生命卡兹克 · 3 天前

Anthropic在Claude Code中植入隐写术：读取本地时区（Asia/Shanghai或Asia/Urumqi）和ANTHROPIC_BASE_URL环境变量，与一份经base64+XOR（密钥91）加密的147个域名列表（含美团、字节跳动、月之暗面等）比对，识别中国用户。识别后，在请求发送前将系统提示词中日期字符串的单引号（U+0027）替换为其他Unicode字符，连字符改为斜杠，作为2-3比特分类标记传回服务器。该隐蔽行为被社区逆向发现后引发争议，被认为破坏用户信任。

论文研究

15. RL微调VLM的鲁棒性与思维链一致性研究

Apple Machine Learning Research（RSS） · 2 天前

强化学习（RL）微调被扩展至视觉语言模型（VLM）。研究发现，简单的文本扰动--误导性标题或错误思维链（CoT）--会显著降低模型鲁棒性和置信度，且开源模型衰退更明显。闭源模型呈现类似失败模式，但鲁棒性和推理一致性更强。进一步分析揭示准确性与忠实性的权衡：微调提升基准准确率，但同时侵蚀CoT的可靠性及对上下文变化的鲁棒性；对抗性增强可改善鲁棒性，却无法阻止忠实性漂移。引入忠实性感知奖励能恢复答案与推理的对齐，但与增强结合时训练易崩溃到捷径策略。这些发现强调需联合关注正确性、鲁棒性与视觉推理的忠实性。

16. VideoFlexTok：可变长度粗到细视频分词

Apple Machine Learning Research（RSS） · 2 天前

VideoFlexTok提出一种可变长度token序列的视频表示方法，采用粗到细结构--首个token捕捉语义和运动等抽象信息，后续token添加精细细节，生成流解码器支持任意token数量的视频重建。相比传统3D网格分词，该结构允许根据下游需求调整token数，在相同预算下编码更长视频。在类别和文本到视频生成任务中，VideoFlexTok以1.1B参数（5.2B的1/5）达到可比生成质量（gFVD和ViCLIP Score）。训练一个处理10秒81帧视频的文本到视频模型仅需672个token，比同等3D网格分词器少8倍。

17. 多智能体团队阻碍专家发挥

Apple Machine Learning Research（RSS） · 2 天前

在自我组织的多智能体LLM系统中，团队无法有效利用专家成员的专业知识。在多个基准测试中，即使明确告知专家身份，团队表现仍落后于最佳成员（专家智能体）的独立能力，性能损失最高达41.1%。失败主因是未能有效利用专家意见，而非识别专家。对话分析显示，团队倾向于"整合性妥协"--平均化专家与非专家观点，随团队规模增大而加剧，且与表现负相关。这种寻求共识的行为同时提升了对抗恶意智能体的鲁棒性，揭示了协同对齐与专业利用之间的根本性权衡。

技巧与观点

18. Emil Kowalski 发布设计工程师 Skills，让 AI 编码工具具备 UI 动画审美

X：邵猛 (@shao__meng) · 2 天前

Emil Kowalski 将多年 UI/动画原则沉淀为三个 Skill，使 Codex、Claude Code、Cursor 等 Coding Agents 具备资深设计工程师的审美判断。核心规则：动画必须有理由；每天 100+ 次的高频操作禁用动画；UI 动画控制在 300ms 内；只动画 transform 和 opacity；入口从 scale（0.95）+opacity：0 开始；尊重 prefers-reduced-motion（仅移除位移动画）。review-animations 以严格标准审查动画代码，输出 Before/After/Why 表格。animation-vocabulary 将模糊描述（如"弹一下的效果"）转为专业动效术语。

19. Meta 大规模 AI 存储蓝图

Meta Engineering Blog（RSS） · 2 天前

Meta 运营数百 EB 级存储集群，基于 Tectonic 分层存储层构建 BLOB 存储架构，以应对两大挑战：最大化 GPU 利用率与研究迭代速度。传统 BLOB 架构的多层元数据查询可导致数百毫秒延迟，使 GPU 因 I/O 等待停顿。新架构将训练栈逐步迁移到 BLOB 存储接口上，利用闪存提供可预测的低 pMax 延迟，避免单 GPU 慢速拖慢整批任务。同时，统一的数据湖访问支持地理分布 GPU 间的数据高速注入与跨区移动，提升研究效率。

20. mattpocockuk 的 /writing-great-skills：编写可预测 AI Skill 的指南

X：邵猛 (@shao__meng) · 3 天前

mattpocockuk 的 /writing-great-skills 成为其最常调用的 Skill，指导如何编写稳定可预测的 AI Skill。核心：以过程可预测为目标；区分 model-invoked（自动触发）与 user-invoked（用户调用），description 应作触发器；采用三层信息结构（主步骤、参考、外部文件）实现渐进式披露；每步骤需明确完成标准；拆分 Skill 是为了控制模型注意力；利用 leading word 压缩行为要求。同时诊断五种失败模式：Premature completion、Duplication、Sediment、Sprawl、No-op，并提供 No-op 测试作为判断句子是否有效的标准。

数据来源：aihot.virxact.com · 上次更新 2026-07-04T10:07:01