AI技术分享

模型发布/更新

1. Claude Sonnet 5 发布，系 Sonnet 系列最强智能体模型

IT之家（RSS） · 3 天前

Anthropic 推出 Claude Sonnet 5，称其为 Sonnet 系列中智能体能力最强的模型，能制定计划、调用浏览器和终端等工具并自主运行。已上线 Claude Code 和 Claude Platform，API 指定"claude-sonnet-5"。优惠期（至 2026 年 8 月 31 日）每百万 tokens 输入 2 美元、输出 10 美元；之后分别涨至 3 美元和 15 美元。性能在 BrowseComp、OSWorld-Verified 等评测中较 Sonnet 4.6 显著提升，部分接近 Opus 4.8。安全方面，整体不良行为发生率低于 Sonnet 4.6，在拒绝恶意请求、抵抗提示注入、幻觉率和迎合性上均有改善。

2. Anthropic 发布 Claude Sonnet 5：中端智能体模型，基准与定价详解

MarkTechPost（RSS） · 3 天前

Anthropic 发布 Claude Sonnet 5，定位为最具智能体能力的中端模型，即日起成为 Free 和 Pro 计划的默认模型。在 SWE-bench Pro 上得分 63.2%（前代 58.1%），OSWorld-Verified 达 81.2%（前代 78.5%），HLE（带工具）57.4%。输入/输出定价 2026 年 8 月 31 日前 $2/$10 每百万 token，之后 $3/$15。支持低/中/高/超高四档 effort 级别，低中 effort 下性价比最优。上下文窗口 1M token，采用新 tokenizer，相同文本 token 数增长约 1.0-1.35 倍。幻觉与谄媚率低于前代。开发者仅需更换模型字符串为 `claude-sonnet-5` 即可调用 API。

3. Claude Sonnet 5 发布

Anthropic：Newsroom（网页） · 3 天前

Claude Sonnet 5 是 Anthropic 推出的最新 Sonnet 模型，具备计划、浏览器和终端工具使用能力，可自主运行。性能接近 Opus 4.8，定价更低：即日起至 2026 年 8 月 31 日，输入 token $2/百万，输出 $10/百万，之后恢复为 $3/百万输入和 $15/百万输出。相比 Sonnet 4.6，在推理、工具使用、编程和知识工作等智能体能力上大幅提升。在 BrowseComp 和 OSWorld-Verified 评测中严格优于 Sonnet 4.6。安全评估显示不良行为率更低，幻觉和谄媚减少，但网络安全能力弱于 Opus 4.8。即日起在所有套餐及 Claude Code、Claude API 中可用。

4. Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash

Google DeepMind：Blog（RSS） · 4 天前

Google DeepMind 推出 Nano Banana 2 Lite（gemini-3.1-flash-lite-image），为 Nano Banana 系列速度最快、成本最低的图像模型，文本到图像输出仅需 4 秒，每 1K 分辨率图像成本 $0.034，已上线 Google AI Studio、Gemini API 及消费者产品（AI Mode in Search、Gemini app 等）。同时推出 Gemini Omni Flash（gemini-omni-flash-preview），支持高画质视频生成与对话式编辑，视频输出定价 $0.10/秒，面向开发者开放 API。

产品发布/更新

5. NotebookLM Short Video Overviews 全量上线 Web 英文版

X：NotebookLM (@NotebookLM) · 3 天前

NotebookLM 正式向 Web 英文用户全量推出 Short Video Overviews（短视频概览）功能。该功能可将复杂资料自动转化为 60 秒竖屏视频，深入讲解任意概念。此前，这一功能已面向 Google AI Ultra 和 Pro 订阅者（移动端及 Web）推出，免费用户即将可用。

6. Acti 将 AI 智能体直接放入手机键盘

TechCrunch：AI（RSS） · 3 天前

新加坡初创公司 Acti 发布基于 Google Gemini 的智能体键盘，可代替用户在应用中执行操作。核心功能 Skills 允许用自然语言创建快捷方式，如长按 T 键翻译消息、C 键发送会议链接。早期测试者两周内创建超 1000 个 Skills。采用本地优先架构，默认不访问私人消息。公司获 530 万美元种子轮融资，由 BITKRAFT Ventures 领投，现已开放下载。

7. Claude Science 科研工作台正式上线

Anthropic：Newsroom（网页） · 3 天前

Anthropic 推出 AI 科研工作台 Claude Science，整合常用工具与计算资源，支持从文献分析到多步骤研究的全流程。提供超 60 项预配置技能与连接器，覆盖基因组学、单细胞、蛋白质组学、结构生物学、化学信息学等领域；可在macOS/Linux本地运行，或通过SSH/HPC远程使用。生成含代码和环境的可审计成果（3D蛋白质结构、基因组浏览器轨迹等），内置reviewer agent自动检查引用与计算错误。通过NVIDIA BioNeMo接入Evo 2、Boltz-2等模型，也支持连接自有模型与管道。今日以beta版面向Claude Pro、Max、Team和Enterprise用户开放。

8. ADK Go 2.0 发布：构建可靠的多智能体应用，新增基于图的工作流引擎、人工参与循环与动态编排

Google Developers Blog（RSS） · 3 天前

Agent Development Kit （ADK） for Go 2.0 发布，引入了一类基于图的工作流引擎，用于组合复杂多智能体应用。新版本内置人工参与循环（HITL）编排、使用纯 Go 代码的动态执行、以及指数退避重试等自动弹性特性。统一执行模型后，单智能体应用与复杂图均运行在同一运行时上，简化了遥测与状态持久化。

9. Apple Creator Studio 更新：更智能、更快速、更互联

Apple：Newsroom（RSS） · 3 天前

Apple Creator Studio 推出多项 AI 增强更新。Final Cut Pro 新增 on-device AI 驱动的 Generate Captions（自动转录音频生成字幕）和 Edit Detection（自动检测剪辑点）。Mac 版加入 Auto Mask（自动识别皮肤、天空等主体）、增强的 Match Color 和 Advanced Trimming。支持将帧发送至 Pixelmator Pro 编辑，并在 Keynote、Pages、Numbers 中直接调用 Pixelmator Pro 修改图片。Logic Pro 新增 Grammy 制作人制作的 Producer Project 及 Chord ID 改进。订阅价 $12.99/月或 $129/年，新用户免费试用一个月，教育用户 $2.99/月。

10. 用 shot-scraper video 让 AI 智能体录制工作演示视频

Simon Willison 博客 · 3 天前

shot-scraper 1.10 新增 shot-scraper video 命令，支持通过 storyboard.yml 文件定义操作步骤，并利用 Playwright 录制浏览器视频。演示视频展示了 Datasette 中从粘贴的 CSV/TSV/JSON 数据创建新表的功能。该功能依赖 Playwright 1.61.0 新增的 screencast 机制，解决了此前视频开头白帧、宽度固定 800px 等问题。开发者 Simon Willison 强调，将 --help 输出设计得足够详细，可使编码 Agent 直接利用该命令生成演示视频。

11. Claude Desktop 推出 Linux 公测版

X：Claude Devs (@ClaudeDevs) · 4 天前

Claude Desktop 现已在 Linux（Ubuntu 和 Debian）上推出测试版。除了浏览器和终端，你现在可以在所有付费计划中获得一流的桌面体验，包括 Claude Code、Claude Cowork 和聊天。

行业动态

12. 库克与欧盟科技主管就新版Siri AI举行建设性会谈

IT之家（RSS） · 3 天前

苹果CEO库克与欧盟科技事务负责人维尔库宁就新版Siri AI在欧推出举行建设性视频会议。新版Siri将转为可调用用户个人数据的聊天机器人，但因《数字市场法》互操作义务苹果拒绝向竞争对手开放同等数据权限，暂不在欧盟iPhone和iPad上推出。苹果提出"可信系统代理"方案，拟在设备与第三方AI模型间增加软件层，但未开发，并要求18个月监管宽限期，遭欧盟拒绝。欧盟收到数百封消费者邮件及死亡威胁。

13. Meta秘密测试ChatGPT等竞品：承包商假扮未成年发送数万条危机提示

The Decoder：AI News（RSS） · 4 天前

Meta通过承包商Covelen发起代号"Cannes"的项目，雇佣数百人假扮未成年人，向ChatGPT、Gemini和Character.AI发送关于自杀、自残、饮食障碍和毒品的敏感提示，并将回复录入表格。2025年8月一轮测试中发送了超过4.5万条提示。Meta称这是行业标准安全测试，未将数据用于训练自家模型。被测试公司不知情--Character.AI表示违反其服务条款，OpenAI已调查，Google称未批准。青少年使用AI聊天机器人引发的担忧持续，此前已有用户自杀事件。

14. 黑石未来3~5年拟投300亿美元在日本建AI数据中心，联合成立AI XPV平台

IT之家（RSS） · 4 天前

黑石计划未来3~5年在日本AI数据中心领域投资300亿美元，此前的500MW基础上新增超1GW容量。黑石总裁认为AI投资仍处早期，真正风险是算力短缺而非基建泡沫；谷歌、亚马逊是英伟达潜在挑战者。此外，黑石、阿波罗、博通本月9日成立AI XPV平台，目标2028年向OpenAI、Anthropic等提供超20GW算力，首期350亿美元支持Anthropic在Fluidstack数据中心部署1GW基础设施。

15. 特斯拉Cybercab量产版在奥斯汀启动公开道路工程测试

IT之家（RSS） · 4 天前

2026年6月30日，特斯拉在奥斯汀公共道路启动首批量产版Cybercab工程测试。车辆无方向盘与脚踏板，配有安全监督员，马斯克发布实拍视频。从2024年10月概念车首秀到实车上路约20个月。目前不对外开放乘客，投入34台Cybercab在市中心验证硬件可靠性。Cybercab为双座车型，完全围绕无人驾驶打造，无后期改装。此前奥斯汀已有无安全员Model Y无人驾驶出租于1月启用、6月22日开放付费服务。

论文研究

16. AI 用 prover-verifier LLM 循环攻克 9 个未解数学难题

X：AI Safety Memes (@AISafetyMemes) · 3 天前

AI Safety Memes 推文指出，AI 刚刚解决了 9 个未解决的数学问题，但全球没有记者报道。引用 @WeinsteinOmri 的推文称，采用"prover-verifier"LLM 循环的方法，成功解决了理论计算机科学中 9 个重大开放问题，其中包括一个困扰其长达 2 年的难题。该研究由哥伦比亚大学合作者完成，并计划将这一方法扩展到所有科学领域。

技巧与观点

17. 构建AI智能体应优先设计路由

Tomer Tunguz 博客（VC 分析） · 3 天前

构建AI智能体时，应优先设计路由（router）而非选择模型。路由决定每个请求由哪层模型处理。正确路由可使70-80%流量运行在免费本地模型或异步推理上，将AI开销降低90%+。Brian Armstrong指出Coinbase通过更好的默认设置、路由和缓存，在token使用量增长的同时将AI支出减半。路由分三层：技能分类器、路由器、模型选择器。本地计算近乎零成本，异步批量推理比实时推理便宜两个数量级。大多数工作无需秒级返回。同步预测器标记复杂任务，夜间批量评估器更新路由权重。技能蒸馏后，非编码类任务中70-80%智能体流量可由本地模型处理。

18. Claude Code 入门：智能体循环

Claude：Blog（网页） · 3 天前

Claude Code 团队将智能体循环定义为 agent 重复工作直到满足停止条件的过程，并划分出四种主要类型：turn-based 循环（用户提示触发，Claude 自行判断完成或需更多上下文）、goal-based 循环（通过 `/goal` 命令设定可验证完成标准与最大轮次）、time-based 循环（通过 `/loop` 按时间间隔重复执行，可用 `/schedule` 移至云端）、以及 proactive 循环（基于事件或计划自动运行，无人实时参与）。文章还介绍了如何编写 SKILL.md 文件将人工验证步骤编码，让 Claude 进行端到端自检，减少 turn-based 循环中的手动操作。

19. Grant Sanderson 谈 AI 与数学的未来

Dwarkesh Patel：Podcast & Blog（RSS） · 4 天前

3Blue1Brown 创办人 Grant Sanderson 正在制作记录 AI 在数学领域进展的新项目。他在与 Dwarkesh Patel 的对谈中指出，AI 在 IMO 获金牌并不等于 AGI，只是又一个被攻克的基准。即使 AI 未来解决千禧年大奖难题，仍可能存在大量人类任务无法被自动化。对话还探讨了概念突破验证周期可长达一个世纪、Riemann 假设的 AI 证明能否被人类理解、AI 能否在已有文献间发现隐藏联系，以及现实经济任务难以套用强化学习环境等话题。

20. OpenAI Signals 数据揭示 ChatGPT 全球采用趋势

OpenAI：官网动态（RSS · 排除企业/客户案例） · 4 天前

OpenAI Signals 数据显示，用户注册六个月后日均消息量增加50%，尝试任务种类翻倍。自2023年7月以来，各大洲活跃用户均大幅增长，非洲和亚洲增速最快，低人类发展指数国家增长尤为显著。用户群体更加多元化，女性名字用户已占全球多数，巴西、哥伦比亚、波兰和纳米比亚等国女性用户显著多于男性。非英语用户占活跃用户半数以上，领先语言为西班牙语、葡萄牙语和阿拉伯语；乌兹别克语、哈萨克语和缅甸语用户占比增长百分比最大。

数据来源：aihot.virxact.com · 上次更新 2026-07-04T10:07:01