AI技术分享

模型发布/更新
MarkTechPost(RSS) · 3 天前
NVIDIA 发布 Nemotron-Labs-TwoTower,基于冻结的自回归骨干 Nemotron-3-Nano-30B-A3B 的扩散语言模型。采用双塔架构:上下文塔冻结,降噪器塔训练,通过层对齐交叉注意力和状态播种协作。在 2×H100 上 BF16 评估,保留 98.7% 的 AR 基线质量,生成吞吐量提升 2.42 倍(γ=0.8,块大小 S=16)。降噪器在约 2.1T token 上训练,骨干使用 25T token 预训练。总参数约 60B,每 token 活跃参数约 3B/塔。支持扩散、模拟 AR 和 AR 三种解码模式。
X:宝玉 (@dotey) · 3 天前
Anthropic 的 Claude Fable 5 于 7 月 1 日恢复上线。Pro、Max、Team 及部分 Enterprise 用户在 7 月 7 日前每周可用限额的 50%,之后改为按使用积分计费;标准 Enterprise 席位无免费额度,全部按积分计费。AWS、Google Cloud、Microsoft Foundry 接入仍在恢复中。Mythos 5 仅对经美国政府批准的美国机构开放。Anthropic 称 Fable 5 将配备新分类器以阻止网络安全任务,短期常规任务回退至 Opus 4.8。公司正与 Amazon、Microsoft、Google 等 Glasswing 合作伙伴起草共识框架,用于评估 AI 越狱严重性及响应机制,并扩大与美国政府在模型预发布评估、越狱信息共享方面的合作。
公众号:龙猫LongCat(美团) · 3 天前
美团于6月30日发布新一代万亿参数大模型LongCat-2.0并开源。总参数1.6T,平均激活约48B,原生支持1M超长上下文,在五万卡国产算力集群上完成全流程训练与推理。采用LSA稀疏注意力、零计算专家、ScMoE及MOPD多专家融合(Agent/Reasoning/Interaction三组专家)架构。评测中SWE-bench Pro获59.5,SWE-bench Multilingual获77.3。预览版已通过OpenRouter和longcat.ai开放,月调用量跻身OpenRouter全球前三。
产品发布/更新
Claude Code:GitHub Releases(RSS) · 2 天前
Claude Code v2.1.198 更新。Claude in Chrome 现已全面可用。为 claude agents 新增后台智能体通知(agent_needs_input / agent_completed)。新增 /dataviz 技能,提供图表与仪表盘设计指导及配色验证器。Gateway 增加 AWS 上的 Claude Platform 作为上游提供商。后台智能体在 worktree 中完成代码后自动提交、推送并创建草稿 PR。内置 Explore 智能体现继承主会话模型(上限 opus)。修复网络短暂断开导致响应中断、后台任务卡在"Running"状态、智能体团队队友因 API 错误失败等问题。
Google Developers Blog(RSS) · 2 天前
Google Cloud Workbench Notebooks 扩展正式上线,开发者可在 VS Code 中直接连接可扩展的云端 Jupyter 环境,无需切换上下文即可利用高性能 Google Cloud 基础设施完成机器学习全流程。该扩展已完全开源,可在 GitHub 和 VS Code Marketplace 获取。
X:智谱 Z.ai (@Zai_org) · 2 天前
推出 ZCode,GLM-5.2 的官方开发环境 - GLM Coding Plan 订阅用户:现可在 ZCode 获得 1.5 倍使用配额 - 支持 BYOK:可与您现有的订阅和 API 配合使用 - 适用于 macOS、Windows 和 Linux 立即下载:http://zcode.z.ai/en
X:xAI (@xai) · 2 天前
介绍 Voice Agent Builder:一个无代码平台,可使用 Grok Voice 创建类人语音智能体。 今日可用,$0.05 / 分钟。 http://x.ai/voice
Cloudflare Blog · 3 天前
Cloudflare 为所有网站所有者提供更精细的AI流量管控选项,取代一刀切的屏蔽方式。用户可轻松区分并管理搜索爬虫、AI智能体爬虫和训练爬虫,同时新增保护广告变现页面的能力。
xAI:News(网页) · 3 天前
xAI 推出 Voice Agent Builder 测试版,这是一个基于 Grok Voice 的无代码平台,可在两分钟内创建生产级语音智能体。它集成电话、知识检索、工具、MCP、Guardrails 及可观测性,支持连接现有 SIP 号码、API 和 WebSocket,采用语音到语音路径。在 τ-voice Bench 上,Grok Voice Think Fast 1.0 得分 67.3%,领先 Gemini 3.1 Flash Live(43.8%)和 GPT Realtime 1.5(35.3%)。定价为每分钟音频 0.05 美元、电话费 0.01 美元,提供 80+ 种语音及声音克隆,每个账户附赠一个免费电话号码。
行业动态
TechCrunch:AI(RSS) · 2 天前
Cloudflare宣布,自2026年9月15日起,其默认设置将屏蔽同时用于搜索、AI智能体及训练的"混合用途"爬虫访问托管广告的页面,除非站点所有者手动调整。此举旨在保护出版商内容不被无偿使用。同时将原有的"Pay Per Crawl"模式升级为"Pay Per Use",允许出版商在内容创造价值时向AI公司收费,初期合作方为Ceramic.ai和You.com。Cloudflare数据显示,AI爬虫超过50%的抓取流量浪费在重复获取未变更页面上。新政策适用于新客户、现有客户的新站点及所有现有免费客户。
TechCrunch:AI(RSS) · 3 天前
据Bloomberg报道,Meta正计划推出云基础设施业务Meta Compute,对外出售AI计算能力和模型访问权限,直接与AWS、Google Cloud及Azure竞争。Meta已承诺未来几年投入1829亿美元建设AI基础设施,其中俄亥俄州数据中心(规模如曼哈顿)将于今年上线。新业务由基础设施主管Santosh Janardhan、Meta超级智能实验室负责人Daniel Gross和总裁Dina Powell McCormick领导。Meta可能效仿CoreWeave出售裸计算能力,并像AWS一样托管AI模型(包括近期发布的闭源模型Muse Spark)。扎克伯格此前已表示云业务"definitely on the table"。
The Decoder:AI News(RSS) · 3 天前
OpenAI论文首次列出GPT-5.6的三个Pro变体:Luna Pro、Terra Pro和Sol Pro,取代以往单一Pro模式。在基因组学基准中,Sol Pro通过率31.5%居60个测试模型之首,领先标准Sol(28.7%)和Claude Opus 4.8(16.0%)。Pro相比标准版本提升逐级递减:Luna Pro提升7.1个百分点(16.5%→23.6%),Terra Pro提升5.2(23.3%→28.5%),Sol Pro仅提升2.8(28.7%→31.5%)。Terra Pro(28.5%)几乎与标准Sol(28.7%)持平。论文未披露Pro运行的token用量,也不清楚该分层是否会在ChatGPT中实际推出。
IT之家(RSS) · 3 天前
亚马逊 AWS 宣布设立新部门,组建前置驻场工程师团队,先期投入 10 亿美元(约 67.97 亿元人民币)。团队分批派驻客户企业,每批 5-6 组工程师,驻场周期 45 天,协助客户落地人工智能软件与智能体应用。该模式在 Palantir、Salesforce、Anthropic、谷歌云等企业已有先例,领英数据显示 2023 至 2025 年间同类岗位需求增长 42 倍。新部门员工规模将达数千人,首批客户包括 NBA 与理光。
公众号:数字生命卡兹克 · 3 天前
Anthropic在Claude Code中植入隐写术:读取本地时区(Asia/Shanghai或Asia/Urumqi)和ANTHROPIC_BASE_URL环境变量,与一份经base64+XOR(密钥91)加密的147个域名列表(含美团、字节跳动、月之暗面等)比对,识别中国用户。识别后,在请求发送前将系统提示词中日期字符串的单引号(U+0027)替换为其他Unicode字符,连字符改为斜杠,作为2-3比特分类标记传回服务器。该隐蔽行为被社区逆向发现后引发争议,被认为破坏用户信任。
论文研究
Apple Machine Learning Research(RSS) · 2 天前
强化学习(RL)微调被扩展至视觉语言模型(VLM)。研究发现,简单的文本扰动--误导性标题或错误思维链(CoT)--会显著降低模型鲁棒性和置信度,且开源模型衰退更明显。闭源模型呈现类似失败模式,但鲁棒性和推理一致性更强。进一步分析揭示准确性与忠实性的权衡:微调提升基准准确率,但同时侵蚀CoT的可靠性及对上下文变化的鲁棒性;对抗性增强可改善鲁棒性,却无法阻止忠实性漂移。引入忠实性感知奖励能恢复答案与推理的对齐,但与增强结合时训练易崩溃到捷径策略。这些发现强调需联合关注正确性、鲁棒性与视觉推理的忠实性。
Apple Machine Learning Research(RSS) · 2 天前
VideoFlexTok提出一种可变长度token序列的视频表示方法,采用粗到细结构--首个token捕捉语义和运动等抽象信息,后续token添加精细细节,生成流解码器支持任意token数量的视频重建。相比传统3D网格分词,该结构允许根据下游需求调整token数,在相同预算下编码更长视频。在类别和文本到视频生成任务中,VideoFlexTok以1.1B参数(5.2B的1/5)达到可比生成质量(gFVD和ViCLIP Score)。训练一个处理10秒81帧视频的文本到视频模型仅需672个token,比同等3D网格分词器少8倍。
Apple Machine Learning Research(RSS) · 2 天前
在自我组织的多智能体LLM系统中,团队无法有效利用专家成员的专业知识。在多个基准测试中,即使明确告知专家身份,团队表现仍落后于最佳成员(专家智能体)的独立能力,性能损失最高达41.1%。失败主因是未能有效利用专家意见,而非识别专家。对话分析显示,团队倾向于"整合性妥协"--平均化专家与非专家观点,随团队规模增大而加剧,且与表现负相关。这种寻求共识的行为同时提升了对抗恶意智能体的鲁棒性,揭示了协同对齐与专业利用之间的根本性权衡。
技巧与观点
X:邵猛 (@shao__meng) · 2 天前
Emil Kowalski 将多年 UI/动画原则沉淀为三个 Skill,使 Codex、Claude Code、Cursor 等 Coding Agents 具备资深设计工程师的审美判断。核心规则:动画必须有理由;每天 100+ 次的高频操作禁用动画;UI 动画控制在 300ms 内;只动画 transform 和 opacity;入口从 scale(0.95)+opacity:0 开始;尊重 prefers-reduced-motion(仅移除位移动画)。review-animations 以严格标准审查动画代码,输出 Before/After/Why 表格。animation-vocabulary 将模糊描述(如"弹一下的效果")转为专业动效术语。
Meta Engineering Blog(RSS) · 2 天前
Meta 运营数百 EB 级存储集群,基于 Tectonic 分层存储层构建 BLOB 存储架构,以应对两大挑战:最大化 GPU 利用率与研究迭代速度。传统 BLOB 架构的多层元数据查询可导致数百毫秒延迟,使 GPU 因 I/O 等待停顿。新架构将训练栈逐步迁移到 BLOB 存储接口上,利用闪存提供可预测的低 pMax 延迟,避免单 GPU 慢速拖慢整批任务。同时,统一的数据湖访问支持地理分布 GPU 间的数据高速注入与跨区移动,提升研究效率。
X:邵猛 (@shao__meng) · 3 天前
mattpocockuk 的 /writing-great-skills 成为其最常调用的 Skill,指导如何编写稳定可预测的 AI Skill。核心:以过程可预测为目标;区分 model-invoked(自动触发)与 user-invoked(用户调用),description 应作触发器;采用三层信息结构(主步骤、参考、外部文件)实现渐进式披露;每步骤需明确完成标准;拆分 Skill 是为了控制模型注意力;利用 leading word 压缩行为要求。同时诊断五种失败模式:Premature completion、Duplication、Sediment、Sprawl、No-op,并提供 No-op 测试作为判断句子是否有效的标准。
← 上一页 3 / 10(共 200 条) 下一页 →
数据来源:aihot.virxact.com · 上次更新 2026-07-04T10:07:01
京ICP备2026022865号