|
| 1 | +--- |
| 2 | +title: "Awesome AI 日报 | 2026-05-25" |
| 3 | +date: "2026-05-25" |
| 4 | +tags: ["AI安全", "AI可穿戴设备", "AGI辩论", "Anthropic", "Claude Code", "字节跳动", "AI偏见", "微软Webwright", "NVIDIA", "StepFun"] |
| 5 | +summary: "Google AI安全实时应对挑战;Amazon Bee可穿戴设备评测;Hassabis与LeCun就AGI现状激辩;Anthropic可能继续向NSA供应Claude;Claude Code自主发现AI推理算法;字节跳动长文档训练新范式;AI模型默认选择的偏见风险;微软发布Webwright Web Agent框架;NVIDIA推出Gated DeltaNet-2;阶跃星辰发布StepAudio 2.5 Realtime" |
| 6 | +--- |
| 7 | + |
| 8 | +## 1. 所有人都在实时应对AI安全挑战——即便是Google |
| 9 | + |
| 10 | +AI安全领域正处于关键转型期,各大科技公司都在实践中摸索安全策略。TechCrunch报道指出,即使是Google这样的巨头也在实时应对AI安全带来的全新挑战。从模型部署到数据保护,行业尚未形成统一标准,每个参与者都在"边做边学"。 |
| 11 | + |
| 12 | +> **Awesome AI 观点:** AI安全不再是理论问题,而是每家AI公司的日常运营挑战。行业标准缺失意味着先行者拥有定义规则的机会,但也承担了更高的试错成本。 |
| 13 | +
|
| 14 | +来源:TechCrunch | 2026年5月24日 |
| 15 | +链接:https://techcrunch.com/2026/05/24/everyone-is-navigating-ai-security-in-real-time-even-google/ |
| 16 | + |
| 17 | +## 2. Amazon Bee可穿戴设备评测:便利与隐私焦虑并存 |
| 18 | + |
| 19 | +TechCrunch编辑体验了Amazon最新AI可穿戴设备Bee,认为它在提供便利的同时也引发了隐私方面的担忧。与其他AI穿戴设备类似,Bee能够在日常生活中提供AI辅助,但其持续感知和数据处理能力让人"既着迷又不安"。 |
| 20 | + |
| 21 | +> **Awesome AI 观点:** AI可穿戴设备的核心矛盾在于:功能越强,隐私侵入性越大。用户在便利与隐私之间的取舍,将决定这类产品的市场走向。 |
| 22 | +
|
| 23 | +来源:TechCrunch | 2026年5月24日 |
| 24 | +链接:https://techcrunch.com/2026/05/24/i-tried-amazons-bee-wearable-and-am-both-intrigued-and-slightly-creeped-out/ |
| 25 | + |
| 26 | +## 3. Hassabis与LeCun就AGI现状激辩:人类是否已站在"奇点山脚"? |
| 27 | + |
| 28 | +DeepMind创始人Demis Hassabis认为人类已经"站在奇点的山脚下",而Meta首席AI科学家Yann LeCun则坚称当前的AI系统并不具备真正的智能。Gemini联合负责人Oriol Vinyals持中间立场:今天的模型在七年前看起来就像AGI,但它们仍然无法从经验中学习或产生真正的突破。 |
| 29 | + |
| 30 | +> **Awesome AI 观点:** 这场辩论反映了AI界对"智能"定义的根本分歧。Hassabis从能力演进的角度看好AI前景,LeCun则从认知科学的角度指出当前架构的局限性。两者可能都有道理——我们确实取得了巨大进步,但距离真正的通用智能仍有本质差距。 |
| 31 | +
|
| 32 | +来源:The Decoder | 2026年5月24日 |
| 33 | +链接:https://the-decoder.com/deepminds-hassabis-sees-humanity-in-the-foothills-of-the-singularity-while-lecun-says-current-ai-isnt-intelligent/ |
| 34 | + |
| 35 | +## 4. Anthropic可能继续向NSA供应Claude,尽管被五角大楼标记为"供应链风险" |
| 36 | + |
| 37 | +尽管五角大楼将Anthropic标记为"供应链风险",该公司仍可能继续向美国国家安全局(NSA)提供AI模型。情报机构目前缺乏Nvidia最新的Grace Blackwell芯片,而Anthropic的"Mythos"模型据报运行在较旧的硬件上。此前谈判中引发争议的"任何合法用途"条款并未纳入此次合作。 |
| 38 | + |
| 39 | +> **Awesome AI 观点:** 这反映了AI公司在国家安全与商业利益之间的艰难平衡。供应链风险的标记并非禁令,但确实增加了合规成本。Anthropic的选择将影响整个AI行业与政府合作的先例。 |
| 40 | +
|
| 41 | +来源:The Decoder | 2026年5月24日 |
| 42 | +链接:https://the-decoder.com/anthropic-may-keep-supplying-claude-to-the-nsa-despite-being-flagged-as-a-supply-chain-risk-by-the-pentagon/ |
| 43 | + |
| 44 | +## 5. 研究人员让Claude Code自主发现AI推理算法,成本仅40美元 |
| 45 | + |
| 46 | +来自马里兰大学、Google和Meta等机构的研究人员使用AutoTTS框架,让Claude Code编程代理独立发现了AI推理的控制算法。该算法在保持与标准自洽性方法相同准确率的同时,将计算量减少了约70%。整个搜索过程仅花费40美元,耗时160分钟。 |
| 47 | + |
| 48 | +> **Awesome AI 观点:** 这是AI辅助AI研究的典型案例。用40美元和160分钟就发现了人类可能不会设计的优化算法,这预示着AI在优化自身训练和推理方法方面具有巨大潜力。AutoTTS框架可能成为AI研究的新范式。 |
| 49 | +
|
| 50 | +来源:The Decoder | 2026年5月24日 |
| 51 | +链接:https://the-decoder.com/researchers-let-claude-code-discover-ai-scaling-algorithms-that-humans-probably-wouldnt-have-designed/ |
| 52 | + |
| 53 | +## 6. 字节跳动研究:向大模型提问比让模型转录文本更适合长文档训练 |
| 54 | + |
| 55 | +字节跳动Seed团队的研究表明,7B参数的小型模型在回答长文档(含图像)问题时,可靠性甚至超过更大的模型,即使文档长度是其训练时的四倍。与传统逐页转录方法不同,该模型通过学习自主回答问题和定位关键信息来处理长文档。 |
| 56 | + |
| 57 | +> **Awesome AI 观点:** 这项研究挑战了长文档处理的传统范式。通过问答驱动的训练方式,小模型也能在长文档理解上表现出色,这对降低AI应用的计算成本和提升效率具有重要意义。 |
| 58 | +
|
| 59 | +来源:The Decoder | 2026年5月24日 |
| 60 | +链接:https://the-decoder.com/bytedance-study-finds-that-asking-lmms-questions-beats-making-it-transcribe-text-for-long-document-training/ |
| 61 | + |
| 62 | +## 7. 为什么你不应该将Copilot、Gemini等AI工具保持在默认模型选择 |
| 63 | + |
| 64 | +数学家Adam Kucharski的测试显示,当使用Microsoft Copilot分析数据时,工具会基于国家标签编造不存在的差异——即使数据集完全相同,只是国家名称不同。Copilot输出了详细的刻板印象而非准确结果。只有切换到"思考模型"才能识别此类问题,但前提要知道何时使用它。 |
| 65 | + |
| 66 | +> **Awesome AI 观点:** 这是一个关于AI偏见的生动案例。默认模型往往优先考虑"有用性"而非"准确性",在涉及社会敏感话题时容易产生刻板印象。用户应主动选择更严谨的推理模型,尤其是在数据分析场景中。 |
| 67 | +
|
| 68 | +来源:The Decoder | 2026年5月24日 |
| 69 | +链接:https://the-decoder.com/why-you-shouldnt-leave-model-selection-on-default-in-copilot-gemini-and-other-ai-tools/ |
| 70 | + |
| 71 | +## 8. 微软研究院发布Webwright:终端原生Web Agent框架,Odysseys基准得分60.1% |
| 72 | + |
| 73 | +微软研究院推出Webwright,一个终端原生的Web Agent框架。该框架在Odysseys基准测试中取得60.1%的成绩,显著高于基础GPT-5.4的33.5%,在Online-Mind2Web上达到86.7%。Webwright将Web操作转化为终端命令执行,提供了一种更可靠的Web自动化方案。 |
| 74 | + |
| 75 | +> **Awesome AI 观点:** Webwright代表了Web Agent的新思路——通过终端原生执行而非模拟浏览器操作,提高了可靠性和可控性。60.1%的Odysseys分数表明Web Agent正在接近实用水平。 |
| 76 | +
|
| 77 | +来源:Marktechpost | 2026年5月24日 |
| 78 | +链接:https://www.marktechpost.com/2026/05/24/microsoft-research-releases-webwright-a-terminal-native-web-agent-framework-that-scores-60-1-on-odysseys-up-from-base-gpt-5-4s-33-5/ |
| 79 | + |
| 80 | +## 9. NVIDIA发布Gated DeltaNet-2:线性注意力新架构,超越Mamba-3 |
| 81 | + |
| 82 | +NVIDIA AI团队推出Gated DeltaNet-2,一种新型线性注意力层,在Delta规则中分离了擦除和写入操作。该模型采用通道级擦除和写入门控机制,在1.3B参数规模上超越了KDA和Mamba-3的性能表现。 |
| 83 | + |
| 84 | +> **Awesome AI 观点:** NVIDIA持续在高效序列建模架构上发力。Gated DeltaNet-2的设计思路表明,线性注意力机制仍有大量优化空间,可能为超长上下文处理提供更高效的替代方案。 |
| 85 | +
|
| 86 | +来源:Marktechpost | 2026年5月24日 |
| 87 | +链接:https://www.marktechpost.com/2026/05/24/nvidia-ai-releases-gated-deltanet-2-a-linear-attention-layer-that-decouples-erase-and-write-in-the-delta-rule/ |
| 88 | + |
| 89 | +## 10. 阶跃星辰发布StepAudio 2.5 Realtime:支持角色扮演RLHF的端到端语音模型 |
| 90 | + |
| 91 | +阶跃星辰(StepFun)发布StepAudio 2.5 Realtime,一个端到端实时语音大语言模型。该模型引入了角色扮演特定的RLHF优化和副语言理解能力,能够感知和处理语音中的情感、语调等非文字信息。 |
| 92 | + |
| 93 | +> **Awesome AI 观点:** 实时语音模型正在从"能说话"向"会说人话"进化。角色扮演RLHF和副语言理解让AI语音交互更加自然,这对客服、虚拟助手和娱乐应用都有重要价值。 |
| 94 | +
|
| 95 | +来源:Marktechpost | 2026年5月24日 |
| 96 | +链接:https://www.marktechpost.com/2026/05/24/stepfun-releases-stepaudio-2-5-realtime-an-end-to-end-voice-model-with-roleplay-specific-rlhf-and-paralinguistic-comprehension/ |
| 97 | + |
| 98 | +## 其他动态 |
| 99 | + |
| 100 | +- **36氪** 报道小米通报空调抽真空造假事件,AI质检在制造业中的应用正在深化(2026年5月25日) |
| 101 | +- **36氪** 2026 AI Partner·北京亦庄AI+产业大会圆桌对话探讨"下一个杀手级AI产品会出现在哪个赛道"(2026年5月23日) |
0 commit comments