搜索: "语言模型"

共找到 6 篇相关文章

扩散模型引领快速深度学习新潮流英伟达与微软联手突破每秒千个令牌限制

全球首个深度思考的扩散模型诞生！它摒弃了传统的自回归模式，成为世界上生成速度最快的模型。对比之下，传统自回归的“打字机式”输出方式（逐个token按顺序生成）就像乌龟一样慢：实际测试结果显示，在英伟达GPU上运行的Mercury 2扩散推理大语言模型可实现每秒1009个tokens的速度。这一速度比GPT-5（mini版）和Claude-4.5（haiku版本）等传统模型快了五倍之多

AI资讯2026/2/269 阅读

大语言模型的推理能力受到质疑：系统性研究揭示结构性失败原因

过去两年间，大型语言模型在推理领域的进步显著。从数学与编程生成到解决复杂的逻辑和科学问题，这些模型不断刷新基准测试的记录。随着“推理模型”概念的兴起，越来越多的研究开始将推理能力视为通向通用人工智能的关键标志。在能力迅速提升的同时，一个更为基础的问题逐渐显现：当模型在执行推理任务时出现错误，这些失误是随机波动还是表明了深层次的设计缺陷？近期发表于 TMLR 的论文《大型语言模型推理失败》对该问题进

科技新闻2026/2/268 阅读

无标签数据下RL能否引导模型推理？Co-rewarding提出自监督解决方案

目前，RLVR（带有验证奖励的强化学习）已经成为促进大规模语言模型进行有效推理的主要技术路径。然而，这种方法在扩展性方面面临一个主要障碍：需要高质量的标注数据来监督奖励机制。当转向不需要人工标注的数据训练时，“自我奖励” 强化学习方法可能导致模型迅速陷入所谓的 “训练崩溃”。尽管模型看似获取到了越来越多的奖励，实际上它们是在利用自我奖励系统的漏洞进行投机行为，而非真正解决问题获得奖励。什么样的强化

科技新闻2026/2/266 阅读

美国国防部对Anthropic施加压力，要求在本周末之前取消所有的AI安全措施

新智元报道近日，美国五角大楼正对 Anthropic 加大压力，要求解除其大型语言模型 Claude 在军事领域的使用限制。会后，该公司发布了新的政策声明。据知情人士透露，在最近的几天里，一场气氛紧张的会议在五角大楼内部举行。会议上，双方代表的是截然对立的利益和立场。美国国防部长皮特·海格塞斯（Pete Hegseth）代表了政府强硬的安全政策态度及监管宽松的趋势。Anthropic 公司的首席执

科技新闻2026/2/268 阅读

LLM Embedding模型计算瓶颈通过Query端解决，LightRetriever登场

近年来，基于大模型的文本检索技术取得了显著进展，最新的领先技术（SOTA）中，LLM Embedding Model 的参数量通常超过70亿。虽然相关性搜索性能得到了提升，但部署成本也随之大幅增加。众所周知，LLM Embedding Model 使用对称双塔架构，其中查询端和文档端常常共享同一完整的大型语言模型（LLM）。然而，一个长期被忽视的问题是：在

科技新闻2026/2/256 阅读

北京航空航天大学发布Code2Bench：推动代码大模型评估体系革新，终结单纯刷分现象

在评估大语言模型（LLM）生成代码的能力时，一个日益凸显的问题浮现出来：当这些模型在 HumanEval 和 MBPP 等经典基准测试中取得近乎饱和的成绩时，我们究竟是在衡量其真实的泛化推理能力，还是仅仅检验它们对训练数据的记忆力？目前的代码基准正面临两大核心挑战：一是数据污染的风险，二是测试严谨性的不足。前者可能使评测退化为「开卷考试」，而后者常常导致一

科技新闻2026/2/258 阅读