搜索: "大语言模型"

共找到 3 篇相关文章

扩散模型引领快速深度学习新潮流英伟达与微软联手突破每秒千个令牌限制

全球首个深度思考的扩散模型诞生！它摒弃了传统的自回归模式，成为世界上生成速度最快的模型。对比之下，传统自回归的“打字机式”输出方式（逐个token按顺序生成）就像乌龟一样慢：实际测试结果显示，在英伟达GPU上运行的Mercury 2扩散推理大语言模型可实现每秒1009个tokens的速度。这一速度比GPT-5（mini版）和Claude-4.5（haiku版本）等传统模型快了五倍之多

AI资讯2026/2/269 阅读

大语言模型的推理能力受到质疑：系统性研究揭示结构性失败原因

过去两年间，大型语言模型在推理领域的进步显著。从数学与编程生成到解决复杂的逻辑和科学问题，这些模型不断刷新基准测试的记录。随着“推理模型”概念的兴起，越来越多的研究开始将推理能力视为通向通用人工智能的关键标志。在能力迅速提升的同时，一个更为基础的问题逐渐显现：当模型在执行推理任务时出现错误，这些失误是随机波动还是表明了深层次的设计缺陷？近期发表于 TMLR 的论文《大型语言模型推理失败》对该问题进

科技新闻2026/2/268 阅读

北京航空航天大学发布Code2Bench：推动代码大模型评估体系革新，终结单纯刷分现象

在评估大语言模型（LLM）生成代码的能力时，一个日益凸显的问题浮现出来：当这些模型在 HumanEval 和 MBPP 等经典基准测试中取得近乎饱和的成绩时，我们究竟是在衡量其真实的泛化推理能力，还是仅仅检验它们对训练数据的记忆力？目前的代码基准正面临两大核心挑战：一是数据污染的风险，二是测试严谨性的不足。前者可能使评测退化为「开卷考试」，而后者常常导致一

科技新闻2026/2/258 阅读

搜索: "大语言模型"

扩散模型引领快速深度学习新潮流 英伟达与微软联手突破每秒千个令牌限制

大语言模型的推理能力受到质疑：系统性研究揭示结构性失败原因

北京航空航天大学发布Code2Bench：推动代码大模型评估体系革新，终结单纯刷分现象

扩散模型引领快速深度学习新潮流英伟达与微软联手突破每秒千个令牌限制