搜索: "推理能力"

共找到 4 篇相关文章

Nano Banana 2夜间发布 性能飙升价格减半 创新纪录

Nano Banana 2夜间发布 性能飙升价格减半 创新纪录

近日,谷歌正式发布了其最新的图片生成和编辑模型Nano Banana 2(Gemini 3.1 Flash Image),该模型已在谷歌的多种产品中上线。Nano Banana 2在功能与速度上进行了全面提升,在世界知识、图像质量、推理能力和主体一致性等方面均有所突破。同时,它在基准测试中的表现优于GPT-Image 1.5、Seedream 5.0 Lite和Grok Imagine Image

科技新闻0 阅读
大语言模型的推理能力受到质疑:系统性研究揭示结构性失败原因

大语言模型的推理能力受到质疑:系统性研究揭示结构性失败原因

过去两年间,大型语言模型在推理领域的进步显著。从数学与编程生成到解决复杂的逻辑和科学问题,这些模型不断刷新基准测试的记录。随着“推理模型”概念的兴起,越来越多的研究开始将推理能力视为通向通用人工智能的关键标志。在能力迅速提升的同时,一个更为基础的问题逐渐显现:当模型在执行推理任务时出现错误,这些失误是随机波动还是表明了深层次的设计缺陷?近期发表于 TMLR 的论文《大型语言模型推理失败》对该问题进

科技新闻8 阅读
北京航空航天大学发布Code2Bench:推动代码大模型评估体系革新,终结单纯刷分现象

北京航空航天大学发布Code2Bench:推动代码大模型评估体系革新,终结单纯刷分现象

在评估大语言模型(LLM)生成代码的能力时,一个日益凸显的问题浮现出来:当这些模型在 HumanEval 和 MBPP 等经典基准测试中取得近乎饱和的成绩时,我们究竟是在衡量其真实的泛化推理能力,还是仅仅检验它们对训练数据的记忆力?目前的代码基准正面临两大核心挑战:一是数据污染的风险,二是测试严谨性的不足。前者可能使评测退化为「开卷考试」,而后者常常导致一

科技新闻8 阅读
清华发布全球首个人工智能评估标准“约束流形”, Gemini 3仅获33.6分

清华发布全球首个人工智能评估标准“约束流形”, Gemini 3仅获33.6分

新智元报道SSI-Bench是首个专注于评估模型在约束流形中空间推理能力的基准,强调真实结构和具体限制条件,通过排序任务来考察模型对三维几何与拓扑关系的理解程度,揭示了当前大模型在处理实际空间问题时严重依赖二维信息的情况,并且其表现远逊于人类。如果将一个在空间理解榜单中得分很高的多模态大型模型直接放置于现实世界环境中,它很可能会在看似简单的任务上遇到困难。

科技新闻26 阅读