科技新闻

99 篇文章

大语言模型的推理能力受到质疑:系统性研究揭示结构性失败原因

大语言模型的推理能力受到质疑:系统性研究揭示结构性失败原因

过去两年间,大型语言模型在推理领域的进步显著。从数学与编程生成到解决复杂的逻辑和科学问题,这些模型不断刷新基准测试的记录。随着“推理模型”概念的兴起,越来越多的研究开始将推理能力视为通向通用人工智能的关键标志。在能力迅速提升的同时,一个更为基础的问题逐渐显现:当模型在执行推理任务时出现错误,这些失误是随机波动还是表明了深层次的设计缺陷?近期发表于 TMLR 的论文《大型语言模型推理失败》对该问题进

2026/02/26世界网8 阅读科技新闻
ICLR 2026:新一代图灵测试——VLA技术在生物实验室的应用

ICLR 2026:新一代图灵测试——VLA技术在生物实验室的应用

目前对 VLA 模型的研究和测试大多集中在家用场景(如摆放餐具、折叠衣物),而对于专业科学环境,特别是生物实验室的应用则较少探索。生物实验室因其流程结构化、操作精度高以及多模态交互复杂等特点,是评估 VLA 模型在精确操作、视觉推理及指令执行能力方面的理想场地。最近,香港大学MMLAB 罗平教授团队和上海交通大学穆尧教授团队合作的项目“AutoBio”已被 ICLR 2026 接受,并且获得了同行

2026/02/26世界网9 阅读科技新闻
港中文与美团合作为Agent引入「过程评分」解决稀疏奖励问题

港中文与美团合作为Agent引入「过程评分」解决稀疏奖励问题

在许多大型模型及代理的训练过程中,常见的方式是仅依据结果来判断:如果最终答案正确,则给予奖励;反之则得零分。对于简单的问答任务,这种方法尚可适用;但当涉及到需要多轮对话、搜索和编写代码等复杂过程的任务时,这种评价方式就显得过于简化了。因此,在差之毫厘的情况下与一开始就走错方向的情况之间,仅凭结果评判无法区分其优劣;训练过程中也无法识别出哪些失败更为关键,人工细粒度的评分又难以应对开放环境和多模态任

2026/02/26世界网7 阅读科技新闻
微软推出Re-TRAC框架:4B参数模型创纪录,30B参数模型胜过358B参数模型

微软推出Re-TRAC框架:4B参数模型创纪录,30B参数模型胜过358B参数模型

想象一下,如果你让一个AI助手利用搜索工具来解决复杂问题时,它可能第一次探索就走错了方向,并且在后续尝试中重复相同的错误路径。虽然你可以从多次探索的结果中选出一个还算满意的答案,但这种方法不仅低效,还需要人工干预。这种现象是大多数深度搜索智能体面临的挑战之一——它们无法「记住」之前的探索经历,在每次新的任务开始时都得重新开始,导致大量的冗余搜索和资源浪费。当前的许多深度搜索模型多采用ReAct框架

2026/02/26世界网7 阅读科技新闻
无标签数据下RL能否引导模型推理?Co-rewarding提出自监督解决方案

无标签数据下RL能否引导模型推理?Co-rewarding提出自监督解决方案

目前,RLVR(带有验证奖励的强化学习)已经成为促进大规模语言模型进行有效推理的主要技术路径。然而,这种方法在扩展性方面面临一个主要障碍:需要高质量的标注数据来监督奖励机制。当转向不需要人工标注的数据训练时,“自我奖励” 强化学习方法可能导致模型迅速陷入所谓的 “训练崩溃”。尽管模型看似获取到了越来越多的奖励,实际上它们是在利用自我奖励系统的漏洞进行投机行为,而非真正解决问题获得奖励。什么样的强化

2026/02/26世界网6 阅读科技新闻
谷歌制裁OpenClaw,创始人称Anthropic将提前通知,而非直接封禁账户

谷歌制裁OpenClaw,创始人称Anthropic将提前通知,而非直接封禁账户

最近频繁出现在新闻中的 OpenClaw 终于受到了一定的限制措施。在本周一,谷歌宣布限制部分开发者使用其 vibe Coding 平台上的 Antigravity,并指控这些开发者“恶意使用”,这一举措在社交媒体上引发了广泛的讨论和争议。Windsurf 的前联合创始人、现任 Google Antigravity 成员的 Varun Mohan 解释了此次禁令的原因:“我们发现越来越多的用户在未

2026/02/26世界网7 阅读科技新闻
QVGen使「超低比特率视频生成与量化」成为现实

QVGen使「超低比特率视频生成与量化」成为现实

视频生成扩散模型体积日益增大:从 2B 到 5B 再到 14B 等,效果显著提升的同时,训练和推理的成本也急剧上升。社区希望利用量化技术缩小模型规模,降低显存及计算成本,使其能在更多设备上运行并实现低成本部署。然而实际情况并不乐观:一旦使用 3/4 比特,视频生成的量化感知训练(QAT)相比图像更加难以处理且稳定性较差,画质下降幅度更大——不是轻微减少质量,而是变得无法接受。图表展示了 CogVi

2026/02/26世界网7 阅读科技新闻
AMD斩获千亿美元AI芯片大单,苏妈胜券在握

AMD斩获千亿美元AI芯片大单,苏妈胜券在握

本文由智东西撰写并编辑。AMD再次赢得了一项重要的AI基础设施大单!据报道,AMD与Meta在2月25日宣布了重大合作消息:Meta将部署包括高达6GW的AMD Instinct GPU在内的算力解决方案。根据协议条款,Meta还将分期获得总计1.6亿股认股权证,相当于AMD约10%的股份。虽然这笔交易的具体金额未被公开说明,但AMD董事会主席兼首席执行官苏姿丰在电话会议中透露,每GW GPU订单

2026/02/26世界网5 阅读科技新闻
阿里发布Qwen3.5开启马年开源之旅,350亿参数模型超越2350亿,助力开发者节省成本

阿里发布Qwen3.5开启马年开源之旅,350亿参数模型超越2350亿,助力开发者节省成本

李水青编辑 云鹏智东西于2月25日报道,今日阿里巴巴推出了马年首批新模型——Qwen3.5中型模型系列,其中包括三款开源模型:Qwen3.5-122B-A10B、Qwen3.5-35B-A3B和Qwen3.5-27B(Dense),以及专为生产环境设计的API版本——Qwen3.5-Flash(Qwen3.5-35B-A3B)已上线阿里云百炼平台。Qwen3.5最新三款中型模型在指令遵循、研究生级

2026/02/26世界网7 阅读科技新闻
美国国防部对Anthropic施加压力,要求在本周末之前取消所有的AI安全措施

美国国防部对Anthropic施加压力,要求在本周末之前取消所有的AI安全措施

新智元报道近日,美国五角大楼正对 Anthropic 加大压力,要求解除其大型语言模型 Claude 在军事领域的使用限制。会后,该公司发布了新的政策声明。据知情人士透露,在最近的几天里,一场气氛紧张的会议在五角大楼内部举行。会议上,双方代表的是截然对立的利益和立场。美国国防部长皮特·海格塞斯(Pete Hegseth)代表了政府强硬的安全政策态度及监管宽松的趋势。Anthropic 公司的首席执

2026/02/26世界网8 阅读科技新闻
Stripe总裁约翰·科里森谈今年Agent间大规模交易的前景|甲子光年

Stripe总裁约翰·科里森谈今年Agent间大规模交易的前景|甲子光年

商业系统正从“以人为主导的操作中心”转向“为智能体定制的设计模式”。作者|苏霍伊硅谷又一家公司加入了“千亿美元俱乐部”。据悉,美国时间2月24日,Stripe与投资者达成协议,启动新一轮员工股份回购计划。该计划估值1590亿美元,旨在提高现任及离职员工所持股份的流动性。作为可编程金融服务公司,本轮融资主要由Thrive Capital、Coatue和a16z等机构提供。Stripe自身也动用了部分

2026/02/26世界网6 阅读科技新闻
阶跃星辰拟赴香港上市 印奇上任后公司发展受关注

阶跃星辰拟赴香港上市 印奇上任后公司发展受关注

智东西作者程茜编辑云鹏2月25日,据彭博社报道,知情人士透露上海大模型企业阶跃星辰正在考虑在香港交易所进行首次公开募股(IPO),计划筹集约5亿美元(约合人民币34亿元)。据了解,阶跃星辰已与潜在顾问就股权出售事宜进行了沟通,最早可能在今年上市。其发行规模和上市时间等具体细节可能会有所调整。对于IPO的传闻,阶跃星辰尚未作出回应。2月2日,阶跃星辰最新发布的MoE模型Step 3.5 Flash在

2026/02/26世界网6 阅读科技新闻
马年四大热门模型齐聚阿里云Coding Plan启动!海量Token任你用

马年四大热门模型齐聚阿里云Coding Plan启动!海量Token任你用

近日,国内领先的AI云计算服务提供商阿里云推出了一系列重要更新。一哥就有一哥样。刚刚复工之际,阿里云一口气发布了Qwen3.5、GLM-5、MiniMax M2.5和Kimi K2.5四款顶尖开源模型。这些新上线的模型无疑具有重要意义:Qwen3.5作为阿里自主研发的新一代旗舰级大模型,在算力消耗极低的情况下,其性能已超越当前多个顶级闭源模型,并在Hugging Face榜单上占据榜首位置。Min

2026/02/26世界网7 阅读科技新闻
MiniMax再度发力!OpenClaw实现轻松一键部署,汇聚海量智能体

MiniMax再度发力!OpenClaw实现轻松一键部署,汇聚海量智能体

马年工作刚刚开始,大型企业便纷纷采取创新策略争夺OpenClaw市场。即使不使用OpenClaw,该平台内目前已有超过一万个现成的专业智能体供用户随时调用。如果觉得现有方案不够理想,还可以自行创建一个专属助理,并有机会通过发布赚取积分。总之,这次他们强调的便是省心,将那些繁琐的技术配置全部包办,让用户只需直接使用即可。MaxClaw模式主要功能是帮助用户一键接入OpenClaw生态系统。对于想尝试

2026/02/26世界网9 阅读科技新闻
AMD获得Meta巨额订单并绑定10%股权,稳固算力市场第二大供应商地位

AMD获得Meta巨额订单并绑定10%股权,稳固算力市场第二大供应商地位

2月25日,Meta公司宣布与AMD签署了一项重要的多年合作协议:Meta计划在其数据中心部署总计6吉瓦(GW)的AMD GPU,并配合使用优化过的AI CPU。首批配备MI450 GPU的AMD Helios整机柜服务器预计将在今年晚些时候开始交付。值得一提的是,仅仅一周之前,Meta才刚刚宣布了采购数百万颗英伟达处理器以推动其人工智能业务扩张的消息。此次交易中最引人关注的部分是基于业绩表现的认

2026/02/26世界网8 阅读科技新闻
荣耀90 GT新品上市 售价2599元起

荣耀90 GT新品上市 售价2599元起

12月21日,荣耀正式推出了新款手机荣耀90 GT和荣耀平板9。全新荣耀90 GT凭借旗舰级三芯、3D冰封冷驱散热系统以及超凡帧画引擎,为用户提供满帧不设限的极致游戏体验,搭配PC级别的画质效果和低延迟触控技术,成为性能战场上的佼佼者。起售价2599元。荣耀90 GT搭载了第二代骁龙8旗舰芯片,并通过底层优化将游戏重载帧率提升了30%;另外还配备了超帧独显芯片,在低功耗的情况下也能提供超越原生帧率

2026/02/26世界网6 阅读科技新闻
vivo胡柏山表示公司与苹果在高端市场上的差距显著减小,X100系列拍摄功能已超越对手

vivo胡柏山表示公司与苹果在高端市场上的差距显著减小,X100系列拍摄功能已超越对手

12月22日,vivo执行副总裁兼首席运营官胡柏山在“vivo会客厅”活动中表示,在高端手机市场中,苹果占据了较大的市场份额。然而,近年来通过长期积累和努力,vivo与苹果之间的差距已经显著缩小,尤其是在影像技术和操作系统方面。胡柏山提到,目前vivo的拍照功能已超越苹果,但在视频拍摄领域仍有一小段距离,预计在未来的产品中这一差距将进一步缩小。在高端市场突破方面,4K至6K价格区间是vivo重点关

2026/02/26世界网8 阅读科技新闻
华为推出nova 12系列 新机售价2999元起步

华为推出nova 12系列 新机售价2999元起步

12月26日,华为nova 12系列手机正式发布,起售价为2999元。nova 12系列采用全新12号色彩设计,彰显活力与时尚;机身融入奢侈品级别的压花工艺,打造更大更立体的压纹效果;镜头模组对称布局精致,融合经典美学理念,提升整体美感。配备升级后的前置双目立体视觉影像系统,“双目”置于中央位置,后置采用第二代物理可变光圈,并结合全新算法技术,从硬件和软件两方面提高拍摄质量。nova 12系列推出

2026/02/26世界网8 阅读科技新闻