最新新闻

Karpathy:自去年12月以来,AI编程迎来根本性变革

Karpathy:自去年12月以来,AI编程迎来根本性变革

在2025年12月之前,AI编程与之后的编程相比截然不同。 这一观点是由Vibe Coding的提出者Karpathy提出的。 要准确描述过去两个月里AI对编程的影响并不容易。这种变化不是渐进式的,而是在去年12月份发生的突然转变。 作为最积极采用AI编程技术的程序员之一,Karpathy承认,在去年12月之前,尽管Coding Agent有不错的表现,但实际上并没有多大用处。 然而从12月

AI资讯12 阅读
AI复制了价值21万元的彭博终端!Perplexity推出Opus:两个月研发的新产品集成了19个模型的所有AI功能

AI复制了价值21万元的彭博终端!Perplexity推出Opus:两个月研发的新产品集成了19个模型的所有AI功能

Perplexity也加入了这场激烈的龙虾大战。 该公司在推特上宣布,推出了一款名为Perplexity Computer的新产品,这是一款基于浏览器的全能型通用数字助手。 据官方介绍,这款工具能够进行推理、任务分配、搜索、构建、记忆管理、编码以及项目部署和管理工作流程等操作。 它几乎涵盖了日常所需的所有场景功能。 Perplexity的首席执行官Aravind Srinivas表示,Per

AI资讯15 阅读
大疆状告美国FCC:质疑禁令依据不足且违背正当程序权利

大疆状告美国FCC:质疑禁令依据不足且违背正当程序权利

2月24日讯,大疆创新于美国东部时间2026年2月20日向美国第九巡回上诉法院递交了诉状,针对联邦通信委员会(FCC)在2025年12月23日将该公司及其产品列入“受管制清单”的不当决定提出挑战。此举旨在捍卫公司的合法权益,并保护那些因禁令而受影响的美国消费者和农业行业的利益。在诉状中,大疆指出联邦通信委员会缺乏实质性的证据来支持其认为公司产品对国家安全构成威胁的说法,这不仅违反了正当程序原则,还

科技新闻7 阅读
11月11日国外科技媒体焦点:计算终结传统试药方法 降压药物疗效可预测了

11月11日国外科技媒体焦点:计算终结传统试药方法 降压药物疗效可预测了

11月11日(星期二)的最新消息如下:国外知名科学网站报道,科研证实:掌握多种语言可延缓大脑衰老。最新研究显示,会讲多门语言的人确实可以减缓大脑的老化速度。这项发表在《自然·老化》杂志上的论文表明,双语或多语使用者出现“加速衰老”的几率比单语者要低一半。过去的研究常因样本量小、方法粗糙而受批评,但这次的研究数据来自欧洲27国的数万名51至90岁的健康志愿者,结论更具有说服力。研究结果表明,“掌握多

科技新闻10 阅读
大语言模型的推理能力受到质疑:系统性研究揭示结构性失败原因

大语言模型的推理能力受到质疑:系统性研究揭示结构性失败原因

过去两年间,大型语言模型在推理领域的进步显著。从数学与编程生成到解决复杂的逻辑和科学问题,这些模型不断刷新基准测试的记录。随着“推理模型”概念的兴起,越来越多的研究开始将推理能力视为通向通用人工智能的关键标志。在能力迅速提升的同时,一个更为基础的问题逐渐显现:当模型在执行推理任务时出现错误,这些失误是随机波动还是表明了深层次的设计缺陷?近期发表于 TMLR 的论文《大型语言模型推理失败》对该问题进

科技新闻8 阅读
ICLR 2026:新一代图灵测试——VLA技术在生物实验室的应用

ICLR 2026:新一代图灵测试——VLA技术在生物实验室的应用

目前对 VLA 模型的研究和测试大多集中在家用场景(如摆放餐具、折叠衣物),而对于专业科学环境,特别是生物实验室的应用则较少探索。生物实验室因其流程结构化、操作精度高以及多模态交互复杂等特点,是评估 VLA 模型在精确操作、视觉推理及指令执行能力方面的理想场地。最近,香港大学MMLAB 罗平教授团队和上海交通大学穆尧教授团队合作的项目“AutoBio”已被 ICLR 2026 接受,并且获得了同行

科技新闻9 阅读
港中文与美团合作为Agent引入「过程评分」解决稀疏奖励问题

港中文与美团合作为Agent引入「过程评分」解决稀疏奖励问题

在许多大型模型及代理的训练过程中,常见的方式是仅依据结果来判断:如果最终答案正确,则给予奖励;反之则得零分。对于简单的问答任务,这种方法尚可适用;但当涉及到需要多轮对话、搜索和编写代码等复杂过程的任务时,这种评价方式就显得过于简化了。因此,在差之毫厘的情况下与一开始就走错方向的情况之间,仅凭结果评判无法区分其优劣;训练过程中也无法识别出哪些失败更为关键,人工细粒度的评分又难以应对开放环境和多模态任

科技新闻7 阅读
微软推出Re-TRAC框架:4B参数模型创纪录,30B参数模型胜过358B参数模型

微软推出Re-TRAC框架:4B参数模型创纪录,30B参数模型胜过358B参数模型

想象一下,如果你让一个AI助手利用搜索工具来解决复杂问题时,它可能第一次探索就走错了方向,并且在后续尝试中重复相同的错误路径。虽然你可以从多次探索的结果中选出一个还算满意的答案,但这种方法不仅低效,还需要人工干预。这种现象是大多数深度搜索智能体面临的挑战之一——它们无法「记住」之前的探索经历,在每次新的任务开始时都得重新开始,导致大量的冗余搜索和资源浪费。当前的许多深度搜索模型多采用ReAct框架

科技新闻7 阅读
无标签数据下RL能否引导模型推理?Co-rewarding提出自监督解决方案

无标签数据下RL能否引导模型推理?Co-rewarding提出自监督解决方案

目前,RLVR(带有验证奖励的强化学习)已经成为促进大规模语言模型进行有效推理的主要技术路径。然而,这种方法在扩展性方面面临一个主要障碍:需要高质量的标注数据来监督奖励机制。当转向不需要人工标注的数据训练时,“自我奖励” 强化学习方法可能导致模型迅速陷入所谓的 “训练崩溃”。尽管模型看似获取到了越来越多的奖励,实际上它们是在利用自我奖励系统的漏洞进行投机行为,而非真正解决问题获得奖励。什么样的强化

科技新闻6 阅读
谷歌制裁OpenClaw,创始人称Anthropic将提前通知,而非直接封禁账户

谷歌制裁OpenClaw,创始人称Anthropic将提前通知,而非直接封禁账户

最近频繁出现在新闻中的 OpenClaw 终于受到了一定的限制措施。在本周一,谷歌宣布限制部分开发者使用其 vibe Coding 平台上的 Antigravity,并指控这些开发者“恶意使用”,这一举措在社交媒体上引发了广泛的讨论和争议。Windsurf 的前联合创始人、现任 Google Antigravity 成员的 Varun Mohan 解释了此次禁令的原因:“我们发现越来越多的用户在未

科技新闻7 阅读
QVGen使「超低比特率视频生成与量化」成为现实

QVGen使「超低比特率视频生成与量化」成为现实

视频生成扩散模型体积日益增大:从 2B 到 5B 再到 14B 等,效果显著提升的同时,训练和推理的成本也急剧上升。社区希望利用量化技术缩小模型规模,降低显存及计算成本,使其能在更多设备上运行并实现低成本部署。然而实际情况并不乐观:一旦使用 3/4 比特,视频生成的量化感知训练(QAT)相比图像更加难以处理且稳定性较差,画质下降幅度更大——不是轻微减少质量,而是变得无法接受。图表展示了 CogVi

科技新闻7 阅读
AMD斩获千亿美元AI芯片大单,苏妈胜券在握

AMD斩获千亿美元AI芯片大单,苏妈胜券在握

本文由智东西撰写并编辑。AMD再次赢得了一项重要的AI基础设施大单!据报道,AMD与Meta在2月25日宣布了重大合作消息:Meta将部署包括高达6GW的AMD Instinct GPU在内的算力解决方案。根据协议条款,Meta还将分期获得总计1.6亿股认股权证,相当于AMD约10%的股份。虽然这笔交易的具体金额未被公开说明,但AMD董事会主席兼首席执行官苏姿丰在电话会议中透露,每GW GPU订单

科技新闻5 阅读
Nano Banana 2 泄密了

Nano Banana 2 泄密了

近日,Nano Banana 2成为AI开发者圈子中的热门话题。在海外社交平台X上,关于谷歌即将发布的最新图片生成模型(即Gemini 3.1 Flash Image预览版)的消息不断涌现,4K图片广泛传播,引发了各种猜测和讨论。社交媒体X上有大量关于Nano Banana 2的猜测信息被分享。Nano Banana Pro作为基于Gemini 3 Pro的技术,在AI图像生成领域享有极高的声誉。

科技新闻6 阅读
阿里发布Qwen3.5开启马年开源之旅,350亿参数模型超越2350亿,助力开发者节省成本

阿里发布Qwen3.5开启马年开源之旅,350亿参数模型超越2350亿,助力开发者节省成本

李水青编辑 云鹏智东西于2月25日报道,今日阿里巴巴推出了马年首批新模型——Qwen3.5中型模型系列,其中包括三款开源模型:Qwen3.5-122B-A10B、Qwen3.5-35B-A3B和Qwen3.5-27B(Dense),以及专为生产环境设计的API版本——Qwen3.5-Flash(Qwen3.5-35B-A3B)已上线阿里云百炼平台。Qwen3.5最新三款中型模型在指令遵循、研究生级

科技新闻7 阅读
美国国防部对Anthropic施加压力,要求在本周末之前取消所有的AI安全措施

美国国防部对Anthropic施加压力,要求在本周末之前取消所有的AI安全措施

新智元报道近日,美国五角大楼正对 Anthropic 加大压力,要求解除其大型语言模型 Claude 在军事领域的使用限制。会后,该公司发布了新的政策声明。据知情人士透露,在最近的几天里,一场气氛紧张的会议在五角大楼内部举行。会议上,双方代表的是截然对立的利益和立场。美国国防部长皮特·海格塞斯(Pete Hegseth)代表了政府强硬的安全政策态度及监管宽松的趋势。Anthropic 公司的首席执

科技新闻8 阅读
Stripe总裁约翰·科里森谈今年Agent间大规模交易的前景|甲子光年

Stripe总裁约翰·科里森谈今年Agent间大规模交易的前景|甲子光年

商业系统正从“以人为主导的操作中心”转向“为智能体定制的设计模式”。作者|苏霍伊硅谷又一家公司加入了“千亿美元俱乐部”。据悉,美国时间2月24日,Stripe与投资者达成协议,启动新一轮员工股份回购计划。该计划估值1590亿美元,旨在提高现任及离职员工所持股份的流动性。作为可编程金融服务公司,本轮融资主要由Thrive Capital、Coatue和a16z等机构提供。Stripe自身也动用了部分

科技新闻6 阅读
阶跃星辰拟赴香港上市 印奇上任后公司发展受关注

阶跃星辰拟赴香港上市 印奇上任后公司发展受关注

智东西作者程茜编辑云鹏2月25日,据彭博社报道,知情人士透露上海大模型企业阶跃星辰正在考虑在香港交易所进行首次公开募股(IPO),计划筹集约5亿美元(约合人民币34亿元)。据了解,阶跃星辰已与潜在顾问就股权出售事宜进行了沟通,最早可能在今年上市。其发行规模和上市时间等具体细节可能会有所调整。对于IPO的传闻,阶跃星辰尚未作出回应。2月2日,阶跃星辰最新发布的MoE模型Step 3.5 Flash在

科技新闻6 阅读
马年四大热门模型齐聚阿里云Coding Plan启动!海量Token任你用

马年四大热门模型齐聚阿里云Coding Plan启动!海量Token任你用

近日,国内领先的AI云计算服务提供商阿里云推出了一系列重要更新。一哥就有一哥样。刚刚复工之际,阿里云一口气发布了Qwen3.5、GLM-5、MiniMax M2.5和Kimi K2.5四款顶尖开源模型。这些新上线的模型无疑具有重要意义:Qwen3.5作为阿里自主研发的新一代旗舰级大模型,在算力消耗极低的情况下,其性能已超越当前多个顶级闭源模型,并在Hugging Face榜单上占据榜首位置。Min

科技新闻7 阅读
MiniMax再度发力!OpenClaw实现轻松一键部署,汇聚海量智能体

MiniMax再度发力!OpenClaw实现轻松一键部署,汇聚海量智能体

马年工作刚刚开始,大型企业便纷纷采取创新策略争夺OpenClaw市场。即使不使用OpenClaw,该平台内目前已有超过一万个现成的专业智能体供用户随时调用。如果觉得现有方案不够理想,还可以自行创建一个专属助理,并有机会通过发布赚取积分。总之,这次他们强调的便是省心,将那些繁琐的技术配置全部包办,让用户只需直接使用即可。MaxClaw模式主要功能是帮助用户一键接入OpenClaw生态系统。对于想尝试

科技新闻9 阅读