撰文:刘一鸣 毫无疑问,谷歌最新的 Gemini 3 重新点燃了硅谷的 AI 版图。随着 OpenAI 与 Anthropic 的激战如火如荼,谷歌凭借深厚的基础设施基础和原生的多模态根基,现已从“猎手”转变为“领导者”。 Gemini 3不仅代表了多模态能力的新飞跃,也被认为是谷歌扩展定律最极端的实现。 11 月 20 日,硅谷 101 举办了一场直播,邀请了四位来自人工智能研究、开发和应用前沿的嘉宾。田元东(Meta FAIR 前研究总监、加州大学戴维斯分校人工智能科学家陈宇北助理教授)、Aizip 联合创始人 Gavin Wang(前 Meta AI 工程师,负责 Llama 3 的训练后和多模态推理)、Nathan Wang(硅谷高级 AI 开发者)101 Distifused Fellow。期待使用 Gemini 随着 Gemini 3 的发布,我们期待回答有关人工智能未来的一些重要问题。双子座3的优势是什么?谷歌做对了什么?全球大型车型的竞争将如何变化? LLM未来的发展方向是什么?除了LLM之外,最前沿的AI实验室还关注什么?我们将在直播中呈现浓缩的嘉宾意见。如果您想观看直播完整内容,请关注YouTube和Bilibili上的重播。 01 来体验实测 Gemini 3到底有哪些优势? Gemini 3 上线 48 小时内,主榜单迅速更新。与之前仅在单个维度(例如代码或文本)上进行改进的模型不同,Gemini 3 被认为是真正的“全模态原生”模型。 es的实践经验对用户来说技术参数有哪些改进?来源:LM Arena 陈茜:这两天大家都在紧锣密鼓地测试Gemini 3。它真的能统治排名吗?有什么好处,举个例子?钠比王:过去两天,我主要使用了三个产品:核心的 Gemini 应用程序、面向开发者的 Google AntiGravity 以及今天刚刚推出的 Nano Banana Pro。说实话,AntiGravity 对我来说和 Agentic 时代的 IDE(集成开发环境)非常相似。光标代码与Claude代码的区别在于界面分为“管理视图”和“编辑器视图”。之前我用Cursor的时候,AI帮我写代码,但我还是感觉自己在写。但有了 AntiGravity,经理视角会让你感觉自己是经理,以 8 比 1 的比例坐在那里。0 代理人员正在工作。您可以看到他们分成了两部分:一个编写程序,另一个运行单元测试。最令人惊讶的是它结合了使用浏览器的功能。例如,我创建了一个前端网页,具有一个名为 Screenshot Pro 的功能,并且执行分数非常高。您可以直接打开Chrome浏览器进行操作一个网页并通过“查看”屏幕来测试它。你要求它上传文件并单击按钮,它的行为就像人类一样。这意味着测试和开发成为一种完全自动化和集成的开发体验。此外,Nano Banana Pro 还解决了创建幻灯片时的一个主要问题。以前,我让AI做了一个类似“讲解Gemini从1.0到3.0的发展路径”这样的PPT,但逻辑链条经常被打破。然而,当我这次尝试时,它不仅清理了逻辑,而且还生成了一个非常复杂的图表。我认为它有可能重新取代您目前拥有的所有幻灯片创建软件。 Meta FAIR前研究总监、人工智能科学家 田元东:我一般的习惯是,当有新模型发布时,看看我是否可以“继续写小说”。这是我个人的参考点。除了我之外很少有人这样衡量,所以绝对比overfitti更客观ng。一两年前,模特写的小说基本上都是政府出品的。不管你如何开始,它都会用正式的语气写出来,完全断章取义。我发现 Gemini 2.5 写得好多了。例如,在废墟场景中,残破的墙壁和荒凉的气氛被描绘得非常细致。听起来像是一个文科生写的,但故事很简单,没有什么废话。不过,这一次的Gemini 3却让我有些意外。不仅写得好,而且我开始理解“投资”了。他设计的情节互动非常有趣,甚至让我想,“这是个好主意,也许我可以把它保存下来,用在我自己的小说里。”我第一次感觉到AI为剧情创意提供了灵感,而不仅仅是文字的堆积。我似乎明白了作者更深层次的动机。但当谈到科学头脑风暴时,一切照旧。我该如何解释呢?这就像一个沃利获博士学位一个什么都知道的学生。它知道您提出的所有问题,并且可以生成许多新术语和新的数学工具。你会想,“哇,这太神奇了,我以前从未见过这个。”但如果你想深入讨论问题的本质或者让他们决定哪个方向最有希望,你就不能这样做。他们缺乏只有研究人员才有的直觉和深刻的思考。经验丰富的人。因此,他们虽然仍是顶级“问题解决者”,但在创造性思维方面尚未取得根本性突破。 Gavin Wang:首先让我感叹一下Google的“企业力量”实在是太可怕了。这意味着它很好。生态系统完整得让人害怕。从技术角度来看,我最关心的是 ARC-AGI-2 基准测试。这个测试非常有趣。这不是对大数据记忆的考验,而是对稀有学习,甚至是元学习的考验。它的创始人认为,智能的类型基于数据的电子根本不是智能。真正的智能是查看一两个示例并快速提取模式的能力。此前,这个榜单上的所有人都在个位数或 10% 以上,但 Gemini 3 突然达到了 30% 以上,这是一个巨大的飞跃。我认为这是由于多模态推理。之前的思绪链中,模型在那里自言自语。这是纯语言维度上的单峰进步。但Gemini 3是原生机型。结合所有视觉、代码和语言数据(混合)进行预训练。也就是说,在推理时,我们可能会在观看屏幕上的图像的同时在语言层面上进行逻辑推理。这种跨模式化学反应打开了许多新机遇的大门。陈宇 北加州大学戴维斯分校助理教授、Aizip 联合创始人陈宇北:这两天我太忙了,无法亲自运行,但我收集了各个团体的直接反馈在团队中。我们收到了一些有趣的负面评论。首先,来自愿景团队的一些评论。在内部基准测试中,我们发现Gemini 3在理解现实世界视觉离子方面的表现实际上有所下降。这看起来很矛盾吧?具体来说,在涉及安全摄像头和门铃等现实场景来分析用户行为和潜在风险事件时,其性能不如前几代。他们查看了Gemini 3的技术报告,发现报告中实际上只有一个与现实世界的视觉理解相关的基准,并且涵盖了这种复杂的场景。我发现没有。这实际上凸显了业界的一个普遍问题:公共基准与实际部署场景之间存在巨大差距。如果每个人都为了排名而优化模型,那么可能会破坏产品的实际性能。此外,编码组的学生还说他们发现 Gemini 2.5 在进行科学写作和补充编程时最有用。ia。 Gemini 3 的推理持续时间增加了 2-3 倍,但在处理需要重复多跳搜索和整合 20 年财务报告的高度复杂任务时,它似乎仍然落后于 OpenAI 的 GPT-5 Pr。 ○ 稳定。当然,这也可能是早期版本中人们看不懂Prompt的原因。 02 谷歌的技术秘密是“深度思考”还是“超能力”?谷歌已经从落后我们变成了追平甚至超越我们。 Gemini项目负责人曾透露,秘诀就在于“训练前和训练后的改进”。谷歌在这个看似官方的回应背后隐藏着什么样的技术路线图?是算法本身的胜利,还是积累算力的暴力审美?谷歌 DeepMind Oriol Vinyals Gemini 项目负责人在新闻发布会上表示,新版本关于“执行培训前和培训后的改进”。这是否意味着缩放方法没有“碰壁”?谷歌的秘密武器是什么?田元东:说实话,“训练前后都有所提高”这句话基本上是无稽之谈(笑)。这是因为建立模型本质上是一个系统工程。更好的数据、优化的架构和更高的训练安全性。定性来说,如果每个部分都得到提升,最终的结果肯定会更加强大。但最让我担心的是,如果预训练足够好,模型本身变得非常“聪明”,那么在训练后阶段,它就会表现得像一个天才学生,只需几个样本就可以掌握,而不需要花太多精力去教它。嗯,Gemini 3 的基本功能看起来非常强大。有传言称 Google 终于修复了之前训练过程中的一些 bug。当然,这只是传闻,无法证实。但对于谷歌这样规模的公司来说,法律只要工程无可挑剔并且关注每一个细节,升级就可以解决。 Gavin Wang,前 Meta AI 工程师,负责 Llama 3 的后训练和多模态推理 Gavin Wang:昨天我尝试和 Gemini 3 聊天,问他:“为什么这么强大?” (笑)。在讨论的时候,我提到了一个概念,叫做思维树。以前,CoT(思想链)是一步步线性完成的,就像链表一样。不过,Gemini 3似乎在模型中使用了树搜索,并且具有自我奖励机制。换句话说,它内部同时运行多个想法,并且有评分机制。如果没有意义,我会停下来,如果我看到有希望的东西,我会继续适应。这实际上是工程包装和模型科学的彻底结合。以前,您必须创建一条消息才能在外部执行此操作,但现在 Google 正在模型的内部环境中创建消息。这不是o不仅是垂直缩放法则的堆叠,还引入了水平MoE和Searc。机制 H.这让我想起了三年前的GPT时刻,技术上非常令人印象深刻。 Nathan Wang:让我补充一些细节。我检查了 Gemini 开发者 API 文档,里面写着:原来星星蛋被隐藏了。评论称:“上下文工程是一种前进的方式。”这句话让我思考了很久。我们曾经谈论快速工程,但现在谷歌谈论上下文工程。根据我自己的经验,当我想写一条火爆的推文时,我首先让人工智能搜索“流行的推文写作方式”,我编写一种方法并将其用作上下文,然后我合并我的内容并生成它。谷歌似乎已经自动化了这个过程。模型在生成响应之前,可能会在后台自动捕获大量相关上下文,并构建非常丰富的思维链环境来生成结果。这米这就是为什么您在使用它时感觉自己理解它的原因。你不只是做出反应,而是在一个设计好的环境中思考。陈玉北:除了算法层面之外,我还想谈一下更深层次的经济角度。我认为我的朋友布莱恩·郑(Brian Cheng)提出了非常有道理的观点。谷歌之所以能够如此果断、全面地实施缩放法则,是因为拥有无与伦比的硬件优势。想一想。其他公司如果想要训练大型模型,就需要购买NVIDIA显卡,其中来自NVIDIA的显卡超过70%。但谷歌不同。软件和硬件完全集成。我们使用我们自己的 TPU,没有中间商的影响。所以,单一经济学(单一经济模型)是非常好的。对于相同的预算,谷歌可以训练更大的模型,运行更多的数据,并进行更昂贵的多模式实验。因此,虽然缩放法则仍然需要大量的计算能力,但谷歌在 h 领域的非对称主导地位硬件将对 OpenAI 和 Anthropic 造成巨大压力。除非英伟达降低价格或者其他公司生产自己的芯片,否则护城河将会非常深。 03 开发者生态系统的编码大战结束了吗?随着 Gemini 3 和 AntiGravity 的发布,以及它们在 SWE Bench 等编码排行榜上的统治地位,社交媒体上出现了“编码战争已经结束”的声明。 Google 是否会利用其庞大的生态系统(Chrome、Android、云)来制造像 Cursor 这样的初创公司无法跨越的鸿沟?陈茜:很多人都说加密之战已经结束了。将 Gemini 3 与 Google 全家桶结合起来即可结束这一切。 。这对于像 Cursor 这样的初创公司意味着什么? Gavin Wang:我认为谷歌这次是在进行一场“降维打击”。 AntiGravity 直接针对 Codex 和 Cursors,并在 Chrome 中拥有底层权限,让您可以完全控制您的视觉和代码。以我们目前的经验来看,AI帮助我们一边看网页一边修改代码(视觉ly)。这种原生多模式体验更上一层楼。相比之下,Figma 和 Cursor 目前更像是聊天机器人。如果 Google 将 Chrome、Cloud 和 IDE 整合在一起,对于初创公司来说将是非常不愉快的。但它也创造了新的机会。例如Palantir提出的部署工程师的概念。未来的工程师很可能超越简单的编写代码,打通整个链路,从营销、产品定义(PM),到前后端开发。原型的能力在不断增强,因此他们不再做原型已经能做的事情,而是建造“小船”并站在巨人的肩膀上。我们需要掌握这一点并创造价值。正如内森所说,谷歌可以为你做简单的前期工作,比如网络编码,但这需要寻找新的商业模式和产品形式。 Nathan Wang,高级人工智能开发人员、硅谷 101 成员:我认为现在说一切已经结束还为时过早。虽然反重力确实很强大,在实践中我们发现,当涉及到后端实现和复杂的系统架构时,仍然很容易陷入困境。例如,当我使用浏览器加载文件来测试它时,它经常卡在那里并需要我的干预。目前它是一个非常强大的界面构建器。此外,对于许多公司来说,将所有代码移交给谷歌生态系统时都存在数据隐私问题。像 Cursor 这样的独立供应商仍然有空间,特别是在灵活性和特定于语言的优化方面。田元东:是的,我也觉得网上的演示有点误导。今天的许多演示只需单击一下即可生成有趣的前端页面。每个人追求的都是“美丽”和“完美”。然而,实际编写代码的人关注的是遵循指令。例如,如果我想稍微改变一下这段代码的逻辑,或者如果我想处理非常琐碎的极端情况(边缘情况),模型能理解吗?我可以吗修复它吗?我尝试用它来创建一个 3D 的第一人称射击游戏。它确实是写好的,图像也很漂亮,但是当我尝试运行它时,我注意到箭头键颠倒了。这种类型的小错误可能看起来不是问题,但在大型项目中就会成为问题。那是一场灾难。因此,对于专业程序员来说,目前它不是一个替代工具,而是一个可以降低门槛的辅助工具。 04 后LLM时代AI是否“劫持”了美国GDP?谷歌已经表明,规模法则仍然有效,但硅谷的目光更远。醋。近期,一群名为“NeoLabs”(Reflection AI、Periodic Labs等)的非常规人工智能研究机构备受风险投资关注,融资金额极高。在法学硕士之外,人工智能的下一个范式转变将发生在哪里?来源:资讯 陈茜:除了缩放定律,还有哪些非常规人工智能值得强调的发展趋势?尤其是 NeoLab 的重点领域。田元东:我的看法是,标度法是一个非常有用的工程法则,但如果我们不探究其本质,有一天我们将面临资源枯竭。我们真的想把整个地球变成一个巨大的显卡吗?如果对计算能力的需求呈指数级增长,而地球资源有限,这条道路最终将失败。因此,我重点研究了人工智能(Grokking)的可解释性和启发机制。我想这么高效的神经网络背后一定有一个美丽的数学核心。如果您可以从第一原理开始并了解它们如何产生涌现,您可能会发现有一天您将能够找到一种更好的算法,而无需使用梯度下降。此外,我们正在利用人工智能来加速研究。例如,在最近的 ICML 反驳(同行评审辩护/反驳过程)中,我想到了h 一个新想法并将其直接呈现给 Cursor。在 3 分钟内编写并绘制代码后,我能够快速验证我的想法是否有效。这种效率的提高是数百到数千倍,其本身将加速对人工智能本质的探索。陈玉北:我非常同意袁东前辈的意见。如果规模法则是唯一法则,人类的未来就太悲观了。没有太多电,未来所有数据都交给人工智能,人类除了宠物还有什么价值?我观察到了自然界的矛盾,这可能是一个突破。你的智力越多,你学到的就越多。它更多地依赖于它们,但需要更少的数据。如果我们看一个人类的孩子,直到13岁,它所接触到的所有token(语言数据)的总和可能还不到百亿(100亿)。与当前大规模模型训练所需的万亿数据量相比,人类数据的效率非常高。非常高。然而,人脑极其复杂(数千亿个神经元)。因此,大模型不一定在数据上大,但在架构上一定大。我觉得现在的LLM更接近Distill(提取我们现有的文明)并且压缩得更好一点。但我希望未来的人工智能能够像机器人、世界模型一样,像生物一样探索未知,创造新的文明。这迫使我们的研究人员进行看似“奇怪”或“疯狂”的研究,并寻找比例定律以外的第二条曲线。 Gavin Wang:按照于先生的说法,我认为下一个战场肯定是世界模式。目前的LLM仍然是纯粹的语言学。然而,现实世界的模型必须能够理解物理定律。目前主要有3条路线。一种是基于视频的,例如精灵 3,它是 2D 视频,但模拟 3D 世界。另一种是基于网格/物理的,具有物理碰撞体积。这第三个是高斯泼溅,像李飞飞教授的团队,用点云来表示空间。另外希望大家特别关注开源和小语言模型。如今的智能实际上“锁定”在GPU数据中心内。如果公众想要获取情报,他们就必须为 API 付费,就像我们必须为机票付费一样。实际上,这是一种数字中心化。一个小型终端站点,允许任何人在您的手机或计算机上运行高性能人工智能,而无需互联网连接或昂贵的订阅费。如果我们能够开发出这个模型,它将成为每个人的真正的人工智能。这不仅需要堆叠显卡,还需要在模型架构上进行很多优化。 05 泡沫还是奇点? Gemini 3的推出,在某种程度上是谷歌对“AI泡沫论”的强烈回应。这表明,只要有足够的计算能力、数据、和工程优化。然而,今天的许多直播嘉宾也指出,简单的扩展并不是实现 AGI 的唯一途径。今天的直播,我想讲的不仅是谷歌随着Gemini 3的推出而带来的“科技肌肉秀”,还有来自硅谷一线的一些有趣而深刻的思考。 Gemini 3暂时领先当前的战斗,但它对谷歌来说是一个重要的里程碑。但伟大的人工智能之战才刚刚开始。硅谷101将不时开始直播。哔哩哔哩 |关注YouTube观看完整版【视频播放频道】全国:Bilibili |腾讯|视频账号|西瓜|今日头条 |百家号| 36克|微博 |虎秀海外:Youtube 联系方式:video@sv101.net 【主创团队】 制作人 |洪军 赞助:陈茜 |编剧:陈茜 |导演:刘一鸣 |王子钦孙泽平何元庆
特别提示:以上内容(包括图片和视频,如有)均来自uplo由自有媒体平台“网易号”用户自行发布。本平台仅提供信息存储服务。
请注意:以上内容(包括图片和视频,如有)由社交信息网络平台提供,由网易号用户上传发布,网易号仅提供存储服务。