Gemini3来了,AI 应用创业公司谁兴奋,谁冷静,谁觉得它不太行?

日期:2025-11-23 14:51:51 / 人气:7

Gemini 3的发布,不仅仅是一次参数的迭代,更是一次对模型边界的暴力拓展。  它像一个巨大的多面体,同时覆盖了   Vibe    Coding  、   通用Agent  、   前端设计  乃至   游戏引擎  等当下最滚烫的赛道。这种全方位的“能力溢出”,给身处其中的创业者带来了一个残酷而迷人的命题:   这究竟是为他们打开了新的可能性,还是预示着垂直应用将逐渐消融在模型“无边界”的扩张之中?   带着这个疑问,硅星人找了   7家  不同赛道的AI公司,聊了聊他们的感受与变化。  我们发现,创业者们的悲欢并不相通,有人   兴奋得彻夜未眠  ,在凌晨的测试中看到了“吉卜力时刻”和Agent的新未来;也有人   十分冷静  ,对通用模型的狂欢不以为然,坚信数据壁垒与实时性才是护城河。  1    Flowith:Gemini3的更新点,都是Agent的刚需     画布交互式内容创作Agent平台,10月底推出了一款独立的为Agent原生设计的操作系统Flowith OS。        1、硅星人:Gemini3对你们有什么影响,    未来通用型Agent还有价值吗    ?我感觉这么强的模型,加workflow或者产品设计等等,    有点像    给皇帝穿乞丐衣服。     Flowith创始人Derek:  Gemini 3 Pro我们在试用的时候发现它补足了很多上代模型的不足,比如有更强大的视觉理解能力(这对compute use场景有很大提高)、代码生成能力、长任务生成能力等等。这些对很多AI应用层公司、以及Agent公司,都是刚需的功能点。  在3出来前,2.5 Pro已经是这些方面的SOTA了,而随着3 Pro的推出,与很多之前应用层的局限都可以得到突破,更何况Gemini的性价比和速度也一直都很有优势,我们正在把新模型在flowith Neo Agent和flowithOS上进行集成和调试,对此也非常期待,因为过去有很多应用层产品的真正走向大众,也是配合着模型升级一起发生的,比如Cursor、Perplexity等。  1    逗逗AI:帮模型找场景,就是创业公司的机会     逗逗AI是你的AI游戏伙伴,在实时语音开黑中提供AI攻略指引和陪伴。        1、硅星人:我们看到您在    硅星    人「    GenAI    」那篇    Gemini3    的文章下面评论,感受到很兴奋于Gemini3在游戏中的应用,值得兴奋的点是什么呢?     逗逗    AI    联合创始人王碧豪  :首先是看到Benchmark上有很好的体现:MMMU Pro和Screen Sport Pro提升非常明显。   Screen Sport Pro从17.4提升到了72,提升比例极其恐怖  !这代表它现在是真正能够实时看懂屏幕的。这个和我们之前做的模型其实类似,只不过我们专注于游戏屏幕的识别。  我们尝试了把之前一些比赛的视频发给它,让它去做比赛的解说,除了它的语气没有那么激动外,专业方面可以媲美人类解说了。  所以我们今天一直在尝试能用Gemini3做点什么,目前它的实时响应性还比较弱,因为它是大参数的推理模型。你在对话时,需要等它十秒二十秒去做推理,可用户等不了那么久,但我们还是找到了一些视频的场景:赛后复盘。  有点像咱们开会,飞书会议会把会议总结出来,形成to do或者建议。游戏的过程和这个很类似:你打完一局游戏后,它会告诉你这局表现怎么样,数据是什么样的,高光点在哪,操作不好的点在哪。它能够提供一个很好的数据报告。而这个是   用户已经打完游戏了,他没有实时性要求  ,可以容忍20秒30秒的等待时间。  我们现在准备在海外重点推这个能力:包括英雄联盟等等国外比较火的游戏,重点做这些case。    2、硅星人:我有    一个    疑惑,Gemini3    的    多模态理解能力增强,你们    也自研了    VLM    模型,自研模型和    Gemini 3    在产品中的    关系    ,在模型上的差异是什么    ?     王碧豪:  这是个好问题。我最近也在写这个文章。我们提供给了用户可以选择用我们还是Gemini3,但我猜测大概率用户尝试完还是会切回我们。    第一,游戏场景的专业性。  Google训练的是   通用模型  ,数据来自互联网全部的,可以识别大部分应用软件。但我们的训练   专注于游戏场景  。所以我现在还不确定,我们还没做具体的评估,但我觉得我们还是在   游戏的识别上、对游戏的理解上有独特之处  。    第二,响应速度的权衡。  游戏陪伴场景需要兼顾   响应速度、对游戏的理解以及准确性  ,这是兼顾不了的。就算Gemini 3的Flash模型(2.5有Flash,3.0还没出Flash),响应时间也要   8秒到15秒之间  ,不可能实现端到端的快速对话。    第三,情绪价值。  我们的模型除了对游戏理解和建议能力之外,还做   情绪方面的价值  。识别到你的高光时刻后,我们怎么通过一个人物设定来给你反馈情绪价值。    3、硅星人:之所以我们在谈通用和垂直,是因为模型的能力边界还没有覆盖到你们,一年前也不会有人认为Coding是一个通用场景,如果Gemini4就可以做“通用的游戏助手”了,到那时候你们的壁垒是什么?     王碧豪:  我把这个模型的能力分成上限和下限。    上限能力:  我们针对这个场景特地去做了很多工程化优化,包括模型上的优化、数据上的优化。   下限能力:  这个模型提供的能力就是这样,我们也不去做优化。我们在找这个模型到底在什么场景用得好,然后包装出来让用户去用。  上限能力是针对性的工程优化问题,Google本质上是一个研究型公司,它们只专注于模型本身能力的提升,而不是模型之外的,比如我们现在做的金铲铲、王者荣耀模型的特定模型。下限能力是和用户贴近之后产生的usecase,帮模型去找好的场景和包装,这一块模型公司也不会去做。  不停的拓展上限和下限,就是创业公司的机会。  1    Seede AI:该恐慌的不是我们,是大厂     Seede AI不是“文生图”路线,而是“代码生图”——直接让大模型写代码来搞定排版和设计。          1、硅星人:昨天晚上是不是很兴奋?我看你12:30还在群里发消息,你几点睡的?     Seede    AI    创始人杨沐锦:  三四点吧。所有群里都没人说话了,我估计大家全睡了我才睡的。我们好多个人,包括我们的用户一起测到凌晨。    2、硅星人:为什么会这么兴奋?你认为Gemini3是一个什么时刻?是R1还是GPT3.5?     杨沐锦:  我感觉像是“吉卜力”时刻,我们自己测下来,Gemini3的一个很大的提升是审美能力。以下是我们用同一个Prompt做的一个对比图:  对比下来你会发现有几个比较大的改变:       从“排版”进化到“设计”:Gemini 2.5只能做到基础的排版(哪里大、哪里小),也就是“300块设计师”的水平;而Gemini 3.0拥有了高级审美,能处理纹理、光影、烟雾效果和复杂的图层叠加,达到了“3000块设计师”的水平。         审美与一致性:相比GPT生成的拥挤布局和国内模型混乱的配色,Gemini 3能输出统一的“设计系统”(Design System)。它能自动匹配字体样式(阴影、加粗)和色调,不仅是把字放上去,而是构建整体的视觉质感。         代码控制力:Gemini 3的Coding能力极强,它不是生成一张死图,而是生成可编辑的代码布局。这使得用户可以进行二次编辑(挪动位置、修改文字),保留了人的“掌控感”。     其实Claude的编程能力是高于Gemini2.5 pro,但是依然有大量用户选择后者,是因为它的审美在线,审美是无法Benchmark的,而这一点在Gemini3上提升到了更强。    3、硅星人:我昨天    也挺兴奋的,    我觉得可能以后就    不用人去    生产图像和文字了,所有东西全部是    AI    生成的...你会不会觉得未来Agent或者垂类AI应用会被模型吞噬?会恐慌么?     杨沐锦:  对于创业公司而言,Cursor是个成功的案例,先去圈用户,然后最近才发了自己的小模型,以更快的速度,更便宜的成本。我们会是一样的路子。    相反,我认为更应该恐慌的是大厂,Google现在呈现出非常全面的状态,  而国内的一些大厂,比如说字节,原本我们的代码生图模型他们也想接,但后面我们拒绝了,因为他们的要求是生图的模型要换成即梦不能用外面厂商的。他们一定是想建立壁垒,那就必须要把自己模型做好才有话语权。  而创业公司不同,Gemini3输入2美元/100万token,输出12美元,加起来14美元;Claude Sonnet 4.5输入3美元,输出16.5美元,加起来快20美元,现在性能提升了,价格也便宜了四分之一,所有的模型资源我们都能用,我们现在提供Gemini3给用户免费使用一周,去找更好的场景。  1    GameSkill:无论模型能力怎么增强,数据都是核心     GameSkill是媲美专业选手的端侧AI教练,全程陪玩,赛后指导复盘。        1、硅星人:有了Gemini3,逗逗    AI    开始尝试用它给选手进行赛后复盘,这好像功能跟你们有重合了?之前你们在做一个少数人能做的事,如果未来模型的能力进步到多数人都能做,怎么办?     GameSkill创始人陈迪:  首先我会觉得Gemini3本身不如我们特训出来的教练模型,我们通过大量的高质量的标注游戏,用特定的单一数据集来训练模型,对游戏的画面进行深度标注和深度理解,在这个过程中,还是数据是核心。当然如果以后游戏内置AI教练成为常态,GameSkill的办法是提供官方功能无法覆盖的   深度、个性化和有温度的增值服务  。       极致的个性化与深度适应:游戏官方AI教练可能更侧重于通用技巧。而GameSkill作为玩家的“私人订制教练”,通过长期在端侧学习玩家的操作习惯、反应速度和决策模式,提供独一无二的训练方案。例如,针对玩家特定的“预瞄弱点”或“道具投掷习惯”进行强化训练,这种深度适配是通用模型难以做到的。         跨游戏的身份与数据连续性:对于深度游戏爱好者来说,GameSkill可以成为其跨游戏的通用AI伙伴。我们在不同游戏中学习玩家的风格,帮助玩家将在一款游戏中磨练出的意识应用到另一款游戏中。这种跨游戏的、持续成长的“数字教练”身份,是单一游戏内嵌AI无法提供的。       2、硅星人:你们用端侧模型的解决方案,明显要损失一些云端模型的先进性,如何弥补与云端模型的“代差”?     陈迪:  我们承认云端大模型在通用多模态推理上的强大,但在“特定游戏内的实时陪练”这个场景下,端侧模型通过精巧的技术设计,不仅能弥补差距,甚至能实现超越。       模型裁剪与场景特化:我们的8B特训模型采用结构化剪枝、量化剔除了与游戏无关的冗余参数,让模型的所有“精力”都集中在理解游戏画面。         硬件协同与实时性:我们的模型直接运行在PC的NPU和GPU上,这意味着数据无需上传云端、处理后再返回。保证零延迟,在需要闪电般反应的电竞游戏中,指导提示能否即时出现至关重要;以及100%的隐私保护,玩家的游戏数据永远不会离开玩家的设备。这是云端模型无法逾越的物理鸿沟。         与硬件适配:我们通过与职业战队的合作获取高质量的数据,持续对模型进行增量学习和微调,让它能紧跟游戏版本和战术演变的步伐。同时,我们会为不同性能的PC提供不同精度的模型版本,通过动态调度技术确保在各种硬件上都能流畅运行,实现资源的最优利用。     1    Hyper3D.AI:模型虽牛,但调一个API的任务,还需很长时间     3D生成大模型公司,用户可用一句话/一张图生成3D模型。        1、硅星人:Gemini 3的    3D    能力对你们有直接的影响么?会对3D生成带来什么根本性的改变吗?     Hyper3D.AI    CTO    张启煊:  Gemini3所展现出来的,其实用“3D生成能力”去描述是有一些问题的。目前大家看到的Gemini3的“3D生成案例”,其实无非是从网上下载一个3D模型、用代码生成参数化的简单3D模型、用代码描述体素这三类。  但是这样的能力其实意义也很大,它意味着Gemini3对3D有很好的能理解能力,即通过自己撰写的代码,能够很好的联想到它所能呈现的3D状态----以往这一块主要局限于2D,这也是LLM对网页生成很在行的原因。具备这一能力后,Gemini3能够很好的结合真正的3D生成模型,完成一些场景的搭建等更复杂的事儿----我们也正在结合Gemini3尝试这些方向    2、硅星人:我们本来以为有人兴奋有人恐慌,但其实是有人兴奋有人冷静,你们是哪一种?为什么?     张启煊:  我们第一时间就用上了,其实感觉没有媒体渲染的那么厉害。对于非功能性的页面,能做得很好,有设计感,说明它对代码和最终渲染图形页面的联想是很准确的。但是对于功能性的方面,比如学着调用一个API,能力没有很大的提升,还是需要多轮调试。  比如我自己让它调用我们API,就花了快半小时才给他教明白(当然也有可能是我们文档写太烂了)。    Soon:Gemini3对游戏行业并无实质提升     游戏专精模型,以“无需传统抽卡、直接商业化落地”的优势破局——依托行业专属训练基础,实现从创意概念到落地的全流程赋能。        1、硅星人:Gemini 3对“游戏Agent开发”最直接的影响是什么?你们最看重的是哪项能力(如推理、多模态、长上下文、工具调用稳定性),各自能落到哪些具体场景?     Soon创始人谭凯:  影响有限,偏效率增量而非商业化跃迁。我们最看重“推理与规划”“工具调用稳定性”,与SoonFX数值引擎协同强化数值生成/修改,进一步加强我们在AI数值方面的能力。目前美术素材依赖自研垂类模型,Gemini用于脚本、配置与CI/CD。  主要落地的场景代码生成与自调试;稳定驱动工具与资产管线;长上下文(百万token)持续记忆;Deep Think做关卡/剧情/经济与动态难度;更强安全与合规;结构化、可编辑输出(JSON/YAML/DSL)适配管线规范。    2、硅星人:soon团队是否已评估/试接入Gemini 3?与现有模型相比,你们希望Gemini3能解决哪方面的问题。     谭凯    :  目前正在评估与能力测试中,重点验证数值推理、多模态、长上下文与工具调用稳定性,暂不生产接入。期望提升数值生成/平衡与约束满足;长链任务稳定收敛;降低工具调用失败并断链自愈;结构化输出更稳定、解析更少失败。    3、硅星人:你们觉得Gemini3的能力,如果真的像发布会说的那样“强”,会对游戏开发带来什么根本性的改变吗?     谭凯    :  不会带来根本性改变,对行业并无实质提升。当前模型更多复刻既有产物,难形成生产闭环。  AI仍处于“能生成贪吃蛇、但不可能生成王者荣耀”的阶段,半成品普遍不可二次编辑/不可回归入库,工程与统筹的“最后10%”最难。  我们路径是Soon工具链打通“最后一公里”,我们生成的骨骼动画与素材可以进行二次编辑与调整并回写入库,直接落地商用;以可编辑资产管线+质量标准+流程,支撑从生成到入库的闭环。  模型评价标准:可编辑、可回归、可观测与度量、稳定的工具编排与CI;堆demo无意义。  1    Gambo:用实测结果说话,不行就是不行     世界上第一个游戏编程Agent,用户只需通过简单的文字描述,能快速生成完整的游戏,包括场景、角色、音效和交互逻辑。        1、硅星人:Gemini 3的发布,对“游戏Agent开发”最直接的影响是什么?您最看重的是哪三项能力(如推理、多模态、长上下文、工具调用稳定性),各自能落到哪些具体场景?     Gambo周卓泉:  Gemini 3的核心提升,第一是视觉理解能力的提升,可以更好的理解参考图片,能大幅提升Gambo通过游戏截图复刻一个游戏的还原度;第二大提升是图形绘制能力的提升,虽然还远远无法满足游戏的需求,但在教育等场景已经足够,能帮助这些场景快速落地。  我们第一时间做了测试,分别用Gemini 3和Claude 4.5生成一个街霸游戏,可以看到,两个模型生成的角色都由简单的形状拼凑,Claude的角色是一个圆形加一个矩形,Gemini的角色复杂一些,但也是由多个圆形、矩形构成。无法达到游戏对游戏资产的要求。  Claude  Gemini3  而真正的游戏依赖复杂的游戏资产,比如角色、动作、特效、地图、音乐等等,可以参考我们的用户在Gambo里复刻《丝之歌》游戏的真实录屏,AI会根据用户的对话内容,生成全类型的游戏资产。

作者:盛煌娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 盛煌娱乐 版权所有