优化胜率而非赔率，把一件事做到理论上该有的样子

曲凯：今天我们又请到了albert。之前他在我们这边做过两次播客，是非常受欢迎的嘉宾。从2023年到现在差不多三年，你做了不少尝试，上一款产品也做到小几千万刀ARR，能从头讲讲这三年的思路吗？

Albert：2023年录第一期播客的时候，我的状态还是看赔率大于看胜率：假设这件事发生了，能创造多大价值、具备多强壁垒？从这个视角出发，你推导出来的结论自然是——怎么用好AI这把大榔头，去创造已经被验证过的商业形态。那因为我自己一直做连接和内容出身，方向就很明确：找一种以内容为核心载体的连接平台，而要定义这样一种产品，核心是要找到一种新的媒介。

我们当时押注的是互动内容，它和视频、图像这类消费式内容有本质区别，而AI又解锁了coding能力，让创作这种内容变得更容易。我们前后做了两个demo：一个是偏图像和视频方向的2D交互方式，另一个把交互改成手机上的摇杆控制器，PC端也做了一个更像游戏的可互动空间。

做完以后，我最大的体感是：我很难回答「为什么我不去玩王者荣耀、不去刷抖音？」。这让我意识到一个规律：在内容市场里，创造门槛越高的模态，供给越稀缺。用户的时间有限，只会消费最头部的1%的内容，而当时AI只能做出60分、70分、甚至80分的内容——但80分的内容对消费端来说就是垃圾。所以for消费、做内容这条线，肯定不work。

For表达、做工具可能有价值，但这里有个关键区分：用户的创作动机到底是自我表达，还是更功利的目的——赚钱、获取影响力？模态创作成本越高，供给驱动的特性就越强。如果你的切入点是降低门槛，就会牺牲自由度，变成全家桶——因为它们之间有天然的tradeoff。AI有可能突破这个tradeoff。但即便工具侧有好的解法、技术也到位了，分发侧仍然有很大障碍——拿互动内容来说，如果它更偏游戏形式，你很难做出超越Steam、App Store或TapTap的价值和体验。

所以我回过头来重新思考，为什么我要做一个连接平台？我后来意识到这种想法受中国市场的影响很深。因为在这里，如果你没有强规模效应、强网络效应的平台形态，就很难在和巨头的竞争中获得优势，胜率会非常低。但当我去研究美国市场以后，我发现那边其实存在大量的niche market，显然是有一定胜率空间的。

所以到2024年初，我完成了一个切换，从赔率driven，变成了胜率driven：去研究哪些技术已经成熟，而哪些真实的用户问题没有被解决。

曲凯：你说2024年之前，你应该基本都在优化赔率。这其实也是绝大多数创始人在做的事情。能不能再多讲讲，你是如何理解这两个问题的？

Albert：大多数创业者优化赔率的原因很简单，VC也是在优化赔率。这样对齐，更容易拿钱。但上一代真正成功的企业家，其实基本都在优化胜率。只是有些人运气更好，因为他碰到的赛道本身赔率就非常高。比如张一鸣是一个非常保守的人，是一个标准的胜率驱动者。我之前问他，我应该怎么选创业方向？他反问我：为什么不做更有把握的事情？

张一鸣最有把握的事是信息分发，他在PC互联网的尾巴就在做搜索。出来做字节跳动，第一个做的是内涵段子，到2014年，当时海内外已经有很多视频产品了，但他还是say no。一直等到2016年，很多条件都成熟了，才正式下场做视频。

黄峥也很典型。PC时代做电商，一直在看供给侧的变化、流量端的变化，也一直在供应链里做很多生意。后来拼多多这个结构性机会出现，他就抓住了。

王兴做美团，看起来好像和他们之前做的事情完全不一样。我有次还专门问过王慧文这个问题，他的回答是：在那个时间点，所有做团购的人里，懂线下的没有他们懂线上，懂线上的没有他们懂线下（校内网时期涉及大量的线下地推和管理工作）。

所以看起来是突然转向，但他们都是在上个时代积累一些东西，到了这个时代去做。这是一个很典型的优化胜率策略。真正一流的企业家，基本都在优化胜率，没有人在真正优化赔率。优化赔率，本质上就很像赌博。

曲凯：我原来一直以为优化胜率或赔率只是不同的策略。按你的意思，它反而不是一个选择题，而是一个更接近「对不对」的问题？所以到底什么叫优化赔率？它会不会本身就是个伪概念？

Albert：比如你说「我要做下一个抖音」，这就是优化赔率。因为它足够大，所以我要做它——这本身就是个伪命题。如果你真的是在优化胜率，那你在第一天其实说不出来「我要做抖音」。第一天你应该说的是：你到底要解决什么问题。

曲凯：所以你从优化赔率切到优化胜率，最终在行为上真正发生了什么变化？

Albert：更具体一点说，就是尽量选择变量更少、自己能控制得更多的事情。如果一个事情变量太多、不可预测性太高、超出我能力范围的东西太多，那我就尽量不选。

曲凯：那个人呢？现在如果有人要加入你们、加入创业公司，他到底是在优化胜率还是优化赔率？

Albert：我觉得对任何应聘者来说，本质上都应该是在优化胜率。因为你最终优化的，还是自己的能力、自己的视野、自己的信息质量。回过头来看，这些东西本质上都是胜率。但这不等于说，优化胜率就得不到赔率。恰恰相反，只有你在优化胜率的时候，得到赔率的概率才会更高。上期播客我讲过一个很重要的观点：运气是你的优势被时间放大的结果。所以赔率是等来的，而胜率是发现重要问题后，自己主动做出的选择。所以最好的情况，是你选择那些未来赔率可能更高、但今天依然可以用胜率方式去推进的方向。

反过来，一个人如果自己并不认可这家公司做的事情，也不认可这家公司的人，只是觉得「这家公司听说明年要上市」、「这家公司现在融资很好」，所以想去——这其实就是典型的优化赔率。

曲凯：你刚刚提到了张一鸣，最近你研究段永平也比较多，如果拿他们俩做一个比较，你分别学到了什么？他们最大的不同是什么？

Albert：字节整体上更偏强者思维，而段永平更偏弱者思维。我一直觉得，在某个阶段上，字节并不是一个适合普通人的学习对象，因为它会带来两种巨大的错觉：你会把完美主义当成标准，而且总是用第一性原理去想问题。但第一性原理需要庞大的资源作为前提。对于大多数人来说，你更多还是要在约束下思考问题。

段永平的投资哲学和创业哲学其实是一致的。投资上他讲right business、right people。这是从巴菲特那里学来的，核心就两个东西：一个是商业模式，一个是文化。放到公司经营里，也就是战略和管理。这种做法把文化放到更高的位置上：大家都是普通人，但在一个好的文化下，选择一个真正值得创造价值、能够做出差异化价值的方向，普通人也能做出很大的成绩。段永平这套哲学会更平常心，也更接近普通人。黄峥其实也很强调这一点。

曲凯：好，我们再来聊聊AI。我很喜欢你的一个框架，把AI分成「想象力」和「智能」。你觉得这么分类，对于你理解这个行业有什么好处？

Albert：AI目前有两类场景。一个是帮用户杀时间，给他某种过程性的体验和乐趣。另一类场景则是帮用户省时间，帮用户节约成本、完成任务。从这个角度看，这也刚好对应了当时模型发展的两个方向：一边是图像、视频这些多模态模型，一边是语言模型。对于创业者而言，在过去做这样的区分是有必要的：模型本身差异很大，用语言模型，还是用图像、视频模型，会直接决定你的创业机会在哪里。但这件事情未来可能会改变，因为多模态能力已经发生了很大的变化。比如Gemini的理解能力变强之后，也会反过来提升图像生成（nano banana）的效果。

曲凯：那至少在当下，这个分类还是成立的？我们先说想象力和图像、视频模型这一块。现在其实也分成两条线：一条是工具产品，比如给营销人员、专业创作者用，本质上也是在省时间；另一条是陪伴类、互动内容这类更偏娱乐的产品。你怎么看这两条线？

Albert：模型发展的一个基本方向是，平台总会不断提供更好的模型能力，并且为更好的效果收更高的价格。虽然上一代模型会因为新模型的推出而降价，但真正的推理成本并没有明显下降，所以好的效果始终有溢价。今天如果你想做一个娱乐型产品，而不是工具型产品，你几乎不可能长期使用SOTA，因为你的商业模式根本转不起来。工具是目前确定性最高的，它的商业化路径也非常清晰。相比之下，以陪伴为代表的互动、娱乐内容虽然也是一个很真实的方向，但它的商业化效率到底怎么样，我觉得现在还很难判断。

曲凯：互动类的内容我们之前也讨论过它的问题。你再怎么做，可能也很难超过抖音或者王者荣耀的体验。模型能力可能已经从二三十分涨到七八十分，做出来的东西也确实更新、更厉害了，但用户未必care。

Albert：对。越沉浸、越重度的内容，用户的参与成本越高，它的竞争往往就越激烈，供给也越稀缺。最后可能只有0.0001%的人能创造出最好的东西。这件事情的破局点可能不在内容本身，而是承载它的容器。比如短视频这个容器，里面每一条内容都一定足够优质吗？也不一定。但这个容器本身可以帮用户形成习惯，甚至hack用户的行为，让他更容易沉迷进去。但如果你在容器上没有找到好的方法，内容本身又需要占据用户比较长的时间，竞争就会变得很严重。

曲凯：现在还有很多人在讲，要做AI时代的抖音，但照你这么说，AI的重点不是生成更好的内容，因为就算你生成的内容比现在人做的还好，创作者还是会上传到抖音。所以更重要的可能还是你刚才说的容器——我需要一种新的交互，而且这种交互和内容本身是契合的。

Albert：顺着你说的，我再补充一点：最好的内容一定会流向变现效率最高的地方，而变现效率最终是由规模效应和网络效应决定的。所以已经存在的平台天然有巨大的优势。如果你没有创造出新的内容形态，只是在工具侧拥有了更强的内容生产能力，那其实是没用的。哪怕你做了一个非常好的剪辑软件，这个剪辑软件产出的内容最后会去哪？还是去抖音，去Netflix，不会去一个新的地方。

曲凯：你看抖音早期的时候，它的交互其实也没有多大的创新，本质上就是上下滑。只不过因为网络基础设施、流量成本这些条件发生了变化，这个模式就起来了，可以这么理解吗？

Albert：我觉得今天回头看：一个成功的产品形态，最后一定是三个东西同时闭合：第一是用户，第二是模态，第三是内容类型。比如小红书，它是用图文来承载「有用内容」，服务的是一二线城市女性。这个闭环就是成立的。抖音的模态是短视频，内容是卡点、运镜、音乐配合这些通过时间轴剪辑形成的消费体验，（初期）用户则是那些唱跳好、表现力强、镜头感也很好的人。这个闭环同样成立。再比如内涵段子，它是用图文混排去承载搞笑内容、段子、低俗笑话，服务的是另外一类非常特定的人群。它其实也有自己的闭环。只有找到这三者的闭合，它才更容易完成冷启动，之后再尝试往更广的方向去泛化。像内涵段子这种产品，它的泛化就很难。因为它绑定的是某一种内容题材，而不是一种更强的媒介类型。内容题材的垂类，最后往往抵不过模态垂类的牵引力。抖音后来真正占住的，是短视频的媒介。小红书占住的，则是承载有用内容的图文。所以回头看，一个产品最后能不能起来，其实是很多巧合和很多设计叠加在一起的结果。我记得以前有个产品，应该叫火萤，行业里算是比较早在中国做全屏体验的一批产品，一度DAU也很高。它当时的用例好像是动态桌面的分享社区。但它的内容形式和它的用户、模态并不匹配。虽然短期内有过规模，但最后还是没走出来。所以当年其实有很多短视频产品，最后都消失了。原因就是它们没有很好地定义出这三者的交汇点。

曲凯：所以你现在还相信会有AI时代的下一个抖音吗？还是你觉得其实就是抖音自己？

Albert：这取决于你怎么定义「下一个抖音」。我当时离开字节的时候，原因之一就是我发现，在整个移动互联网里，除了微信之外，几乎没有任何一个移动端原生的app的DAU能长期超过1亿。我当时觉得这是不合理的。那个时候中国手机活跃设备大概有七八亿，微信大概六亿DAU。按理说，每一个活跃设备都应该有通讯软件，也应该有娱乐产品。那娱乐产品怎么可能没有一个全民级的机会？所以我当时离开字节，就是想去找这种机会。只是我当时没有想到，短视频最后会大到那个程度。这算是一个错误判断。但今天我觉得逻辑其实还是类似的。现在的智能水平已经很强了，而智能在娱乐里的应用空间也会非常大。今天ChatGPT已经有非常大的日活了，未来几乎所有活跃设备上，用户都应该会和智能发生交互。如果这个判断成立，那么第一，ChatGPT自己就还有巨大的空间；第二，在它重叠出来的那些场景里，一定会出现很多由智能带来的娱乐需求。

曲凯：我想再聊一下多模态里像Higgsfield这样的公司，因为你们当时的大方向都是都是偏视频生成这个模态。你觉得这里面的区别是什么？Higgsfield在那个时间点，做对了什么，才会起来得这么快？

Albert：我觉得如果要回答Higgsfield为什么能起来，不能只回答它自己做对了什么，还得先回答视频模型和图片模型领域的模型能力和竞争格局到底是什么样的。首先，这个领域现在不是一家独大，而是多超多强。第一梯队里有Sora、Seedance、Veo、可灵，大家只是在不同场景、不同阶段，各自占据SOTA。一旦出现这种能力分布不均的情况，聚合站和全家桶式的产品就一定有机会。因为用户天然会想用更少的钱，享受更多模型服务，这几乎是必然的。其次，影像领域本身的需求足够大。从社媒创作者，到各种商业场景里的应用，几乎每家公司、甚至大部分个体，都有影像内容的需求。这样一个高度分散、又足够普遍的需求，天然会催生更通用的产品形态。再往下看，还有两个约束。一个是，模型能力再强，真正能把有限idea用好的人，仍然是有限的。另一个是，任何多模态内容的创作里，语言和你脑子里真正想象的画面之间，始终存在巨大的gap。这几个约束叠加起来，你就会发现，一定会有人通过模板去定义审美，去大幅降低用户成本。所以这些条件一摆出来，你其实很快就能知道，这个阶段最容易抓住机会的产品大概会长成什么样——它就会越来越像Higgsfield这样的产品。它要解决的问题，就是模板化定义、审美社区，以及用户成本的降低。但即使你把产品形态定义出来，这件事情也还不够，因为行业里类似形态的产品其实不少。所以我们还需要看另外两个指标：一个是用户意愿有多强，另一个是交付能力有多强。用户意愿这件事，其实会随着整个AI行业的热度一起上升。大家都在不断教育市场，说AI很厉害、很强、能做很多事情。所以整体的大beta是向上的。但交付能力不是，交付能力是不断迭代的。很可能用户今天看到你展示的东西，觉得很惊艳，愿意来试；但试完发现实际结果很差，那他下一次再愿意尝试，你的成本就会高很多。影像模型的发展速度太快了：一个月前还做不到的效果，一个月后就可以了。Higgsfield做得最好的一点，是它总能把某一个阶段真正能交付的能力，封装成一个非常好卖的产品点。一开始一致性很差的时候，它推出了Soul。但其实海外之前把Flux LoRA模型做得最好的产品是另一家，但它们并没有把这个能力卖好。再到后来的drag to video，以及最近的灯光控制，Higgsfield每一次都能比较准确地把交付能力包装成一个在社媒上能成立的东西。但如果你仔细去看，它卖的东西其实依然是三分真、七分假。他们团队对内容的理解实在太强了，所以在展示这些能力的时候，它们知道该选什么素材、怎么展示，才能把这个能力显得最成立。用户看到的时候会觉得特别惊艳，但自己一上手，又会发现很难做出它demo里那种效果。

曲凯：所以现在大家已经不会再纠结「套壳是不是好生意」了，关键在于谁能套得更好。套壳本身不是问题，问题是你套得好不好。

Albert：我一直都觉得，「套壳」这个说法本身就是工程师视角，用户根本不在意你是不是壳。用户只在意两件事：第一，你是不是现在最好的；第二，你是不是解决了我的问题。所以模型能力越好，对应用来说当然就越有利。核心不在于你是不是用了别人的模型，而在于你能不能把这个模型能力真正拿出来、用好。而Higgsfield的例子告诉我们，光用好都不够，还得秀好。

曲凯：所以如果创业者要把壳套好，有几个点是明确的。一个是你肯定要对模型有非常深的理解。它新出了什么东西、马上可能会出什么东西，你得有判断，也得有感知。第二个是你刚才提到的审美。不管是内容审美还是产品审美，你得知道怎么把这个模型能力真正用起来。再一个就是执行力。这两年大家其实都很强调执行力，因为模型一直在变、一直在升级，所以你套壳的速度也很重要。很多时候，往往就是第一个能把它用起来的人，能最大化地拿到这个新模型的价值。

Albert：对。

曲凯：你最近也一直在提一句话：把一件事做到理论上应该有的样子。我觉得这句话越想越有道理，你能不能再解释一下，这句话背后的想法是什么？

Albert：它本质上是一个心态问题：你怎么在看见这件事很不完美的情况下，依然觉得自己应该尽力去把它做到理论上的样子。所以它更像是一种指导方针。因为在真实世界里，你离那个状态其实是很远的。

曲凯：对，我听这句话的时候，经常会想到它有点像「做正确的事」。

Albert：它不是「做正确的事」，它是「正确地做事」。它是how to，不是why。

曲凯：那你觉得2026年做什么样的事是正确的？

Albert：首先，我觉得AI这件事情还是很长。多模态的理解能力，这件事情肯定值得被利用。我一直在说的是视频模型和图像模型，而不太想直接说多模态。因为在我看来，多模态更代表的是理解能力，而不是生成能力。在很长一段时间里，理解能力是比生成要弱的。前几年的「多模态」更多只是视频模型和图像模型的进步而已，和理解、智能的关系并不大。但现在已经有了很大进展：比如Gemini 3，它在理解能力上的提升就是非常明显的。至少从目前来看，在「理解能力的大幅提升」这件事情上，Google的优势还是比较明显的，主要就是算力优势，而且它也确实找到了一些可以继续scale的方法，所以它的理解能力才会有这么大的提升。接下来一个更关键的问题是：这种理解能力的提升，能不能反过来提升智能本身？也就是说，不只是传统意义上「看懂图像、看懂视频」的多模态理解，而是这种理解能力变强之后，能不能进一步抬高模型本身的智能水平。我觉得大家对这件事情其实是相对乐观的，至少我是比较乐观的。因为随着理解能力越来越强，它能解锁的场景一定会越来越多。我记得我上一次就在想一个问题：当眼睛带了脑子，会发生什么？这个问题到现在我都还在想。

曲凯：那如果这么说的话，过去几年里面，智能其实还是最大的杠杆，只是你们没有在最好的时间点把它用到极致。像Manus，其实就是一个很典型的例子。

Albert：我觉得也不晚，而且我不完全同意「过去几年最大的杠杆是智能」这个说法。更准确地说，最大的杠杆其实是coding。所以我觉得，多模态之外，第二件重要的事情是coding平权。你怎么去做coding平权，以及怎么找到一种好的交互方式，在这个场景下更好地释放模型的能力。因为智能本身并不会自动显化出来，它是要通过coding来完成的。只有coding，才能让智能真正突破它原本停留在「会回答」、「会理解」那个层面上的界限。但如果你想把coding这个能力用好，其实再早也没用。它一定要到一个时间点以后才成立。至少要到Sonnet 3.5这个阶段，再往后到Opus，整个能力才真正开始变得可用。差不多从那个时候开始，很多事情才开始变得有意义。所以我会觉得，这件事不是说谁看得更早就一定更有优势，而是模型真的到了那个点，创新能力才会一天一个样。

曲凯：那你有没有想过，假设未来技术已经完全成熟，调用成本也足够低了，最酷的产品会是什么？比如就当是在写一篇科幻小说的话。

Albert：我最近其实在想一个很有意思的故事。有一个人，他是AI的信徒，他相信一切都是注定的，一切都是可以被证明的。于是他试图集合全世界的算力，把所有「已经被证明的约束」都注入到一个系统里。比如物理学、脑科学、生物学里的那些第一性原理，把这些约束全部放进去，然后让这个模型自己演化。在适当的时候，他再用一些外力去调参数，让这个演化过程逐渐对齐地球的发展。也许从最早的生命开始，一直到人类出现，再到文明演化出来。慢慢有一天，他发现这个系统里的演化，终于对齐到了人类的今天。然后他们开始观察这个世界。但他真正build这个系统的动机，不只是复现历史，而是想穷尽更多算力去预测未来。因为约束是没有变的，所以他想看看，如果在这些约束下继续往后推演，未来到底会发生什么。然后有一天他发现，这个演化世界停在了某一个时刻。因为在那个世界里，也有人开始集合所有算力，去预测自己的未来。于是这个循环又开始了。所以最后你会发现，对未来的全部想象，本质上都在预测未来本身。

作者：星辉注册登录平台

新闻资讯 News

案例展示 Case

现在致电 8888910 OR 查看更多联系方式 →

现在致电 8888910 OR 查看更多联系方式 →