对话王小川：国内在技术理想上拼不过OpenAI，但应用落地会跑得更快

6月15日、7月11日、8月8日。这是王小川自4月10日官宣创办百川智能入局AI大模型创业以来，先后推出三个大模型的时间。

过去的四个月里，百川智能的团队已增加到110多人，且先后推出7B、13B和53B三个不同参数规模的大模型，速度之快超出外界想象。

(资料图片)

Baichuan-53B是王小川昨日发布的新一代大模型，它在预训练数据、搜索增强、对齐能力等方面进行了优化。王小川称，这是一款通用大模型，在文本创作等文科能力上表现突出。

但不同于之前开源的7B、13B，王小川表示，从53B大模型之后就不再开源，因为部署成本较高。目前，这款模型已开启内测，下个月会开放API，甚至开放组件，优先把2B的服务做起来。

王小川透露，此前开源的7B和13B模型已有超过150家企业申请使用。对于为何要先做开源，王小川对搜狐科技解释称，开源一定程度是营销行为，可以后发制人，同时开源也是为商业化做储备，有各种用途和生态后，就有了收费的可能。

同时他判断，可能未来80%的企业都会用开源模型，闭源能力强，但成本非常高，而开源模型在很多地方非常好用。“开源闭源不是竞争关系，而是不同场景下的互补的关系。”

随着百川智能继续做更大规模的闭源模型，也会面临不少挑战。王小川表示，需要把模型做得足够好，同时要把推理成本降下来。“这是世界性难题，作为新手还要摸索，但我们有能力做到极致优化。”

在算力层面，王小川表示国产芯片一定要顶上来，光英伟达还不够，这是整个行业面临的问题。他透露，目前百川智能的算力是通过云厂商实现，腾讯、阿里都在为其提供云服务。

“我们说要做到中国最好的对标 GPT 的模型，这意味着对于预训练模型的追求不会停止，未来还会继续去做更大的模型。”王小川表示，百川智能既要做更大参数模型，后面还要做出差异化。

此前7月底，王小川的前合作伙伴洪涛加盟百川智能。王小川表示，这来代表公司在商业层面开始布局。“不管7B还是13B，还是53B，更多是为2B行业做准备，团队也已经部署2C的超级应用，且未来不只有一款。”

而在今年6月考察了美国后，王小川也将百川智能的发展策略从“理想上比OpenAI慢半步，落地上快半步”改成“理想上慢一步，落地上快三步”。他认为，国内在技术理想上拼不过OpenAI，国内离GPT-4都有距离，但应用落地会跑得更快。

对于目前的百模大战，王小川依然相信未来的五张船票会有百川智能的一席之地。他表示，钱非常重要，但最终决定能力的还是人才团队，尤其是组织能力，钱、组织能力是关键。据他透露，百川智能初始估值5亿美金，第二轮可能就是10亿美金，目前融资也非常顺利。

“大厂钱多、人多、算力多，但组织效率不一定够好。组织效率对我们不是挑战，也有大厂相对完整的经验，如果钱能保证的话，能力会很强。”王小川表示，中国谁能做最好的大模型现在没有结论，还无法确定大厂小厂谁能取胜，做应用也是，都有争取的机会。

以下是媒体对话节选（经编辑整理）

谈开源：53B大模型后闭源，未来80%的企业都会用到开源

媒体：此前发布的7B和13B开源大模型落地应用情况怎么样？

王小川：我们是新兵，作为后发者进入市场，开源对我们来讲，能给中国的开源生态作一些贡献，同时展现我们的技术实力，开源后只要持续不断技术迭代，就会有自己的商业模式。

现在有超过150家企业申请使用百川模型，很多都是行业头部企业。商业化工作也会开展起来，借助开源引擎，还有更好的参数模型，以及整套组件也在研发当中，能统一提供部署。

媒体：有观点称，今天在国内做开源带有营销的目的，百川为什么要先做开源？

王小川：开源应该有几层意义。第一层就是营销行为，要告诉我行不行，有用没用，后发者可以后发制人，更容易使朋友多多，能够让大家迅速去评测了解。第二层的话，开源有时是为了商业化做储备，有了各种用途和生态之后，就有了收费的可能。这在国外有探索，中国虽然之前不成功，但依然可以借鉴。

媒体：OpenAI的GPT-1和GPT-2是开源，GPT-3之后就闭源，百川从开源走向闭源的标准是什么？

王小川：我觉得和模型大小相关，参数大的部署成本已经开始增加，这种情况下我们就选择走闭源。但原来说开源是开放论文、代码，GPT-1和GPT-2就是这样，让别人去复刻，我们只是开放模型的能力，让B端都能够用到，和OpenAI是不一样的模式。

媒体：百川现在既有开源也有闭源的大模型，开源和闭源未来会是怎样的应用前景？

王小川：从2B角度看，开源闭源都需要。我们认为可能未来80%的企业会用到开源模型，闭源没办法对场景做特别好的适配，能力是强，但成本非常高。但开源模型可以做到非常小巧，很多地方非常好用。开源闭源不是竞争关系，而是不同场景下的互补的关系。我们更关心2C怎么做，2B怎么做，而不是纠结开源闭源的问题，这个共识在逐步形成当中。

媒体：闭源成本很高，怎么能有竞争力？

王小川：主要是两个事，一是把模型做得足够好，拼的是模型的能力。二是得把推理的成本降下来，这是世界性难题。作为新手还要摸索，把闭源的推理成本降下来。我们有能力做到极致优化，其他人能做到我们也能，甚至做得更好。

谈落地：B端C端都会布局，有信心同时打好几场仗

媒体：现在是百模大战，竞争对手很多，公司落地应用的思路是什么？

王小川：我们认为一家公司不可能把所有赛道都做完。B端我们选择先做开源模型，B端企业和中间层的公司，做二次开发的公司，可以基于开源模型去适用场景，保持足够开放。

内部团队也开始部署C端的超级应用，思考如何追上GPT-4，能带来哪些C端应用，预计网信办发牌照放行的工作今年会放开。我们在两头都走得更远一点，OpenAI目前B端就是API调用，C端就是ChatGPT。

媒体：百川在商业化层面已经开始布局？跟火山引擎和合作能否理解成LLaMA和微软的合作？

王小川：洪涛过来代表我们在商业层面开始布局。我们做模型做得蛮快，在商业化上可能也会跑得挺快，每件事情都争取做得越快越好。闭源本身在2B里面也有服务，包括2C，多条线里面都有很多机会。我对团队过往的能力、经验有信心，能同时打好几场仗。

LLaMA通过微软云向全球企业提供服务，国内除了火山引擎，后面会看到阿里云、腾讯云也会有类似模式。美国只有微软在做，国内云厂商都会有类似战略，都会开放跟模型厂商合作。

谈算力：对模型的追求不会停止，国产算力要顶上

媒体：百川后面会用什么节奏做预训练，会不会用更多的资源做算力集群去提升模型能力？

王小川：预训练的能力，包括搜索的能力，强化的能力，能共同推动大模型的进步。从实操角度讲，搜索效果最明显，强化比较有难度，预训练是在提高模型的综合能力。

我们讲要做到中国最好的对标 GPT 的模型，这意味着对于预训练模型的追求不会停止，未来还会继续去做更大的模型。我们对于搜索和强化也有自己的技术追求，让我们既能做万亿参数，后面还能做出差异化。现在对标的就是OpenAI，那么大模型不可避免会出现同质化，后面就要看是否有独有的技术能力。

媒体：现在大模型的成本中，算力占到多大的比例？算力会是瓶颈吗？

王小川：算力分两部分，训练和推理。训练阶段算力成本挺贵，行业40%以上可能都得给算力。百川可能在40%到70%，包括GPU网络联通。中国要想解决好算力这件事，一定要有国产算力，光英伟达我觉得不够，这是整个行业的问题。我们目前的算力是通过云厂商实现，腾讯、阿里都在给我们提供云服务。

谈百模大战：技术理想不如OpenAI，无法确定谁能取胜

媒体：今年国内大模型这半年有通用也有垂直，整体水平怎么样？您也去了硅谷，他们怎么看？

王小川：今天不管是十家、百家、千家，最后一定看两件事，第一能否拿出足够好的AGI来，能否跟GPT-3.5、GPT-4比肩，现在大家都有距离，哪些企业能达到，现在很难去判断。第二能否做出超级应用来，大模型很烧钱，是否有超级应用场景也还看不清。

我6月去美国，是去感知和对话，了解他们的技术思路。第一个收获是对齐认知，之前大家是两套语言体系。第二个收获是他们做技术确实不错，但做应用的能力不行。去之前，我当时提“理想上比OpenAI慢半步，落地上快半步”，回来后改成“理想上慢一步，落地上快三步”。他们不是往落地方向走，国内技术理想确实拼不过，但落地上会跑得快。

媒体：创业公司在里面该怎么玩，钱是不是最重要的？

王小川：美国通用闭源大模型的几家头部已经定下来，OpenAI、Google等，资本也不会再去投。但中国谁能做最好的大模型现在并没有结论，大家都有争取的机会，现在还无法确定大厂小厂谁能取胜，做应用也是。

钱非常重要，但最终决定能力的还是人才团队，尤其是组织能力，所以钱、组织能力应该是关键环节。大厂钱多、人多、算力多，但组织效率不一定够好。组织效率对我们不是挑战性的事情，也有大厂相对完整的经验，如果钱能保证的话，我们的能力还是很强。

媒体：之前说大模型有五张船票，现在还有几张？

王小川：船票的话现在依然还是有5张，如果只有2张我们也会在这个船上。这5张并不扣除大公司，但创业者没有5张船票。

责任编辑：