6月15日、7月11日、8月8日。这是王小川自4月10日官宣创办百川智能入局AI大模型创业以来,先后推出三个大模型的时间。
过去的四个月里,百川智能的团队已增加到110多人,且先后推出7B、13B和53B三个不同参数规模的大模型,速度之快超出外界想象。
(资料图片)
Baichuan-53B是王小川昨日发布的新一代大模型,它在预训练数据、搜索增强、对齐能力等方面进行了优化。王小川称,这是一款通用大模型,在文本创作等文科能力上表现突出。
但不同于之前开源的7B、13B,王小川表示,从53B大模型之后就不再开源,因为部署成本较高。目前,这款模型已开启内测,下个月会开放API,甚至开放组件,优先把2B的服务做起来。
王小川透露,此前开源的7B和13B模型已有超过150家企业申请使用。对于为何要先做开源,王小川对搜狐科技解释称,开源一定程度是营销行为,可以后发制人,同时开源也是为商业化做储备,有各种用途和生态后,就有了收费的可能。
同时他判断,可能未来80%的企业都会用开源模型,闭源能力强,但成本非常高,而开源模型在很多地方非常好用。“开源闭源不是竞争关系,而是不同场景下的互补的关系。”
随着百川智能继续做更大规模的闭源模型,也会面临不少挑战。王小川表示,需要把模型做得足够好,同时要把推理成本降下来。“这是世界性难题,作为新手还要摸索,但我们有能力做到极致优化。”
在算力层面,王小川表示国产芯片一定要顶上来,光英伟达还不够,这是整个行业面临的问题。他透露,目前百川智能的算力是通过云厂商实现,腾讯、阿里都在为其提供云服务。
“我们说要做到中国最好的对标 GPT 的模型,这意味着对于预训练模型的追求不会停止,未来还会继续去做更大的模型。”王小川表示,百川智能既要做更大参数模型,后面还要做出差异化。
此前7月底,王小川的前合作伙伴洪涛加盟百川智能。王小川表示,这来代表公司在商业层面开始布局。“不管7B还是13B,还是53B,更多是为2B行业做准备,团队也已经部署2C的超级应用,且未来不只有一款。”
而在今年6月考察了美国后,王小川也将百川智能的发展策略从“理想上比OpenAI慢半步,落地上快半步”改成“理想上慢一步,落地上快三步”。他认为,国内在技术理想上拼不过OpenAI,国内离GPT-4都有距离,但应用落地会跑得更快。
对于目前的百模大战,王小川依然相信未来的五张船票会有百川智能的一席之地。他表示,钱非常重要,但最终决定能力的还是人才团队,尤其是组织能力,钱、组织能力是关键。据他透露,百川智能初始估值5亿美金,第二轮可能就是10亿美金,目前融资也非常顺利。
“大厂钱多、人多、算力多,但组织效率不一定够好。组织效率对我们不是挑战,也有大厂相对完整的经验,如果钱能保证的话,能力会很强。”王小川表示,中国谁能做最好的大模型现在没有结论,还无法确定大厂小厂谁能取胜,做应用也是,都有争取的机会。
以下是媒体对话节选(经编辑整理)
谈开源:53B大模型后闭源,未来80%的企业都会用到开源
媒体:此前发布的7B和13B开源大模型落地应用情况怎么样?
王小川:我们是新兵,作为后发者进入市场,开源对我们来讲,能给中国的开源生态作一些贡献,同时展现我们的技术实力,开源后只要持续不断技术迭代,就会有自己的商业模式。
现在有超过150家企业申请使用百川模型,很多都是行业头部企业。商业化工作也会开展起来,借助开源引擎,还有更好的参数模型,以及整套组件也在研发当中,能统一提供部署。
媒体:有观点称,今天在国内做开源带有营销的目的,百川为什么要先做开源?
王小川:开源应该有几层意义。第一层就是营销行为,要告诉我行不行,有用没用,后发者可以后发制人,更容易使朋友多多,能够让大家迅速去评测了解。第二层的话,开源有时是为了商业化做储备,有了各种用途和生态之后,就有了收费的可能。这在国外有探索,中国虽然之前不成功,但依然可以借鉴。
媒体:OpenAI的GPT-1和GPT-2是开源,GPT-3之后就闭源,百川从开源走向闭源的标准是什么?
王小川:我觉得和模型大小相关,参数大的部署成本已经开始增加,这种情况下我们就选择走闭源。但原来说开源是开放论文、代码,GPT-1和GPT-2就是这样,让别人去复刻,我们只是开放模型的能力,让B端都能够用到,和OpenAI是不一样的模式。
媒体:百川现在既有开源也有闭源的大模型,开源和闭源未来会是怎样的应用前景?
王小川:从2B角度看,开源闭源都需要。我们认为可能未来80%的企业会用到开源模型,闭源没办法对场景做特别好的适配,能力是强,但成本非常高。但开源模型可以做到非常小巧,很多地方非常好用。开源闭源不是竞争关系,而是不同场景下的互补的关系。我们更关心2C怎么做,2B怎么做,而不是纠结开源闭源的问题,这个共识在逐步形成当中。
媒体:闭源成本很高,怎么能有竞争力?
王小川:主要是两个事,一是把模型做得足够好,拼的是模型的能力。二是得把推理的成本降下来,这是世界性难题。作为新手还要摸索,把闭源的推理成本降下来。我们有能力做到极致优化,其他人能做到我们也能,甚至做得更好。
谈落地:B端C端都会布局,有信心同时打好几场仗
媒体:现在是百模大战,竞争对手很多,公司落地应用的思路是什么?
王小川:我们认为一家公司不可能把所有赛道都做完。B端我们选择先做开源模型,B端企业和中间层的公司,做二次开发的公司,可以基于开源模型去适用场景,保持足够开放。
内部团队也开始部署C端的超级应用,思考如何追上GPT-4,能带来哪些C端应用,预计网信办发牌照放行的工作今年会放开。我们在两头都走得更远一点,OpenAI目前B端就是API调用,C端就是ChatGPT。
媒体:百川在商业化层面已经开始布局?跟火山引擎和合作能否理解成LLaMA和微软的合作?
王小川:洪涛过来代表我们在商业层面开始布局。我们做模型做得蛮快,在商业化上可能也会跑得挺快,每件事情都争取做得越快越好。闭源本身在2B里面也有服务,包括2C,多条线里面都有很多机会。我对团队过往的能力、经验有信心,能同时打好几场仗。
LLaMA通过微软云向全球企业提供服务,国内除了火山引擎,后面会看到阿里云、腾讯云也会有类似模式。美国只有微软在做,国内云厂商都会有类似战略,都会开放跟模型厂商合作。
谈算力:对模型的追求不会停止,国产算力要顶上
媒体:百川后面会用什么节奏做预训练,会不会用更多的资源做算力集群去提升模型能力?
王小川:预训练的能力,包括搜索的能力,强化的能力,能共同推动大模型的进步。从实操角度讲,搜索效果最明显,强化比较有难度,预训练是在提高模型的综合能力。
我们讲要做到中国最好的对标 GPT 的模型,这意味着对于预训练模型的追求不会停止,未来还会继续去做更大的模型。我们对于搜索和强化也有自己的技术追求,让我们既能做万亿参数,后面还能做出差异化。现在对标的就是OpenAI,那么大模型不可避免会出现同质化,后面就要看是否有独有的技术能力。
媒体:现在大模型的成本中,算力占到多大的比例?算力会是瓶颈吗?
王小川:算力分两部分,训练和推理。训练阶段算力成本挺贵,行业40%以上可能都得给算力。百川可能在40%到70%,包括GPU网络联通。中国要想解决好算力这件事,一定要有国产算力,光英伟达我觉得不够,这是整个行业的问题。我们目前的算力是通过云厂商实现,腾讯、阿里都在给我们提供云服务。
谈百模大战:技术理想不如OpenAI,无法确定谁能取胜
媒体:今年国内大模型这半年有通用也有垂直,整体水平怎么样?您也去了硅谷,他们怎么看?
王小川:今天不管是十家、百家、千家,最后一定看两件事,第一能否拿出足够好的AGI来,能否跟GPT-3.5、GPT-4比肩,现在大家都有距离,哪些企业能达到,现在很难去判断。第二能否做出超级应用来,大模型很烧钱,是否有超级应用场景也还看不清。
我6月去美国,是去感知和对话,了解他们的技术思路。第一个收获是对齐认知,之前大家是两套语言体系。第二个收获是他们做技术确实不错,但做应用的能力不行。去之前,我当时提“理想上比OpenAI慢半步,落地上快半步”,回来后改成“理想上慢一步,落地上快三步”。他们不是往落地方向走,国内技术理想确实拼不过,但落地上会跑得快。
媒体:创业公司在里面该怎么玩,钱是不是最重要的?
王小川:美国通用闭源大模型的几家头部已经定下来,OpenAI、Google等,资本也不会再去投。但中国谁能做最好的大模型现在并没有结论,大家都有争取的机会,现在还无法确定大厂小厂谁能取胜,做应用也是。
钱非常重要,但最终决定能力的还是人才团队,尤其是组织能力,所以钱、组织能力应该是关键环节。大厂钱多、人多、算力多,但组织效率不一定够好。组织效率对我们不是挑战性的事情,也有大厂相对完整的经验,如果钱能保证的话,我们的能力还是很强。
媒体:之前说大模型有五张船票,现在还有几张?
王小川:船票的话现在依然还是有5张,如果只有2张我们也会在这个船上。这5张并不扣除大公司,但创业者没有5张船票。
责任编辑: