新芒x 5月16日消息 当我们使用大模型时,会向大模型提问。在大模型厂商眼里,我们可以把一次提问简单看成一个向大模型提出的请求(Request),一个请求会包含输入、输出两部分,也就是用户先向模型提问,模型给出答案。
问题和答案中包含的文字量通常会用固定的计算方式换算成大模型能够理解的单元,也就是Token(1千个Token大约可以表示700多个汉字)。根据问答内容的特征、模型算力消耗等因素,大模型厂商一般会分别为输入、输出内容设定不同的价格。
在付费模式方面,主要分为预付费、后付费两种模式。
预付费模式,要求用户在使用服务前预先支付一定的费用,通常按照预估的使用量或者服务套餐来计费,也就是大家日常生活中熟悉的“包年、包月”等模式。
后付费模式,允许用户先使用大模型服务,之后再根据实际使用量按月或其他周期结算费用,也就是按使用量收费(Pay As You Use)。
一般来说,预付费模式要比后付费模式更便宜,毕竟用户做了“批发”。
火山引擎最新发布的大模型Doubao-pro-32k,虽然为模型输入设定了超低的后付费价格:0.0008元/千tokens,但是并没有在发布会上展示模型的输出价格为0.002元/千tokens,相比输入价格贵出很多。在通过加权平均输入、输出价格后(按输入:输出=5:1来计算),实际的收费是0.001元/千tokens。
此外,更重要的是,用户只有在较低的业务并发(每分钟60次问答请求,即每秒1次)这个强限制条件下,才能享受得到这个价格。这意味着,豆包大模型的这个“超低价”只能用来体验和测试,无法真正用到生产环境中。
如果用户在真实的业务场景中高频调用豆包大模型,就需要采用预付费模式,应该如何计算费用呢?
通常情况下,预付费模式会在每分钟处理内容量(TPM,Tokens per Minute)这个关键指标上限制服务能力。
以Doubao-pro-32k为例,预付费的价格为一个TPM单元(10K Tokens per Minute)每个月12,000元。假设用户能够消耗光所有的内容额度,需要支付费用0.028元/千tokens(预付费模式,一个月可以产生10K tokens/分钟 * 1440 分钟/天 * 30天 = 432,000个千tokens,12000元➗432,000=0.028元/千tokens),高出后付费费用(0.001元/千tokens)27倍!
此外,因为企业调用大模型有高峰低谷,很难100%消耗掉完整的TPM单元,按照70%的平均利用率来计算,Doubao-pro-32k每千tokens的价格将达到0.04元,相比后付费贵出39倍!
预付费模式下,如果横向对比其他主流大模型,豆包大模型并不具备价格优势,反而是百度的文心大模型最便宜。
以昨天重点发布的Doubao-pro-128k为例,预付费的价格为一个TPM单元每个月24,000元。假设用户能够消耗光所有的内容额度,需要支付费用0.056元/千tokens(预付费模式,一个月可以产生10K tokens/分钟 * 1440 分钟/天 * 30天 = 432,000个千tokens,24,000元➗432,000=0.056元/千tokens)。火山引擎虽然公布的价格为0.005元/千tokens,但实际使用价格会贵10倍多。
相比之下,百度的ERNIE-3.5-128K模型,一个TPM单元每个月的费用为17,000元,需支付费用为0.039元/千tokens,比Doubao-pro-128k便宜29%。
由此可见,企业要想真正在业务场景下使用大模型,预付费这种“批发”模式是最经济实惠的,如果后付费这种“零售”模式更便宜,大概率是加了诸多限制条件的“尝鲜价”。目前主流大模型中,最便宜、性价比最高的,可能还是百度的文心大模型。