国内文本大模型Api收费对比

Administrator

2024-04-07

文本大模型

820 93~120 min

阿里系

阿里大模型服务平台

通义千问

通义千问是阿里云自主研发的大语言模型，能够在用户自然语言输入的基础上，通过自然语言理解和语义分析，在不同领域、任务内为用户提供服务和帮助。

模型概览

模型名称	模型简介	模型输入/输出限制
qwen-turbo	通义千问超大规模语言模型，支持中文、英文等不同语言输入。	模型支持8k tokens上下文，为了保证正常的使用和输出，API限定用户输入为6k tokens。
qwen-plus	通义千问超大规模语言模型增强版，支持中文、英文等不同语言输入。	模型支持32k tokens上下文，为了保证正常的使用和输出，API限定用户输入为30k tokens。
qwen-max	通义千问千亿级别超大规模语言模型，支持中文、英文等不同语言输入。随着模型的升级，qwen-max将滚动更新升级，如果希望使用稳定版本，请使用qwen-max-1201。	模型支持8k tokens上下文，为了保证正常的使用和输出，API限定用户输入为6k tokens。
qwen-max-1201	通义千问千亿级别超大规模语言模型，支持中文、英文等不同语言输入。该模型为qwen-max的快照稳定版本，预期维护到下个快照版本发布时间（待定）后一个月。	模型支持8k tokens上下文，为了保证正常的使用和输出，API限定用户输入为6k tokens。
qwen-max-longcontext	通义千问千亿级别超大规模语言模型，支持中文、英文等不同语言输入。	模型支持30k tokens上下文，为了保证正常的使用和输出，API限定用户输入为28k tokens。

计费单元

通义千问大语言模型以用户文本形式的指令（prompt）以及不定轮次的对话消息作为输入，并基于这些信息生成回复作为输出。在这一过程中，文本将被转换为语言模型可以处理的token序列。Token是模型用来表示自然语言文本的基本单位，可以直观地理解为“字”或“词”。对于中文，一个token对应1.8到2个汉字，例如“通义千问大语言模型”，转换为token后为： [“通”, “义”, “千”, “问”, “大”, “语言”, “模型”], 对于英文，通常一个token对应3到4个字母或者一个单词，例如：Artificial intelligence has made great progress at present. 转换为token后为： [“Art”, “ificial”, " intelligence", " has", " made", " great", " progress", " at", " present", “.”]。

Token是模型用来表示自然语言文本的基本单位，可以直观的理解为“字”或“词”。对于中文文本来说，1个token通常对应一个汉字；对于英文文本来说，1个token通常对应3至4个字母。

通义千问模型服务根据模型输入和输出的总token数量进行计量计费，其中多轮对话中的history作为输入也会进行计量计费。每一次模型调用产生的实际token数量可以从 response 中获取。

计费单价

模型服务	模型名	计费单价
通义千问	qwen-turbo	0.008元/1,000 tokens
	qwen-plus	0.02元/1,000 tokens
	qwen-max	0.12元/1,000 tokens
	qwen-max-1201 将于2024年4月22日下线
	qwen-max-longcontext

说明

qwen-turbo原来为qwen-v1。qwen-v1计费与qwen-turbo保持一致。qwen-v1模型已弃用，请使用qwen-turbo。
qwen-plus原来为qwen-plus-v1。qwen-plus-v1计费与qwen-plus保持一致。qwen-plus-v1模型已弃用，请使用qwen-plus。

免费额度

模型服务	模型名	免费额度
通义千问	qwen-turbo	200万tokens 领取方式：开通阿里云百炼服务后，自动发放；有效期：180天
	qwen-plus	100万tokens 领取方式：开通阿里云百炼服务后，自动发放；有效期：180天
	qwen-max	100万tokens 领取方式：开通阿里云百炼服务后，自动发放；有效期：30天
	qwen-max-1201 将于2024年4月22日下线
	qwen-max-longcontext

基础限流

为了保证用户调用模型的公平性，通义千问对于普通用户设置了基础限流。限流是基于模型维度的，并且和调用用户的阿里云主账号相关联，按照该账号下所有API-KEY调用该模型的总和计算限流。如果超出调用限制，用户的API请求将会因为限流控制而失败，用户需要等待一段时间待满足限流条件后方能再次调用。

重要

通常情况下，基础限流是可以满足大部分客户的应用场景的，如果您有超过基础限流配额的访问需求，请使用下面表单中的方式额外提交申请。

模型服务	模型名	基础限流	超出基础限流申请方式
通义千问	qwen-turbo	以下条件任何一个超出都会触发限流：调用频次 ≤ 500 QPM，每分钟不超过500次API调用； Token消耗 ≤ 500,000 TPM，每分钟消耗的Token数目不超过500,000。	qwen-turbo超出基础限流配额点此申请
	qwen-plus	以下条件任何一个超出都会触发限流：调用频次 ≤ 200 QPM，每分钟不超过200次API调用； Token消耗 ≤ 200,000 TPM，每分钟消耗的Token数目不超过200,000。	qwen-plus超出基础限流配额点此申请
	qwen-max	以下条件任何一个超出都会触发限流：调用频次 ≤ 60 QPM，每分钟不超过60次API调用； Token消耗 ≤ 100,000 TPM，每分钟消耗的Token数目不超过100,000。	qwen-max超出基础限流配额点此申请
	qwen-max-1201	以下条件任何一个超出都会触发限流：调用频次 ≤ 60 QPM，每分钟不超过60次API调用； Token消耗 ≤ 100,000 TPM，每分钟消耗的Token数目不超过100,000。说明：qwen-max-1201 将于2024年4月22日下线，可能会存在流量逐步下降等情况。	qwen-max-1201超出基础限流配额点此申请
	qwen-max-longcontext	以下条件任何一个超出都会触发限流：调用频次 ≤ 5 QPM，每分钟不超过5次API调用； Token消耗 ≤ 1500,000 TPM，每分钟消耗的Token数目不超过1500,000。	暂无

通义千问开源系列大语言模型

通义千问系列模型由阿里云研发。其中开源版本提供包括18亿、70亿、140亿和720亿等多个规模的版本。这些模型基于Transformer结构，在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。通义千问的开源模型均可在ModelScope上直接获取，灵积平台为这些开源模型的对齐版本提供了可直接使用的API服务，包括qwen-1.8b-chat，qwen-7b-chat，qwen-14b-chat和qwen-72b-chat几个版本。

模型概览

模型名	模型简介	模型输入输出限制
qwen1.5-72b-chat	通义千问1.5对外开源的72B规模参数量的经过人类指令对齐的chat模型	支持32k tokens上下文，输入最大30k，输出最大2k tokens。
qwen1.5-14b-chat	通义千问1.5对外开源的14B规模参数量的经过人类指令对齐的chat模型	模型支持 8k tokens上下文，为了保障正常使用和正常输出，API限定用户输入为6k Tokens。
qwen1.5-7b-chat	通义千问1.5对外开源的7B规模参数量是经过人类指令对齐的chat模型	模型支持 8k tokens上下文，为了保障正常使用和正常输出，API限定用户输入为6k Tokens。
qwen-72b-chat	通义千问对外开源的72B规模参数量的经过人类指令对齐的chat模型	支持32k tokens上下文，输入最大30k，输出最大2k tokens。
qwen-14b-chat	通义千问对外开源的14B规模参数量的经过人类指令对齐的chat模型	模型支持 8k tokens上下文，为了保障正常使用和正常输出，API限定用户输入为6k Tokens。
qwen-7b-chat	通义千问对外开源的7B规模参数量的经过人类指令对齐的chat模型	模型支持 8k tokens上下文，为了保障正常使用和正常输出，API限定用户输入为6k Tokens。
qwen-1.8b-longcontext-chat	通义千问对外开源的1.8B规模参数量的经过人类指令对齐的chat模型	支持32k tokens上下文，输入最大30k，输出最大2k tokens。
qwen-1.8b-chat	通义千问对外开源的1.8B规模参数量的经过人类指令对齐的chat模型	模型支持 8k tokens上下文，为了保障正常使用和正常输出，API限定用户输入为6k Tokens。

计费单元

模型服务	计费单元
通义千问72B	token
通义千问14B	token
通义千问7B	token
通义千问1.8B	token

重要

通义千问1.8B、7B、14B和72B模型服务根据模型输入和输出的总token数量进行计量计费，其中多轮对话中的history作为输入也会进行计量计费。每一次模型调用产生的实际token数量可以从 response 中获取。
计费单价

模型服务	模型名	计费单价
通义千问72B	qwen-72b-chat	0.02元/1,000 tokens
	qwen1.5-72b-chat
通义千问14B	qwen-14b-chat	0.008元/1,000 tokens
	qwen1.5-14b-chat
通义千问7B	qwen-7b-chat	0.006元/1,000 tokens
	qwen1.5-7b-chat
通义千问1.8B	qwen-1.8b-chat	限时免费开放中

LLaMa2 大语言模型

Llama2系列是来自Meta开发并公开发布的大型语言模型（LLMs）。该系列模型提供了多种参数大小（7B、13B和70B等），并同时提供了预训练和针对对话场景的微调版本。Llama 2系列是来自Meta开发并公开发布的大型语言模型（LLMs）。该系列模型提供了多种参数大小（7B、13B和70B等）的版本，并同时提供了预训练和针对对话场景的微调版本。 Llama 2系列使用了2T token进行训练，相比于LLama多出40%，上下文长度从LLama的2048升级到4096，可以理解更长的文本，在多个公开基准测试上超过了已有的开源模型。采用了高质量的数据进行微调和基于人工反馈的强化学习训练，具有较高的可靠性和安全性。

模型概览

模型名

模型简介

llama2-7b-chat-v2

llama2-13b-chat-v2

LLaMa2系列大语言模型由Meta开发并公开发布，其规模从70亿到700亿参数不等。在大模型服务平台上提供的llama2-7b-chat-v2和llama2-13b-chat-v2，分别为7B和13B规模的LLaMa2模型，针对对话场景微调优化后的版本。

计费单元

模型服务	计费单元
LLaMa2 大语言模型	token

重要

Token是模型用来表示自然语言文本的基本单位，可以直观的理解为“字”或“词”。对于中文文本来说，1个token通常对应一个汉字；对于英文文本来说，1个token通常对应3至4个字母。Llama2服务根据模型输出结果对应的token数量进行计量计费。每一次模型调用产生的实际token数量可以从 response 中获取。

计费单价

模型名	计费单价（币种：RMB）
llama2-7b-chat-v2	限时免费中
llama2-13b-chat-v2	限时免费中

免费额度

模型名

免费额度

llama2-7b-chat-v2

100万tokens

领取方式：开通阿里云百炼服务后，自动发放。

有效期：180天

llama2-13b-chat-v2

百川开源大语言模型

百川开源大语言模型来自百川智能，百炼上提供了百川1(7B)以及百川2(7B和13B)的服务化API。baichuan-13B/baichuan2-7B是由百川智能开发的一个开源的大规模预训练模型。基于Transformer结构，在大约1.2万亿tokens上训练的70亿参数模型，支持中英双语，上下文窗口长度为4096。在标准的中文和英文权威benchmark（C-EVAL/MMLU）上均取得同尺寸最好的效果。

模型概览

模型名

模型简介

baichuan-7b-v1

百川模型，仅支持prompt格式输入

baichuan2-7b-chat-v1

baichuan2-13b-chat-v1

百川模型2-7B对话版/百川模型2-13B对话版，支持message和prompt格式输入

计费单元

模型服务	计费单元
百川模型2-13B对话版	token
百川模型2-7B对话版
百川模型1

重要

百川模型服务根据模型输入和输出的总token数量进行计量计费，其中多轮对话中的history作为输入也会进行计量计费。每一次模型调用产生的实际token数量可以从 response 中获取。

计费单价

模型服务	模型名	计费单价
百川模型2-13B对话版	baichuan2-13b-chat-v1	0.008元/1,000 tokens
百川模型2-7B对话版	baichuan2-7b-chat-v1	0.006元/1,000 tokens
百川模型1	baichuan-7b-v1	限时免费中

科大讯飞

星火讯飞API

星火API

类型	服务量	QPS	有效期	版本	领取条件	单价	总价	原价
V3.5
免费试用版（个人）	200万tokens	2	一年	V3.5	个人身份认证	-	-	-
免费试用版（企业）	500万tokens	2	一年	V3.5	企业身份认证	-	-	-
0.5亿tokens套餐	-	5	一年	V3.5	-	0.3元/万tokens	¥1500	¥1800
1亿tokens套餐	-	10	一年	V3.5	-	0.28元/万tokens	¥2800	¥3600
10亿tokens套餐	-	20	一年	V3.5	-	0.26元/万tokens	¥26000	¥36000
50亿tokens套餐	-	50	一年	V3.5	-	0.24元/万tokens	¥120000	¥180000
V3.0
免费试用版（个人）	200万tokens	2	一年	V3.0	个人身份认证	-	-	-
免费试用版（企业）	500万tokens	2	一年	V3.0	企业身份认证	-	-	-
0.5亿tokens套餐	-	5	一年	V3.0	-	0.3元/万tokens	¥1500	¥1800
1亿tokens套餐	-	10	一年	V3.0	-	0.28元/万tokens	¥2800	¥3600
10亿tokens套餐	-	20	一年	V3.0	-	0.26元/万tokens	¥26000	¥36000
50亿tokens套餐	-	50	一年	V3.0	-	0.24元/万tokens	¥120000	¥180000
V1.5
免费试用版（个人）	200万tokens	2	一年	V1.5	个人身份认证	-	-	-
免费试用版（企业）	500万tokens	2	一年	V1.5	企业身份认证	-	-	-
0.5亿tokens套餐	-	5	一年	V1.5	-	0.15元/万tokens	¥750	¥900
1亿tokens套餐	-	10	一年	V1.5	-	0.14元/万tokens	¥1400	¥1800
10亿tokens套餐	-	20	一年	V1.5	-	0.13元/万tokens	¥13000	¥18000
50亿tokens套餐	-	50	一年	V1.5	-	0.12元/万tokens	¥60000	¥90000

腾讯混元大模型

腾讯混元大模型（Tencent Hunyuan）是由腾讯研发的大语言模型，具备强大的中文创作能力，复杂语境下的逻辑推理能力，以及可靠的任务执行能力。

计算方式
token 为服务输入+服务输出的总额，1token 约等于1.8个中文汉字或3个英文字母；您可以前往控制台使用 token 计算器了解一段文本对应的 token 总数。

收费模式
本服务采用后付费日结模式，您开通服务后即可依照服务规则使用服务，腾讯云将根据您的实际使用量进行计费，并直接从您的账号中扣除等额金额。
产品价格

在免费额度用完后，按如下价格进行计费：

产品名	单位	刊例价
腾讯混元大模型标准版	每 1000 token	0.01元
腾讯混元大模型高级版	每 1000 token	0.10元
腾讯混元-Embedding	每 1000 token	0.0007元

说明：

token 为服务输入+服务输出的总额，1token 约等于1.8个中文汉字或3个英文字母；您可以前往控制台使用 token 计算器了解一段文本对应的 token 总数；

进行 API 调试，以及使用 API 3.0 Explorer 在线工具都会消耗对应的 token。

百度系

百度千帆大模型平台
1.文心大语言模型

模型	服务内容	子项	单价
ERNIE-4.0-8K	推理服务	输入	0.12元/千tokens (限时优惠，原价0.15元/千tokens)
		输出	0.12元/千tokens (限时优惠，原价0.3元/千tokens)
ERNIE-Bot-8k	推理服务	输入	0.024元/千tokens
		输出	0.048元/千tokens
ERNIE-3.5-8K	推理服务	输入	0.012元/千tokens
		输出	0.012元/千tokens
ERNIE-Lite-8K-0922	推理服务	输入	0.008元/千tokens
		输出	0.008元/千tokens (限时优惠，原价0.012元/千tokens)
ERNIE Speed-AppBuilder	推理服务	输入	0.004元/千tokens
		输出	0.008元/千tokens (限时优惠，原价0.012元/千tokens)
tokenizer公有云在线调用： ERNIE-Bot系列大模型token长度计算接口	推理服务	-	0.0006元/千tokens
ERNIE-Speed-8K	推理服务	输入	0.004元/千tokens
		输出	0.008元/千tokens
ERNIE-3.5-4K-0205	推理服务	输入	0.012元/千token
		输出	0.012元/千tokens
ERNIE-3.5-8K-0205	推理服务	输入	0.024元/千tokens
		输出	0.048元/千tokens
ERNIE-3.5-8K-1222	推理服务	输入	0.012元/千tokens
		输出	0.012元/千tokens
ERNIE-Lite-8K	推理服务	输入	0.003元/千tokens
		输出	0.006元/千tokens
ERNIE-Speed-128k	推理服务	输入	0.004元/千tokens (限时优惠)
		输出	0.008元/千tokens (限时优惠)
ERNIE-Tiny-8k	推理服务	输入	0.001元/千tokens
		输出	0.001元/千tokens

需注意：如API调用文心大模型时，function和system参数的输入，都需要按照tokens计费，相关计算逻辑可查看参考文档。

2.第三方大语言模型

包含有千帆团队增强版大模型服务。

模型	服务内容	单价
BLOOMZ-7B	大模型公有云在线调用体验服务	0.004元/千tokens
Llama-2-7B-Chat	公有云在线调用体验服务	0.004元/千tokens
Llama-2-13B-Chat	公有云在线调用体验服务	0.006元/千tokens
Llama-2-70B-Chat	公有云在线调用体验服务	0.035元/千tokens
ChatGLM2-6B-32K	大模型公有云在线调用体验服务	0.004元/千tokens
AquilaChat-7B	大模型公有云在线调用体验服务	0.004元/千tokens
Mixtral-8x7B-Instruct	大模型公有云在线调用体验服务	0.035元/千tokens
SQLCoder-7B	公有云在线调用体验服务	0.004元/千tokens
CodeLlama-7B-Instruct	公有云在线调用体验服务	0.004元/千tokens
XuanYuan-70B-Chat-4bit	公有云在线调用体验服务	0.035元/千tokens
Qianfan-BLOOMZ-7B-compressed	大模型公有云在线调用体验服务	0.004元/千tokens
Qianfan-Chinese-Llama-2-7B	大模型公有云在线调用体验服务	0.004元/千tokens
Qianfan-Chinese-Llama-2-13B	公有云在线调用体验服务	0.006元/千tokens
ChatLaw	公有云在线调用体验服务	0.008元/千tokens
Yi-34B-Chat	公有云在线调用体验服务	限时免费，每个账号每天包含500次调用额度(按调用总次数统计，包括但不限于调用成功的次数)。如需扩容，请使用私有资源池发布该模型，或提交工单说明应用场景、预计月调用量，申请扩充额度。
Gemma-7B-it	公有云在线调用体验服务	0.004元/千tokens
Fuyu-8B	公有云在线调用体验服务	限时免费，每个账号每天包含500次调用额度(按调用总次数统计，包括但不限于调用成功的次数)。如需扩容，请使用私有资源池发布该模型，或提交工单说明应用场景、预计月调用量，申请扩充额度。
bce-reranker-base	公有云在线调用体验服务	0.002元/千tokens

注意：平台已预置多款模型版本，部署成服务时，需要收取私有资源池租赁费，服务发布成功后，调用免费。

智谱AI

全自研第四代基座大模型 GLM-4，性能相比GLM3提升60%，IFEval指令跟随能力评测高达90%，128k上下文大海捞针测试100%精准召回，同时具备视觉及高级Agent能力。

标准版定价

通过我们提供的标准API产品，快速构建自己专属的大模型应用，您可按需使用，我们将按照模型实际处理文本的token数量计量计费。

模型	说明	上下文长度	单价
GLM-4	提供了更强大的问答和文本生成能力。适合于复杂的对话交互和深度内容创作设计的场景。	128K	0.1元 / 千tokens
GLM-4V	实现了视觉语言特征的深度融合，支持视觉问答、图像字幕、视觉定位、复杂目标检测等各类图像理解任务。	2K	0.1元 / 千tokens
GLM-3-Turbo	适用于对知识量、推理能力、创造力要求较高的场景，比如广告文案、小说写作、知识类写作、代码生成等。	128K	0.005元 / 千tokens

云端私有化定价

提供额外的模型微调服务，提高模型精度，快速构建自己的专属大模型。

模型	套餐包含	单价（年付）
ChatGLM-130B	推理机数量	3台
训练语料额度	5,000,000 tokens
在线教程培训	1年
ChatGLM-66B	推理机数量	3台
训练语料额度	3,000,000 tokens
在线教程培训	1年
ChatGLM-32B	推理机数量	2台
训练语料额度	2,000,000 tokens
在线教程培训	1年
ChatGLM-12B	推理机数量	1台
训练语料额度	2,000,000 tokens
在线教程培训	1年

本地私有化定价

智谱AI大模型私有化部署服务是基于大模型算法模型的云计算服务，为客户提供高效的数据处理、模型训练和部署服务。我们为您提供智谱⼤模型⽂件和相关的⼯具包，客户可⾃⾏训练和部署推理服务，同时智谱会提供部署应⽤相关的技术⽀持和咨询，以及模型的更新。通过私有化部署方案，实现数据的完全掌控和模型的安全运行。

模型	套餐包含	单价（年付）
ChatGLM-130B	推理实例license	不限量/年
推理&微调工具包	1年
咨询服务	15人天/年
ChatGLM-66B	推理实例license	不限量/年
推理&微调工具包	1年
咨询服务	15人天/年
ChatGLM-32B	推理实例license	不限量/年
推理&微调工具包	1年
咨询服务	10人天/年
ChatGLM-12B	推理实例license	不限量/年
推理&微调工具包	1年
咨询服务	6人天/年

结论

暂不考虑模型输出效果的情况下，假设一个token代表2个汉字的情况下，大模型需要返回150左右的汉字，什么模型的计费比较划算

清华智谱（GLM）提供了不同档次的大模型API服务。其中，CHATGLM-LITE是最便宜的一个档次，定价为0.002元/千tokens。假设一个token代表2个汉字，那么返回150个汉字的话，需要使用150/2=75个tokens。根据这个计算，使用CHATGLM-LITE模型返回150个汉字的费用大约为0.002元/千tokens * 75/1000 = 0.00015元。

综合来看，清华智谱（GLM）的CHATGLM-LITE模型在假设一个token代表2个汉字的情况下，返回150个汉字的计费比较划算。

阿里系

通义千问

通义千问开源系列 大语言模型

LLaMa2 大语言模型

百川开源 大语言模型

科大讯飞

星火API

腾讯混元大模型

百度系

智谱AI

结论

通义千问开源系列大语言模型

百川开源大语言模型