国内文本大模型Api收费对比
阿里系
通义千问
通义千问是阿里云自主研发的大语言模型,能够在用户自然语言输入的基础上,通过自然语言理解和语义分析,在不同领域、任务内为用户提供服务和帮助。
模型概览
模型名称 | 模型简介 | 模型输入/输出限制 |
qwen-turbo | 通义千问超大规模语言模型,支持中文、英文等不同语言输入。 | 模型支持8k tokens上下文,为了保证正常的使用和输出,API限定用户输入为6k tokens。 |
qwen-plus | 通义千问超大规模语言模型增强版,支持中文、英文等不同语言输入。 | 模型支持32k tokens上下文,为了保证正常的使用和输出,API限定用户输入为30k tokens。 |
qwen-max | 通义千问千亿级别超大规模语言模型,支持中文、英文等不同语言输入。随着模型的升级,qwen-max将滚动更新升级,如果希望使用稳定版本,请使用qwen-max-1201。 | 模型支持8k tokens上下文,为了保证正常的使用和输出,API限定用户输入为6k tokens。 |
qwen-max-1201 | 通义千问千亿级别超大规模语言模型,支持中文、英文等不同语言输入。该模型为qwen-max的快照稳定版本,预期维护到下个快照版本发布时间(待定)后一个月。 | 模型支持8k tokens上下文,为了保证正常的使用和输出,API限定用户输入为6k tokens。 |
qwen-max-longcontext | 通义千问千亿级别超大规模语言模型,支持中文、英文等不同语言输入。 | 模型支持30k tokens上下文,为了保证正常的使用和输出,API限定用户输入为28k tokens。 |
计费单元
通义千问大语言模型以用户文本形式的指令(prompt)以及不定轮次的对话消息作为输入,并基于这些信息生成回复作为输出。在这一过程中,文本将被转换为语言模型可以处理的token序列。Token是模型用来表示自然语言文本的基本单位,可以直观地理解为“字”或“词”。对于中文,一个token对应1.8到2个汉字,例如“通义千问大语言模型”,转换为token后为: [“通”, “义”, “千”, “问”, “大”, “语言”, “模型”], 对于英文,通常一个token对应3到4个字母或者一个单词,例如:Artificial intelligence has made great progress at present. 转换为token后为: [“Art”, “ificial”, " intelligence", " has", " made", " great", " progress", " at", " present", “.”]。
Token是模型用来表示自然语言文本的基本单位,可以直观的理解为“字”或“词”。对于中文文本来说,1个token通常对应一个汉字;对于英文文本来说,1个token通常对应3至4个字母。
通义千问模型服务根据模型输入和输出的总token数量进行计量计费,其中多轮对话中的history作为输入也会进行计量计费。每一次模型调用产生的实际token数量可以从 response 中获取。
计费单价
模型服务 | 模型名 | 计费单价 |
通义千问 | qwen-turbo | 0.008元/1,000 tokens |
qwen-plus | 0.02元/1,000 tokens | |
qwen-max | 0.12元/1,000 tokens | |
qwen-max-1201 | ||
qwen-max-longcontext |
说明
-
qwen-turbo
原来为qwen-v1
。qwen-v1
计费与qwen-turbo
保持一致。qwen-v1
模型已弃用,请使用qwen-turbo
。 -
qwen-plus
原来为qwen-plus-v1
。qwen-plus-v1
计费与qwen-plus
保持一致。qwen-plus-v1
模型已弃用,请使用qwen-plus
。
免费额度
模型服务 | 模型名 | 免费额度 |
通义千问 | qwen-turbo | 200万tokens 领取方式:开通阿里云百炼服务后,自动发放; 有效期:180天 |
qwen-plus | 100万tokens 领取方式:开通阿里云百炼服务后,自动发放; 有效期:180天 | |
qwen-max | 100万tokens 领取方式:开通阿里云百炼服务后,自动发放; 有效期:30天 | |
qwen-max-1201 | ||
qwen-max-longcontext |
基础限流
为了保证用户调用模型的公平性,通义千问对于普通用户设置了基础限流。限流是基于模型维度的,并且和调用用户的阿里云主账号相关联,按照该账号下所有API-KEY调用该模型的总和计算限流。如果超出调用限制,用户的API请求将会因为限流控制而失败,用户需要等待一段时间待满足限流条件后方能再次调用。
重要
通常情况下,基础限流是可以满足大部分客户的应用场景的,如果您有超过基础限流配额的访问需求,请使用下面表单中的方式额外提交申请。
模型服务 | 模型名 | 基础限流 | 超出基础限流申请方式 |
通义千问 | qwen-turbo | 以下条件任何一个超出都会触发限流:
| |
qwen-plus | 以下条件任何一个超出都会触发限流:
| ||
qwen-max | 以下条件任何一个超出都会触发限流:
| ||
qwen-max-1201 | 以下条件任何一个超出都会触发限流:
说明:qwen-max-1201 将于2024年4月22日下线,可能会存在流量逐步下降等情况。 | ||
qwen-max-longcontext | 以下条件任何一个超出都会触发限流:
| 暂无 |
通义千问开源系列 大语言模型
通义千问系列模型由阿里云研发。其中开源版本提供包括18亿、70亿、140亿和720亿等多个规模的版本。这些模型基于Transformer结构,在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。通义千问的开源模型均可在ModelScope上直接获取,灵积平台为这些开源模型的对齐版本提供了可直接使用的API服务,包括qwen-1.8b-chat,qwen-7b-chat,qwen-14b-chat和qwen-72b-chat几个版本。
模型概览
模型名 | 模型简介 | 模型输入输出限制 |
qwen1.5-72b-chat | 通义千问1.5对外开源的72B规模参数量的经过人类指令对齐的chat模型 | 支持32k tokens上下文,输入最大30k,输出最大2k tokens。 |
qwen1.5-14b-chat | 通义千问1.5对外开源的14B规模参数量的经过人类指令对齐的chat模型 | 模型支持 8k tokens上下文,为了保障正常使用和正常输出,API限定用户输入为6k Tokens。 |
qwen1.5-7b-chat | 通义千问1.5对外开源的7B规模参数量是经过人类指令对齐的chat模型 | |
qwen-72b-chat | 通义千问对外开源的72B规模参数量的经过人类指令对齐的chat模型 | 支持32k tokens上下文,输入最大30k,输出最大2k tokens。 |
qwen-14b-chat | 通义千问对外开源的14B规模参数量的经过人类指令对齐的chat模型 | 模型支持 8k tokens上下文,为了保障正常使用和正常输出,API限定用户输入为6k Tokens。 |
qwen-7b-chat | 通义千问对外开源的7B规模参数量的经过人类指令对齐的chat模型 | |
qwen-1.8b-longcontext-chat | 通义千问对外开源的1.8B规模参数量的经过人类指令对齐的chat模型 | 支持32k tokens上下文,输入最大30k,输出最大2k tokens。 |
qwen-1.8b-chat | 通义千问对外开源的1.8B规模参数量的经过人类指令对齐的chat模型 | 模型支持 8k tokens上下文,为了保障正常使用和正常输出,API限定用户输入为6k Tokens。 |
计费单元
模型服务 | 计费单元 |
通义千问72B | token |
通义千问14B | token |
通义千问7B | token |
通义千问1.8B | token |
重要
Token是模型用来表示自然语言文本的基本单位,可以直观的理解为“字”或“词”。对于中文文本来说,1个token通常对应一个汉字;对于英文文本来说,1个token通常对应3至4个字母。
通义千问1.8B、7B、14B和72B模型服务根据模型输入和输出的总token数量进行计量计费,其中多轮对话中的history作为输入也会进行计量计费。每一次模型调用产生的实际token数量可以从 response 中获取。
计费单价
模型服务 | 模型名 | 计费单价 |
通义千问72B | qwen-72b-chat | 0.02元/1,000 tokens |
qwen1.5-72b-chat | ||
通义千问14B | qwen-14b-chat | 0.008元/1,000 tokens |
qwen1.5-14b-chat | ||
通义千问7B | qwen-7b-chat | 0.006元/1,000 tokens |
qwen1.5-7b-chat | ||
通义千问1.8B | qwen-1.8b-chat | 限时免费开放中 |
LLaMa2 大语言模型
Llama2系列是来自Meta开发并公开发布的大型语言模型(LLMs)。该系列模型提供了多种参数大小(7B、13B和70B等),并同时提供了预训练和针对对话场景的微调版本。Llama 2系列是来自Meta开发并公开发布的大型语言模型(LLMs)。该系列模型提供了多种参数大小(7B、13B和70B等)的版本,并同时提供了预训练和针对对话场景的微调版本。 Llama 2系列使用了2T token进行训练,相比于LLama多出40%,上下文长度从LLama的2048升级到4096,可以理解更长的文本, 在多个公开基准测试上超过了已有的开源模型。 采用了高质量的数据进行微调和基于人工反馈的强化学习训练,具有较高的可靠性和安全性。
模型概览
模型名 | 模型简介 |
llama2-7b-chat-v2 llama2-13b-chat-v2 | LLaMa2系列大语言模型由Meta开发并公开发布,其规模从70亿到700亿参数不等。在大模型服务平台上提供的llama2-7b-chat-v2和llama2-13b-chat-v2,分别为7B和13B规模的LLaMa2模型,针对对话场景微调优化后的版本。 |
计费单元
模型服务 | 计费单元 |
LLaMa2 大语言模型 | token |
重要
Token是模型用来表示自然语言文本的基本单位,可以直观的理解为“字”或“词”。对于中文文本来说,1个token通常对应一个汉字;对于英文文本来说,1个token通常对应3至4个字母。Llama2服务根据模型输出结果对应的token数量进行计量计费。每一次模型调用产生的实际token数量可以从 response 中获取。
计费单价
模型名 | 计费单价(币种:RMB) |
llama2-7b-chat-v2 | 限时免费中 |
llama2-13b-chat-v2 |
免费额度
模型名 | 免费额度 |
llama2-7b-chat-v2 | 100万tokens 领取方式:开通阿里云百炼服务后,自动发放。 有效期:180天 |
llama2-13b-chat-v2 |
百川开源 大语言模型
百川开源大语言模型来自百川智能,百炼上提供了百川1(7B)以及百川2(7B和13B)的服务化API。baichuan-13B/baichuan2-7B是由百川智能开发的一个开源的大规模预训练模型。基于Transformer结构,在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。
模型概览
模型名 | 模型简介 |
baichuan-7b-v1 | 百川模型,仅支持prompt格式输入 |
baichuan2-7b-chat-v1 baichuan2-13b-chat-v1 | 百川模型2-7B对话版/百川模型2-13B对话版,支持message和prompt格式输入 |
计费单元
模型服务 | 计费单元 |
百川模型2-13B对话版 | token |
百川模型2-7B对话版 | |
百川模型1 |
重要
Token是模型用来表示自然语言文本的基本单位,可以直观的理解为“字”或“词”。对于中文文本来说,1个token通常对应一个汉字;对于英文文本来说,1个token通常对应3至4个字母。
百川模型服务根据模型输入和输出的总token数量进行计量计费,其中多轮对话中的history作为输入也会进行计量计费。每一次模型调用产生的实际token数量可以从 response 中获取。
计费单价
模型服务 | 模型名 | 计费单价 |
百川模型2-13B对话版 | baichuan2-13b-chat-v1 | 0.008元/1,000 tokens |
百川模型2-7B对话版 | baichuan2-7b-chat-v1 | 0.006元/1,000 tokens |
百川模型1 | baichuan-7b-v1 | 限时免费中 |
科大讯飞
星火API
类型 | 服务量 | QPS | 有效期 | 版本 | 领取条件 | 单价 | 总价 | 原价 |
---|---|---|---|---|---|---|---|---|
V3.5 | ||||||||
免费试用版(个人) | 200万tokens | 2 | 一年 | V3.5 | 个人身份认证 | - | - | - |
免费试用版(企业) | 500万tokens | 2 | 一年 | V3.5 | 企业身份认证 | - | - | - |
0.5亿tokens套餐 | - | 5 | 一年 | V3.5 | - | 0.3元/万tokens | ¥1500 | ¥1800 |
1亿tokens套餐 | - | 10 | 一年 | V3.5 | - | 0.28元/万tokens | ¥2800 | ¥3600 |
10亿tokens套餐 | - | 20 | 一年 | V3.5 | - | 0.26元/万tokens | ¥26000 | ¥36000 |
50亿tokens套餐 | - | 50 | 一年 | V3.5 | - | 0.24元/万tokens | ¥120000 | ¥180000 |
V3.0 | ||||||||
免费试用版(个人) | 200万tokens | 2 | 一年 | V3.0 | 个人身份认证 | - | - | - |
免费试用版(企业) | 500万tokens | 2 | 一年 | V3.0 | 企业身份认证 | - | - | - |
0.5亿tokens套餐 | - | 5 | 一年 | V3.0 | - | 0.3元/万tokens | ¥1500 | ¥1800 |
1亿tokens套餐 | - | 10 | 一年 | V3.0 | - | 0.28元/万tokens | ¥2800 | ¥3600 |
10亿tokens套餐 | - | 20 | 一年 | V3.0 | - | 0.26元/万tokens | ¥26000 | ¥36000 |
50亿tokens套餐 | - | 50 | 一年 | V3.0 | - | 0.24元/万tokens | ¥120000 | ¥180000 |
V1.5 | ||||||||
免费试用版(个人) | 200万tokens | 2 | 一年 | V1.5 | 个人身份认证 | - | - | - |
免费试用版(企业) | 500万tokens | 2 | 一年 | V1.5 | 企业身份认证 | - | - | - |
0.5亿tokens套餐 | - | 5 | 一年 | V1.5 | - | 0.15元/万tokens | ¥750 | ¥900 |
1亿tokens套餐 | - | 10 | 一年 | V1.5 | - | 0.14元/万tokens | ¥1400 | ¥1800 |
10亿tokens套餐 | - | 20 | 一年 | V1.5 | - | 0.13元/万tokens | ¥13000 | ¥18000 |
50亿tokens套餐 | - | 50 | 一年 | V1.5 | - | 0.12元/万tokens | ¥60000 | ¥90000 |
腾讯混元大模型
腾讯混元大模型(Tencent Hunyuan)是由腾讯研发的大语言模型,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。
计算方式
token 为服务输入+服务输出的总额,1token 约等于1.8个中文汉字或3个英文字母;您可以前往 控制台 使用 token 计算器了解一段文本对应的 token 总数。
收费模式
本服务采用后付费日结模式,您开通服务后即可依照服务规则使用服务,腾讯云将根据您的实际使用量进行计费,并直接从您的账号中扣除等额金额。
产品价格
在免费额度用完后,按如下价格进行计费:
产品名 | 单位 | 刊例价 |
腾讯混元大模型标准版 | 每 1000 token | 0.01元 |
腾讯混元大模型高级版 | 每 1000 token | 0.10元 |
腾讯混元-Embedding | 每 1000 token | 0.0007元 |
说明:
token 为服务输入+服务输出的总额,1token 约等于1.8个中文汉字或3个英文字母;您可以前往 控制台 使用 token 计算器了解一段文本对应的 token 总数;
进行 API 调试,以及使用 API 3.0 Explorer 在线工具都会消耗对应的 token。
百度系
百度千帆大模型平台
1.文心大语言模型
模型 | 服务内容 | 子项 | 单价 |
ERNIE-4.0-8K | 推理服务 | 输入 | 0.12元/千tokens (限时优惠,原价0.15元/千tokens) |
输出 | 0.12元/千tokens (限时优惠,原价0.3元/千tokens) | ||
ERNIE-Bot-8k | 推理服务 | 输入 | 0.024元/千tokens |
输出 | 0.048元/千tokens | ||
ERNIE-3.5-8K | 推理服务 | 输入 | 0.012元/千tokens |
输出 | 0.012元/千tokens | ||
ERNIE-Lite-8K-0922 | 推理服务 | 输入 | 0.008元/千tokens |
输出 | 0.008元/千tokens (限时优惠,原价0.012元/千tokens) | ||
ERNIE Speed-AppBuilder | 推理服务 | 输入 | 0.004元/千tokens |
输出 | 0.008元/千tokens (限时优惠,原价0.012元/千tokens) | ||
tokenizer公有云在线调用: ERNIE-Bot系列大模型token长度计算接口 | 推理服务 | - | 0.0006元/千tokens |
ERNIE-Speed-8K | 推理服务 | 输入 | 0.004元/千tokens |
输出 | 0.008元/千tokens | ||
ERNIE-3.5-4K-0205 | 推理服务 | 输入 | 0.012元/千token |
输出 | 0.012元/千tokens | ||
ERNIE-3.5-8K-0205 | 推理服务 | 输入 | 0.024元/千tokens |
输出 | 0.048元/千tokens | ||
ERNIE-3.5-8K-1222 | 推理服务 | 输入 | 0.012元/千tokens |
输出 | 0.012元/千tokens | ||
ERNIE-Lite-8K | 推理服务 | 输入 | 0.003元/千tokens |
输出 | 0.006元/千tokens | ||
ERNIE-Speed-128k | 推理服务 | 输入 | 0.004元/千tokens (限时优惠) |
输出 | 0.008元/千tokens (限时优惠) | ||
ERNIE-Tiny-8k | 推理服务 | 输入 | 0.001元/千tokens |
输出 | 0.001元/千tokens |
需注意:如API调用文心大模型时,function和system参数的输入,都需要按照tokens计费,相关计算逻辑可查看参考文档。
包含有千帆团队增强版大模型服务。
模型 | 服务内容 | 单价 |
---|---|---|
BLOOMZ-7B | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
Llama-2-7B-Chat | 公有云在线调用体验服务 | 0.004元/千tokens |
Llama-2-13B-Chat | 公有云在线调用体验服务 | 0.006元/千tokens |
Llama-2-70B-Chat | 公有云在线调用体验服务 | 0.035元/千tokens |
ChatGLM2-6B-32K | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
AquilaChat-7B | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
Mixtral-8x7B-Instruct | 大模型公有云在线调用体验服务 | 0.035元/千tokens |
SQLCoder-7B | 公有云在线调用体验服务 | 0.004元/千tokens |
CodeLlama-7B-Instruct | 公有云在线调用体验服务 | 0.004元/千tokens |
XuanYuan-70B-Chat-4bit | 公有云在线调用体验服务 | 0.035元/千tokens |
Qianfan-BLOOMZ-7B-compressed | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
Qianfan-Chinese-Llama-2-7B | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
Qianfan-Chinese-Llama-2-13B | 公有云在线调用体验服务 | 0.006元/千tokens |
ChatLaw | 公有云在线调用体验服务 | 0.008元/千tokens |
Yi-34B-Chat | 公有云在线调用体验服务 | 限时免费,每个账号每天包含500次调用额度(按调用总次数统计,包括但不限于调用成功的次数)。如需扩容,请使用私有资源池发布该模型,或提交工单说明应用场景、预计月调用量,申请扩充额度。 |
Gemma-7B-it | 公有云在线调用体验服务 | 0.004元/千tokens |
Fuyu-8B | 公有云在线调用体验服务 | 限时免费,每个账号每天包含500次调用额度(按调用总次数统计,包括但不限于调用成功的次数)。如需扩容,请使用私有资源池发布该模型,或提交工单说明应用场景、预计月调用量,申请扩充额度。 |
bce-reranker-base | 公有云在线调用体验服务 | 0.002元/千tokens |
注意:平台已预置多款模型版本,部署成服务时,需要收取私有资源池租赁费,服务发布成功后,调用免费。
智谱AI
全自研第四代基座大模型 GLM-4,性能相比GLM3提升60%,IFEval指令跟随能力评测高达90%,128k上下文大海捞针测试100%精准召回,同时具备视觉及高级Agent能力。
标准版定价
通过我们提供的标准API产品,快速构建自己专属的大模型应用,您可按需使用,我们将按照模型实际处理文本的token数量计量计费。
模型 | 说明 | 上下文长度 | 单价 |
---|---|---|---|
GLM-4 | 提供了更强大的问答和文本生成能力。适合于复杂的对话交互和深度内容创作设计的场景。 | 128K | 0.1元 / 千tokens |
GLM-4V | 实现了视觉语言特征的深度融合,支持视觉问答、图像字幕、视觉定位、复杂目标检测等各类图像理解任务。 | 2K | 0.1元 / 千tokens |
GLM-3-Turbo | 适用于对知识量、推理能力、创造力要求较高的场景,比如广告文案、小说写作、知识类写作、代码生成等。 | 128K | 0.005元 / 千tokens |
云端私有化定价
提供额外的模型微调服务,提高模型精度,快速构建自己的专属大模型。
模型 | 套餐包含 | 单价(年付) |
---|---|---|
ChatGLM-130B | 推理机数量 | 3台 |
训练语料额度 | 5,000,000 tokens | |
在线教程培训 | 1年 | |
ChatGLM-66B | 推理机数量 | 3台 |
训练语料额度 | 3,000,000 tokens | |
在线教程培训 | 1年 | |
ChatGLM-32B | 推理机数量 | 2台 |
训练语料额度 | 2,000,000 tokens | |
在线教程培训 | 1年 | |
ChatGLM-12B | 推理机数量 | 1台 |
训练语料额度 | 2,000,000 tokens | |
在线教程培训 | 1年 |
本地私有化定价
智谱AI大模型私有化部署服务是基于大模型算法模型的云计算服务,为客户提供高效的数据处理、模型训练和部署服务。我们为您提供智谱⼤模型⽂件和相关的⼯具包,客户可⾃⾏训练和部署推理服务,同时智谱会提供部署应⽤相关的技术⽀持和咨询,以及模型的更新。通过私有化部署方案,实现数据的完全掌控和模型的安全运行。
模型 | 套餐包含 | 单价(年付) |
---|---|---|
ChatGLM-130B | 推理实例license | 不限量/年 |
推理&微调工具包 | 1年 | |
咨询服务 | 15人天/年 | |
ChatGLM-66B | 推理实例license | 不限量/年 |
推理&微调工具包 | 1年 | |
咨询服务 | 15人天/年 | |
ChatGLM-32B | 推理实例license | 不限量/年 |
推理&微调工具包 | 1年 | |
咨询服务 | 10人天/年 | |
ChatGLM-12B | 推理实例license | 不限量/年 |
推理&微调工具包 | 1年 | |
咨询服务 | 6人天/年 |
结论
暂不考虑模型输出效果的情况下,假设一个token代表2个汉字的情况下,大模型需要返回150左右的汉字,什么模型的计费比较划算
清华智谱(GLM)提供了不同档次的大模型API服务。其中,CHATGLM-LITE是最便宜的一个档次,定价为0.002元/千tokens。假设一个token代表2个汉字,那么返回150个汉字的话,需要使用150/2=75个tokens。根据这个计算,使用CHATGLM-LITE模型返回150个汉字的费用大约为0.002元/千tokens * 75/1000 = 0.00015元。
综合来看,清华智谱(GLM)的CHATGLM-LITE模型在假设一个token代表2个汉字的情况下,返回150个汉字的计费比较划算。