国内文本大模型Api收费对比

819 93~120 min

阿里系

阿里大模型服务平台

通义千问

通义千问是阿里云自主研发的大语言模型,能够在用户自然语言输入的基础上,通过自然语言理解和语义分析,在不同领域、任务内为用户提供服务和帮助。

模型概览

模型名称

模型简介

模型输入/输出限制

qwen-turbo

通义千问超大规模语言模型,支持中文、英文等不同语言输入。

模型支持8k tokens上下文,为了保证正常的使用和输出,API限定用户输入为6k tokens

qwen-plus

通义千问超大规模语言模型增强版,支持中文、英文等不同语言输入。

模型支持32k tokens上下文,为了保证正常的使用和输出,API限定用户输入为30k tokens

qwen-max

通义千问千亿级别超大规模语言模型支持中文、英文等不同语言输入。随着模型的升级,qwen-max将滚动更新升级,如果希望使用稳定版本,请使用qwen-max-1201。

模型支持8k tokens上下文,为了保证正常的使用和输出,API限定用户输入为6k tokens

qwen-max-1201

通义千问千亿级别超大规模语言模型支持中文、英文等不同语言输入。该模型为qwen-max的快照稳定版本,预期维护到下个快照版本发布时间(待定)后一个月。

模型支持8k tokens上下文,为了保证正常的使用和输出,API限定用户输入为6k tokens

qwen-max-longcontext

通义千问千亿级别超大规模语言模型支持中文、英文等不同语言输入。

模型支持30k tokens上下文,为了保证正常的使用和输出,API限定用户输入为28k tokens

计费单元

通义千问大语言模型以用户文本形式的指令(prompt)以及不定轮次的对话消息作为输入,并基于这些信息生成回复作为输出。在这一过程中,文本将被转换为语言模型可以处理的token序列。Token是模型用来表示自然语言文本的基本单位,可以直观地理解为“字”或“词”。对于中文,一个token对应1.8到2个汉字,例如“通义千问大语言模型”,转换为token后为: [“通”, “义”, “千”, “问”, “大”, “语言”, “模型”], 对于英文,通常一个token对应3到4个字母或者一个单词,例如:Artificial intelligence has made great progress at present. 转换为token后为: [“Art”, “ificial”, " intelligence", " has", " made", " great", " progress", " at", " present", “.”]。

Token是模型用来表示自然语言文本的基本单位,可以直观的理解为“字”或“词”。对于中文文本来说,1个token通常对应一个汉字;对于英文文本来说,1个token通常对应3至4个字母。

通义千问模型服务根据模型输入和输出的总token数量进行计量计费,其中多轮对话中的history作为输入也会进行计量计费。每一次模型调用产生的实际token数量可以从 response 中获取。

计费单价

模型服务

模型名

计费单价

通义千问

qwen-turbo

0.008元/1,000 tokens

qwen-plus

0.02元/1,000 tokens

qwen-max

0.12元/1,000 tokens

qwen-max-1201

将于2024年4月22日下线

qwen-max-longcontext

说明

  1. qwen-turbo原来为qwen-v1qwen-v1计费与qwen-turbo保持一致。qwen-v1模型已弃用,请使用qwen-turbo

  2. qwen-plus原来为qwen-plus-v1qwen-plus-v1计费与qwen-plus保持一致。qwen-plus-v1模型已弃用,请使用qwen-plus

免费额度

模型服务

模型名

免费额度

通义千问

qwen-turbo

200万tokens

领取方式:开通阿里云百炼服务后,自动发放;

有效期:180天

qwen-plus

100万tokens

领取方式:开通阿里云百炼服务后,自动发放;

有效期:180天

qwen-max

100万tokens

领取方式:开通阿里云百炼服务后,自动发放;

有效期:30天

qwen-max-1201

将于2024年4月22日下线

qwen-max-longcontext

基础限流

为了保证用户调用模型的公平性,通义千问对于普通用户设置了基础限流。限流是基于模型维度的,并且和调用用户的阿里云主账号相关联,按照该账号下所有API-KEY调用该模型的总和计算限流。如果超出调用限制,用户的API请求将会因为限流控制而失败,用户需要等待一段时间待满足限流条件后方能再次调用。

重要

通常情况下,基础限流是可以满足大部分客户的应用场景的,如果您有超过基础限流配额的访问需求,请使用下面表单中的方式额外提交申请。

模型服务

模型名

基础限流

超出基础限流申请方式

通义千问

qwen-turbo

以下条件任何一个超出都会触发限流:

  • 调用频次 ≤ 500 QPM,每分钟不超过500次API调用;

  • Token消耗 ≤ 500,000 TPM,每分钟消耗的Token数目不超过500,000。

qwen-turbo超出基础限流配额点此申请

qwen-plus

以下条件任何一个超出都会触发限流:

  • 调用频次 ≤ 200 QPM,每分钟不超过200次API调用;

  • Token消耗 ≤ 200,000 TPM,每分钟消耗的Token数目不超过200,000。

qwen-plus超出基础限流配额点此申请

qwen-max

以下条件任何一个超出都会触发限流:

  • 调用频次 ≤ 60 QPM,每分钟不超过60次API调用;

  • Token消耗 ≤ 100,000 TPM,每分钟消耗的Token数目不超过100,000。

qwen-max超出基础限流配额点此申请

qwen-max-1201

以下条件任何一个超出都会触发限流:

  • 调用频次 ≤ 60 QPM,每分钟不超过60次API调用;

  • Token消耗 ≤ 100,000 TPM,每分钟消耗的Token数目不超过100,000。

说明:qwen-max-1201 将于2024年4月22日下线,可能会存在流量逐步下降等情况。

qwen-max-1201超出基础限流配额点此申请

qwen-max-longcontext

以下条件任何一个超出都会触发限流:

  • 调用频次 ≤ 5 QPM,每分钟不超过5次API调用;

  • Token消耗 ≤ 1500,000 TPM,每分钟消耗的Token数目不超过1500,000。

暂无

通义千问开源系列 大语言模型

通义千问系列模型由阿里云研发。其中开源版本提供包括18亿、70亿、140亿和720亿等多个规模的版本。这些模型基于Transformer结构,在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。通义千问的开源模型均可在ModelScope上直接获取,灵积平台为这些开源模型的对齐版本提供了可直接使用的API服务,包括qwen-1.8b-chat,qwen-7b-chat,qwen-14b-chat和qwen-72b-chat几个版本。

模型概览

模型名

模型简介

模型输入输出限制

qwen1.5-72b-chat

通义千问1.5对外开源的72B规模参数量的经过人类指令对齐的chat模型

支持32k tokens上下文,输入最大30k,输出最大2k tokens。

qwen1.5-14b-chat

通义千问1.5对外开源的14B规模参数量的经过人类指令对齐的chat模型

模型支持 8k tokens上下文,为了保障正常使用和正常输出,API限定用户输入为6k Tokens。

qwen1.5-7b-chat

通义千问1.5对外开源的7B规模参数量是经过人类指令对齐的chat模型

qwen-72b-chat

通义千问对外开源的72B规模参数量的经过人类指令对齐的chat模型

支持32k tokens上下文,输入最大30k,输出最大2k tokens。

qwen-14b-chat

通义千问对外开源的14B规模参数量的经过人类指令对齐的chat模型

模型支持 8k tokens上下文,为了保障正常使用和正常输出,API限定用户输入为6k Tokens。

qwen-7b-chat

通义千问对外开源的7B规模参数量的经过人类指令对齐的chat模型

qwen-1.8b-longcontext-chat

通义千问对外开源的1.8B规模参数量的经过人类指令对齐的chat模型

支持32k tokens上下文,输入最大30k,输出最大2k tokens。

qwen-1.8b-chat

通义千问对外开源的1.8B规模参数量的经过人类指令对齐的chat模型

模型支持 8k tokens上下文,为了保障正常使用和正常输出,API限定用户输入为6k Tokens。

计费单元

模型服务

计费单元

通义千问72B

token

通义千问14B

token

通义千问7B

token

通义千问1.8B

token

重要

Token是模型用来表示自然语言文本的基本单位,可以直观的理解为“字”或“词”。对于中文文本来说,1个token通常对应一个汉字;对于英文文本来说,1个token通常对应3至4个字母。

通义千问1.8B、7B、14B和72B模型服务根据模型输入和输出的总token数量进行计量计费,其中多轮对话中的history作为输入也会进行计量计费。每一次模型调用产生的实际token数量可以从 response 中获取。
计费单价

模型服务

模型名

计费单价

通义千问72B

qwen-72b-chat

0.02元/1,000 tokens

qwen1.5-72b-chat

通义千问14B

qwen-14b-chat

0.008元/1,000 tokens

qwen1.5-14b-chat

通义千问7B

qwen-7b-chat

0.006元/1,000 tokens

qwen1.5-7b-chat

通义千问1.8B

qwen-1.8b-chat

限时免费开放中

LLaMa2 大语言模型

Llama2系列是来自Meta开发并公开发布的大型语言模型(LLMs)。该系列模型提供了多种参数大小(7B、13B和70B等),并同时提供了预训练和针对对话场景的微调版本。Llama 2系列是来自Meta开发并公开发布的大型语言模型(LLMs)。该系列模型提供了多种参数大小(7B、13B和70B等)的版本,并同时提供了预训练和针对对话场景的微调版本。 Llama 2系列使用了2T token进行训练,相比于LLama多出40%,上下文长度从LLama的2048升级到4096,可以理解更长的文本, 在多个公开基准测试上超过了已有的开源模型。 采用了高质量的数据进行微调和基于人工反馈的强化学习训练,具有较高的可靠性和安全性。

模型概览

模型名

模型简介

llama2-7b-chat-v2

llama2-13b-chat-v2

LLaMa2系列大语言模型由Meta开发并公开发布,其规模从70亿到700亿参数不等。在大模型服务平台上提供的llama2-7b-chat-v2和llama2-13b-chat-v2,分别为7B和13B规模的LLaMa2模型,针对对话场景微调优化后的版本。

计费单元

模型服务

计费单元

LLaMa2 大语言模型

token

重要

Token是模型用来表示自然语言文本的基本单位,可以直观的理解为“字”或“词”。对于中文文本来说,1个token通常对应一个汉字;对于英文文本来说,1个token通常对应3至4个字母。Llama2服务根据模型输出结果对应的token数量进行计量计费。每一次模型调用产生的实际token数量可以从 response 中获取。

计费单价

模型名

计费单价(币种:RMB)

llama2-7b-chat-v2

限时免费中

llama2-13b-chat-v2

免费额度

模型名

免费额度

llama2-7b-chat-v2

100万tokens

领取方式:开通阿里云百炼服务后,自动发放。

有效期:180天

llama2-13b-chat-v2

百川开源 大语言模型

百川开源大语言模型来自百川智能,百炼上提供了百川1(7B)以及百川2(7B和13B)的服务化API。baichuan-13B/baichuan2-7B是由百川智能开发的一个开源的大规模预训练模型。基于Transformer结构,在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。

模型概览

模型名

模型简介

baichuan-7b-v1

百川模型,仅支持prompt格式输入

baichuan2-7b-chat-v1

baichuan2-13b-chat-v1

百川模型2-7B对话版/百川模型2-13B对话版,支持message和prompt格式输入

计费单元

模型服务

计费单元

百川模型2-13B对话版

token

百川模型2-7B对话版

百川模型1

重要

Token是模型用来表示自然语言文本的基本单位,可以直观的理解为“字”或“词”。对于中文文本来说,1个token通常对应一个汉字;对于英文文本来说,1个token通常对应3至4个字母。

百川模型服务根据模型输入和输出的总token数量进行计量计费,其中多轮对话中的history作为输入也会进行计量计费。每一次模型调用产生的实际token数量可以从 response 中获取。

计费单价

模型服务

模型名

计费单价

百川模型2-13B对话版

baichuan2-13b-chat-v1

0.008元/1,000 tokens

百川模型2-7B对话版

baichuan2-7b-chat-v1

0.006元/1,000 tokens

百川模型1

baichuan-7b-v1

限时免费中

科大讯飞

星火讯飞API

星火API

类型 服务量 QPS 有效期 版本 领取条件 单价 总价 原价
V3.5
免费试用版(个人) 200万tokens 2 一年 V3.5 个人身份认证 - - -
免费试用版(企业) 500万tokens 2 一年 V3.5 企业身份认证 - - -
0.5亿tokens套餐 - 5 一年 V3.5 - 0.3元/万tokens ¥1500 ¥1800
1亿tokens套餐 - 10 一年 V3.5 - 0.28元/万tokens ¥2800 ¥3600
10亿tokens套餐 - 20 一年 V3.5 - 0.26元/万tokens ¥26000 ¥36000
50亿tokens套餐 - 50 一年 V3.5 - 0.24元/万tokens ¥120000 ¥180000
V3.0
免费试用版(个人) 200万tokens 2 一年 V3.0 个人身份认证 - - -
免费试用版(企业) 500万tokens 2 一年 V3.0 企业身份认证 - - -
0.5亿tokens套餐 - 5 一年 V3.0 - 0.3元/万tokens ¥1500 ¥1800
1亿tokens套餐 - 10 一年 V3.0 - 0.28元/万tokens ¥2800 ¥3600
10亿tokens套餐 - 20 一年 V3.0 - 0.26元/万tokens ¥26000 ¥36000
50亿tokens套餐 - 50 一年 V3.0 - 0.24元/万tokens ¥120000 ¥180000
V1.5
免费试用版(个人) 200万tokens 2 一年 V1.5 个人身份认证 - - -
免费试用版(企业) 500万tokens 2 一年 V1.5 企业身份认证 - - -
0.5亿tokens套餐 - 5 一年 V1.5 - 0.15元/万tokens ¥750 ¥900
1亿tokens套餐 - 10 一年 V1.5 - 0.14元/万tokens ¥1400 ¥1800
10亿tokens套餐 - 20 一年 V1.5 - 0.13元/万tokens ¥13000 ¥18000
50亿tokens套餐 - 50 一年 V1.5 - 0.12元/万tokens ¥60000 ¥90000

腾讯混元大模型

腾讯混元大模型(Tencent Hunyuan)是由腾讯研发的大语言模型,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。

计算方式
token 为服务输入+服务输出的总额,1token 约等于1.8个中文汉字或3个英文字母;您可以前往 控制台 使用 token 计算器了解一段文本对应的 token 总数。

收费模式
本服务采用后付费日结模式,您开通服务后即可依照服务规则使用服务,腾讯云将根据您的实际使用量进行计费,并直接从您的账号中扣除等额金额。
产品价格

在免费额度用完后,按如下价格进行计费:

产品名

单位

刊例价

腾讯混元大模型标准版

每 1000 token

0.01元

腾讯混元大模型高级版

每 1000 token

0.10元

腾讯混元-Embedding

每 1000 token

0.0007元

说明:

token 为服务输入+服务输出的总额,1token 约等于1.8个中文汉字或3个英文字母;您可以前往 控制台 使用 token 计算器了解一段文本对应的 token 总数;

进行 API 调试,以及使用 API 3.0 Explorer 在线工具都会消耗对应的 token。

百度系

百度千帆大模型平台
1.文心大语言模型

模型服务内容子项单价
ERNIE-4.0-8K推理服务输入0.12元/千tokens
(限时优惠,原价0.15元/千tokens)
输出0.12元/千tokens
(限时优惠,原价0.3元/千tokens)
ERNIE-Bot-8k推理服务输入0.024元/千tokens
输出0.048元/千tokens
ERNIE-3.5-8K推理服务输入0.012元/千tokens
输出0.012元/千tokens
ERNIE-Lite-8K-0922推理服务输入0.008元/千tokens
输出0.008元/千tokens
(限时优惠,原价0.012元/千tokens)
ERNIE Speed-AppBuilder推理服务输入0.004元/千tokens
输出0.008元/千tokens
(限时优惠,原价0.012元/千tokens)
tokenizer公有云在线调用:
ERNIE-Bot系列大模型token长度计算接口
推理服务-0.0006元/千tokens
ERNIE-Speed-8K推理服务输入0.004元/千tokens
输出0.008元/千tokens
ERNIE-3.5-4K-0205推理服务输入0.012元/千token
输出0.012元/千tokens
ERNIE-3.5-8K-0205推理服务输入0.024元/千tokens
输出0.048元/千tokens
ERNIE-3.5-8K-1222推理服务输入0.012元/千tokens
输出0.012元/千tokens
ERNIE-Lite-8K推理服务输入0.003元/千tokens
输出0.006元/千tokens
ERNIE-Speed-128k推理服务输入0.004元/千tokens
(限时优惠)
输出0.008元/千tokens
(限时优惠)
ERNIE-Tiny-8k推理服务输入0.001元/千tokens
输出0.001元/千tokens

需注意:如API调用文心大模型时,function和system参数的输入,都需要按照tokens计费,相关计算逻辑可查看参考文档

2.第三方大语言模型

包含有千帆团队增强版大模型服务。

模型 服务内容 单价
BLOOMZ-7B 大模型公有云在线调用体验服务 0.004元/千tokens
Llama-2-7B-Chat 公有云在线调用体验服务 0.004元/千tokens
Llama-2-13B-Chat 公有云在线调用体验服务 0.006元/千tokens
Llama-2-70B-Chat 公有云在线调用体验服务 0.035元/千tokens
ChatGLM2-6B-32K 大模型公有云在线调用体验服务 0.004元/千tokens
AquilaChat-7B 大模型公有云在线调用体验服务 0.004元/千tokens
Mixtral-8x7B-Instruct 大模型公有云在线调用体验服务 0.035元/千tokens
SQLCoder-7B 公有云在线调用体验服务 0.004元/千tokens
CodeLlama-7B-Instruct 公有云在线调用体验服务 0.004元/千tokens
XuanYuan-70B-Chat-4bit 公有云在线调用体验服务 0.035元/千tokens
Qianfan-BLOOMZ-7B-compressed 大模型公有云在线调用体验服务 0.004元/千tokens
Qianfan-Chinese-Llama-2-7B 大模型公有云在线调用体验服务 0.004元/千tokens
Qianfan-Chinese-Llama-2-13B 公有云在线调用体验服务 0.006元/千tokens
ChatLaw 公有云在线调用体验服务 0.008元/千tokens
Yi-34B-Chat 公有云在线调用体验服务 限时免费,每个账号每天包含500次调用额度(按调用总次数统计,包括但不限于调用成功的次数)。如需扩容,请使用私有资源池发布该模型,或提交工单说明应用场景、预计月调用量,申请扩充额度。
Gemma-7B-it 公有云在线调用体验服务 0.004元/千tokens
Fuyu-8B 公有云在线调用体验服务 限时免费,每个账号每天包含500次调用额度(按调用总次数统计,包括但不限于调用成功的次数)。如需扩容,请使用私有资源池发布该模型,或提交工单说明应用场景、预计月调用量,申请扩充额度。
bce-reranker-base 公有云在线调用体验服务 0.002元/千tokens

注意:平台已预置多款模型版本,部署成服务时,需要收取私有资源池租赁费,服务发布成功后,调用免费。

智谱AI

智谱AI

全自研第四代基座大模型 GLM-4,性能相比GLM3提升60%,IFEval指令跟随能力评测高达90%,128k上下文大海捞针测试100%精准召回,同时具备视觉及高级Agent能力。

标准版定价

通过我们提供的标准API产品,快速构建自己专属的大模型应用,您可按需使用,我们将按照模型实际处理文本的token数量计量计费。

模型 说明 上下文长度 单价
GLM-4 提供了更强大的问答和文本生成能力。适合于复杂的对话交互和深度内容创作设计的场景。 128K 0.1元 / 千tokens
GLM-4V 实现了视觉语言特征的深度融合,支持视觉问答、图像字幕、视觉定位、复杂目标检测等各类图像理解任务。 2K 0.1元 / 千tokens
GLM-3-Turbo 适用于对知识量、推理能力、创造力要求较高的场景,比如广告文案、小说写作、知识类写作、代码生成等。 128K 0.005元 / 千tokens

云端私有化定价

提供额外的模型微调服务,提高模型精度,快速构建自己的专属大模型。

模型 套餐包含 单价(年付)
ChatGLM-130B 推理机数量 3台
训练语料额度 5,000,000 tokens
在线教程培训 1年
ChatGLM-66B 推理机数量 3台
训练语料额度 3,000,000 tokens
在线教程培训 1年
ChatGLM-32B 推理机数量 2台
训练语料额度 2,000,000 tokens
在线教程培训 1年
ChatGLM-12B 推理机数量 1台
训练语料额度 2,000,000 tokens
在线教程培训 1年

本地私有化定价

智谱AI大模型私有化部署服务是基于大模型算法模型的云计算服务,为客户提供高效的数据处理、模型训练和部署服务。我们为您提供智谱⼤模型⽂件和相关的⼯具包,客户可⾃⾏训练和部署推理服务,同时智谱会提供部署应⽤相关的技术⽀持和咨询,以及模型的更新。通过私有化部署方案,实现数据的完全掌控和模型的安全运行。

模型 套餐包含 单价(年付)
ChatGLM-130B 推理实例license 不限量/年
推理&微调工具包 1年
咨询服务 15人天/年
ChatGLM-66B 推理实例license 不限量/年
推理&微调工具包 1年
咨询服务 15人天/年
ChatGLM-32B 推理实例license 不限量/年
推理&微调工具包 1年
咨询服务 10人天/年
ChatGLM-12B 推理实例license 不限量/年
推理&微调工具包 1年
咨询服务 6人天/年

结论

暂不考虑模型输出效果的情况下,假设一个token代表2个汉字的情况下,大模型需要返回150左右的汉字,什么模型的计费比较划算

清华智谱(GLM)提供了不同档次的大模型API服务。其中,CHATGLM-LITE是最便宜的一个档次,定价为0.002元/千tokens。假设一个token代表2个汉字,那么返回150个汉字的话,需要使用150/2=75个tokens。根据这个计算,使用CHATGLM-LITE模型返回150个汉字的费用大约为0.002元/千tokens * 75/1000 = 0.00015元。

综合来看,清华智谱(GLM)的CHATGLM-LITE模型在假设一个token代表2个汉字的情况下,返回150个汉字的计费比较划算。