Kimi首发“上下文缓存”技术，助推长文本大模型降本90%

厂商稿件
2024-07-02 18:01

近日，月之暗面宣布 Kimi 开放平台正式公测新技术——上下文缓存（Context Caching），该技术在 API 价格不变的前提下，可为开发者降低最高 90% 的长文本大模型使用成本，并且显著提升模型的响应速度。

据了解，月之暗面是国内首家面向开发者推出上下文缓存（Context Caching）技术的大模型公司。

上下文缓存（Context Caching）技术的基本原理是，系统预先存储那些可能会被频繁请求的大量数据或信息。这样，当用户再次请求相同信息时，系统可以直接从缓存中快速提供，而无需重新计算或从原始数据源中检索，从而节省时间和资源。

Kimi.001.png

上下文缓存（Context Caching）技术可以带来降本和提速两大价值。首先，通过缓存重复性输入的大量数据，对于公共上下文仅收取一次费用，上下文缓存（Context Caching）技术大大降低了开发者使用长文本旗舰大模型的成本，最高可降本达 90%。其次，上下文缓存（Context Caching）技术还有助于提升大模型API的响应速度，实测可将 128K 长文本大模型的首 token 延迟降低 83% 左右，从平均 30 秒左右降低到平均 5 秒内。

在长上下文和高负载的业务场景上，上下文缓存带来的降本和提速效果尤为显著。常见场景包括提供大量预设内容的问答机器人，例如 Kimi API 小助手；针对固定的文档集合的频繁查询，例如上市公司信息披露问答工具；对静态代码库或知识库的周期性分析，例如各类 Copilot Agent；瞬时流量巨大的爆款 AI 应用，例如哄哄模拟器；交互规则复杂的 Agent 类应用，例如什么值得买的 Kimi+ 等。

以常见的固定文档大量提问场景为例。某硬件产品说明书大概 9万字，换算 Tokens 长度大概 64K，该产品售前支持人员需要在 10 分钟内，密集对产品的功能/使用方式进行 40 次问答，每次的问题大概 100 个字，要求模型的输出需要基于产品说明书来回答，回答问题在 120 字以内。

Kimi.002.png

按照大模型问答的 Tokens 计算逻辑，售前支持人员需要每次向模型输入的 Tokens =文档 Tokens +问题 Tokens，10 分钟内 40 次的问答共计需要消耗 Tokens 2.56 M，128k 模型价格为 60元/M，预计原始花费需要 153.84 元。若该场景接入上下文缓存（Context Caching）技术：9万字的文档只收取一次创建 Cache 和存储 10 分钟 Cache 的费用，10分钟内的40次提问，将只收取问题的 100 字+ 回答的 120 字的费用，预计花费 11.88 元。节省了 141.95 元，相当于费用降低 90% 左右。

响应速度方面，以 128k 模型的一次4万字（约 30k tokens）的推理请求为例。通常向模型提问，平均要 30 秒返回首 Token。接入上下文缓存技术后，最快可 1 秒内完成首 Token 返回。经过大量测试，接入上下文缓存功能后，128k 模型的首 Token 延迟平均可降至 5 秒内，降低了 83%左右。

Kimi.003.png

需要注意的是，上述测试效果基于 1 token = 1～1.5个文字和字符，使用 128k 模型进行测算。具体的效果根据业务情况/模型选择不同，会有略微差别。

上下文缓存（Context Caching）技术在公测期间将首先提供给 Kimi 开放平台的 Tier5 等级开发者，后续陆续增大开发者公开测试范围。

Kimi 大模型目前已接入了钉钉、扣子等平台，用户或开发者可以在这些平台选用 Kimi 大模型，借助出色的长文本和指令遵循能力搭建个性化的智能体应用。Kimi 开放平台的开发者注册量自从今年 2 月份以来复合增长率超过 175%，在投研服务、法律尽调、企业知识库问答、辅助软件开发等场景获得广泛应用。近期，Kimi 开放平台陆续上线了工具调用（Tool Use）、Partial Mode、上下文缓存（Context Caching）等能力，持续帮助开发者高效打造更有想象力的AI 应用。

来源：厂商稿件

作者：投稿

编辑：leilei

图片来源:

本文链接: https://www.aiust.com/article/20240702/1711.html

大模型

声明：除非注明，本站文章均为AIUST.Com原创或编译，转载时请注明文章作者和“来源：AIUST.Com”，AIUST.Com尊重行业规范，每篇文章都标有明确的作者和来源。文章为作者观点，不代表AIUST.Com立场。部份图片来自网络，如有侵权，请联系我们删除！

资讯

原创

荐读

5G+AR加持晨星机器人掀起“智能化+人机交互”制造新趋势
2021世界制造业大会于11月22日在合肥落下帷幕。为期四天的大会中，作为向世界展示智能制造全面能力的窗口，联想展示了一系列让人惊喜的创新产品。现场展示的ThinkPad X1 Fold整体重量仅有1公斤，折叠起来之后的厚度大约为24毫米。当保持半开状态时，可以像拿本书一样握住，并且能同时运行两个应用程序。使用固定在中间的键盘之后，瞬间变...
智能手机竞争中失败，日本在联网汽车领域举步维艰
据外媒报道，在制造带有数字联网服务的汽车的竞争中，丰田汽车和日产汽车面临着被本土市场拖累的风险。与美国和欧洲的汽车消费者不同的是，日本消费者不愿意为这些联网功能和服务买单。结果就是：日本只有10%的汽车...
2020年河南省将推广应用3万台工业机器人
到2020年，推广应用3万台工业机器人，建设1000条智能生产线、300个智能车间、150个智能工厂……4月16日，在2018两岸智能装备制造郑州论坛上，河南省工信委发布了《2017年河南省智能制造白皮书》，河南智能制造的2020...

Kimi首发“上下文缓存”技术，助推长文本大模型降本90%

相关文章

资讯

原创

荐读

热门标签