Open
Description
请问开发者,ModelCache可以直接提供标准的OpenAI格式的查询接口吗,比如原先程序是直接调用在线LLM的,直接替换接口链接和模型name,实现无缝接入到缓存当中。
因为对于一些无法编辑改造查询方式的程序来说,可以直接通过替换OpenAI格式的模型接口,就可以实现直接接入ModelCache。因为缓存期待的是快速响应嘛,所以在没有命中缓存的情况下,调用在线LLM接口查询答案,并且以流式的形式返回从LLM拿到的答案,兼容这些特征。
还有一个疑惑:如果历史上下文、prompt较长的情况下,是否会影响整体召回的准确度,有没有考虑将用户消息、prompt、历史上下文分别存储、计算向量呢。还是说我们查询ModelCache的时候应该尽量精简篇幅,只保留用户消息。希望获得解答。谢谢
Metadata
Metadata
Assignees
Labels
No labels