提供OpenAI格式的查询接口

请问开发者，ModelCache可以直接提供标准的OpenAI格式的查询接口吗，比如原先程序是直接调用在线LLM的，直接替换接口链接和模型name，实现无缝接入到缓存当中。
因为对于一些无法编辑改造查询方式的程序来说，可以直接通过替换OpenAI格式的模型接口，就可以实现直接接入ModelCache。因为缓存期待的是快速响应嘛，所以在没有命中缓存的情况下，调用在线LLM接口查询答案，并且以流式的形式返回从LLM拿到的答案，兼容这些特征。
还有一个疑惑：如果历史上下文、prompt较长的情况下，是否会影响整体召回的准确度，有没有考虑将用户消息、prompt、历史上下文分别存储、计算向量呢。还是说我们查询ModelCache的时候应该尽量精简篇幅，只保留用户消息。希望获得解答。谢谢