inference fixes

yk · yk · commit 39233d1c3956 · 2023-03-07T23:44:38.000+01:00
diff --git a/inference/server/oasst_inference_server/database.py b/inference/server/oasst_inference_server/database.py
@@ -33,8 +33,8 @@ def custom_json_deserializer(s):
             return inference.WorkParameters.parse_obj(d)
         case "WorkerConfig":
             return inference.WorkerConfig.parse_obj(d)
-        case "MessageRequest":
-            return chat_schema.MessageRequest.parse_obj(d)
+        case "CreateMessageRequest":
+            return chat_schema.CreateMessageRequest.parse_obj(d)
         case "WorkRequest":
             return inference.WorkRequest.parse_obj(d)
         case "WorkResponsePacket":
diff --git a/inference/server/oasst_inference_server/routes/chats.py b/inference/server/oasst_inference_server/routes/chats.py
@@ -1,7 +1,7 @@
 import fastapi
 from fastapi import Depends
 from loguru import logger
-from oasst_inference_server import auth, deps, queueing
+from oasst_inference_server import auth, deps, models, queueing
 from oasst_inference_server.schemas import chat as chat_schema
 from oasst_inference_server.user_chat_repository import UserChatRepository
 from oasst_shared.schemas import inference
@@ -48,22 +48,21 @@ async def get_chat(
 @router.post("/{chat_id}/messages")
 async def create_message(
     chat_id: str,
-    message_request: chat_schema.MessageRequest,
-    fastapi_request: fastapi.Request,
+    request: chat_schema.CreateMessageRequest,
     user_id: str = Depends(auth.get_current_user_id),
-) -> EventSourceResponse:
+) -> chat_schema.CreateMessageResponse:
     """Allows the client to stream the results of a request."""
 
     async with deps.manual_user_chat_repository(user_id) as ucr:
         try:
             prompter_message = await ucr.add_prompter_message(
-                chat_id=chat_id, parent_id=message_request.parent_id, content=message_request.content
+                chat_id=chat_id, parent_id=request.parent_id, content=request.content
             )
             assistant_message = await ucr.initiate_assistant_message(
                 parent_id=prompter_message.id,
-                work_parameters=message_request.work_parameters,
+                work_parameters=request.work_parameters,
             )
-            queue = queueing.work_queue(deps.redis_client, message_request.worker_compat_hash)
+            queue = queueing.work_queue(deps.redis_client, request.worker_compat_hash)
             logger.debug(f"Adding {assistant_message.id=} to {queue.queue_id} for {chat_id}")
             await queue.enqueue(assistant_message.id)
             logger.debug(f"Added {assistant_message.id=} to {queue.queue_id} for {chat_id}")
@@ -73,15 +72,26 @@ async def create_message(
             logger.exception("Error adding prompter message")
             return fastapi.Response(status_code=500)
 
-    async def event_generator(prompter_message: inference.MessageRead, assistant_message: inference.MessageRead):
-        queue = queueing.message_queue(deps.redis_client, assistant_message.id)
+    return chat_schema.CreateMessageResponse(
+        prompter_message=prompter_message_read,
+        assistant_message=assistant_message_read,
+    )
+
+
+@router.get("/{chat_id}/messages/{message_id}/events")
+async def message_events(
+    chat_id: str,
+    message_id: str,
+    fastapi_request: fastapi.Request,
+    ucr: UserChatRepository = Depends(deps.create_user_chat_repository),
+) -> EventSourceResponse:
+    message: models.DbMessage = await ucr.get_message_by_id(chat_id=chat_id, message_id=message_id)
+    if message.role != "assistant":
+        raise fastapi.HTTPException(status_code=400, detail="Only assistant messages can be streamed.")
+
+    async def event_generator(chat_id: str, message_id: str):
+        queue = queueing.message_queue(deps.redis_client, message_id=message_id)
         try:
-            yield {
-                "data": chat_schema.MessageResponseEvent(
-                    prompter_message=prompter_message,
-                    assistant_message=assistant_message,
-                ).json(),
-            }
             while True:
                 item = await queue.dequeue()
                 if item is None:
@@ -113,12 +123,7 @@ async def event_generator(prompter_message: inference.MessageRead, assistant_mes
             logger.exception(f"Error streaming {chat_id}")
             raise
 
-    return EventSourceResponse(
-        event_generator(
-            prompter_message=prompter_message_read,
-            assistant_message=assistant_message_read,
-        )
-    )
+    return EventSourceResponse(event_generator(chat_id=chat_id, message_id=message_id))
 
 
 @router.post("/{chat_id}/messages/{message_id}/votes")
diff --git a/inference/server/oasst_inference_server/schemas/chat.py b/inference/server/oasst_inference_server/schemas/chat.py
@@ -2,24 +2,7 @@
 from oasst_shared.schemas import inference
 
 
-class CreateChatRequest(pydantic.BaseModel):
-    pass
-
-
-class ChatListRead(pydantic.BaseModel):
-    id: str
-
-
-class ChatRead(pydantic.BaseModel):
-    id: str
-    messages: list[inference.MessageRead]
-
-
-class ListChatsResponse(pydantic.BaseModel):
-    chats: list[ChatListRead]
-
-
-class MessageRequest(pydantic.BaseModel):
+class CreateMessageRequest(pydantic.BaseModel):
     parent_id: str | None = None
     content: str = pydantic.Field(..., repr=False)
     work_parameters: inference.WorkParameters = pydantic.Field(default_factory=inference.WorkParameters)
@@ -29,9 +12,9 @@ def worker_compat_hash(self) -> str:
         return inference.compat_hash(model_name=self.work_parameters.model_name)
 
 
-class MessageResponseEvent(pydantic.BaseModel):
+class CreateMessageResponse(pydantic.BaseModel):
     prompter_message: inference.MessageRead
-    assistant_message: inference.MessageRead | None
+    assistant_message: inference.MessageRead
 
 
 class TokenResponseEvent(pydantic.BaseModel):
@@ -46,3 +29,20 @@ class VoteRequest(pydantic.BaseModel):
 class ReportRequest(pydantic.BaseModel):
     report_type: inference.ReportType
     reason: str
+
+
+class CreateChatRequest(pydantic.BaseModel):
+    pass
+
+
+class ChatListRead(pydantic.BaseModel):
+    id: str
+
+
+class ChatRead(pydantic.BaseModel):
+    id: str
+    messages: list[inference.MessageRead]
+
+
+class ListChatsResponse(pydantic.BaseModel):
+    chats: list[ChatListRead]
diff --git a/inference/server/oasst_inference_server/user_chat_repository.py b/inference/server/oasst_inference_server/user_chat_repository.py
@@ -33,6 +33,21 @@ async def get_chat_by_id(self, chat_id: str) -> models.DbChat:
         chat = (await self.session.exec(query)).one()
         return chat
 
+    async def get_message_by_id(self, chat_id: str, message_id: str) -> models.DbMessage:
+        query = (
+            sqlmodel.select(models.DbMessage)
+            .where(
+                models.DbMessage.id == message_id,
+                models.DbMessage.chat_id == chat_id,
+            )
+            .join(models.DbChat)
+            .where(
+                models.DbChat.user_id == self.user_id,
+            )
+        )
+        message = (await self.session.exec(query)).one()
+        return message
+
     async def create_chat(self) -> models.DbChat:
         chat = models.DbChat(user_id=self.user_id)
         self.session.add(chat)
diff --git a/inference/text-client/__main__.py b/inference/text-client/__main__.py
@@ -41,18 +41,23 @@ def main(backend_url: str = "http://127.0.0.1:8000"):
                         "parent_id": parent_id,
                         "content": message,
                     },
+                    headers=auth_headers,
+                )
+                response.raise_for_status()
+                message_id = response.json()["assistant_message"]["id"]
+
+                response = requests.get(
+                    f"{backend_url}/chats/{chat_id}/messages/{message_id}/events",
                     stream=True,
                     headers={
                         "Accept": "text/event-stream",
                         **auth_headers,
                     },
                 )
                 response.raise_for_status()
-
                 client = sseclient.SSEClient(response)
                 print("Assistant: ", end="", flush=True)
                 events = iter(client.events())
-                message_id = json.loads(next(events).data)["assistant_message"]["id"]
                 for event in events:
                     try:
                         data = json.loads(event.data)