uptonking
diff --git a/‎.vscode/launch.json‎
Lines changed: 18 additions & 0 deletions b/‎.vscode/launch.json‎
Lines changed: 18 additions & 0 deletions
diff --git a/‎langgraph/graph-rag-eg-agentic.ts‎ renamed to ‎langgraph/graph-rag-eg-docs-grading.ts‎
Lines changed: 43 additions & 16 deletions b/‎langgraph/graph-rag-eg-agentic.ts‎ renamed to ‎langgraph/graph-rag-eg-docs-grading.ts‎
Lines changed: 43 additions & 16 deletions
diff --git a/‎langgraph/graph-rag-eg1-etl-mini-local.ts‎
Lines changed: 184 additions & 0 deletions b/‎langgraph/graph-rag-eg1-etl-mini-local.ts‎
Lines changed: 184 additions & 0 deletions
@@ -0,0 +1,18 @@
+{
+  "version": "0.2.0",
+  "configurations": [
+    {
+      "name": "Debug test-embedding-local.ts",
+      "type": "node",
+      "request": "launch",
+      "program": "${workspaceFolder}/node_modules/.bin/tsx",
+      "args": ["langgraph/test-embedding-local.ts"],
+      "cwd": "${workspaceFolder}",
+      "env": {},
+      "console": "integratedTerminal",
+      "skipFiles": ["<node_internals>/**"],
+      "sourceMaps": true,
+      "outFiles": ["${workspaceFolder}/**/*.js"]
+    }
+  ]
+}
@@ -1,3 +1,6 @@
+// import '@dotenvx/dotenvx/config';
+// import "cheerio";
+
 import { CheerioWebBaseLoader } from '@langchain/community/document_loaders/web/cheerio';
 import { AIMessage, BaseMessage, HumanMessage } from '@langchain/core/messages';
 import { ChatPromptTemplate } from '@langchain/core/prompts';
@@ -10,6 +13,8 @@ import { createRetrieverTool } from 'langchain/tools/retriever';
 import { MemoryVectorStore } from 'langchain/vectorstores/memory';
 import { z } from 'zod';
 
+// 🧑‍🏫 [LangGraph Retrieval Agent](https://langchain-ai.github.io/langgraphjs/tutorials/rag/langgraph_agentic_rag/)
+
 const urls = [
   'https://lilianweng.github.io/posts/2023-06-23-agent/',
   'https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/',
@@ -20,39 +25,60 @@ const docs = await Promise.all(
   urls.map((url) => new CheerioWebBaseLoader(url).load()),
 );
 const docsList = docs.flat();
+console.log(';; docsList ', docsList[0].pageContent.length);
+console.log(';; docsList ', docsList[0]);
 
 const textSplitter = new RecursiveCharacterTextSplitter({
   chunkSize: 500,
   chunkOverlap: 50,
 });
 const docSplits = await textSplitter.splitDocuments(docsList);
-
+console.log(';; docSplits ', docSplits.length);
+
+const embeddings = new OpenAIEmbeddings({
+  // model: "text-embedding-3-large",
+  model: 'text-embedding-embeddinggemma-300m',
+  configuration: {
+    baseURL: 'http://localhost:1234/v1',
+    apiKey: 'not-needed',
+  },
+});
 // save embeddings to vectorDB
 const vectorStore = await MemoryVectorStore.fromDocuments(
   docSplits,
-  new OpenAIEmbeddings(),
+  embeddings,
 );
 
 const retriever = vectorStore.asRetriever();
 
+// pass a custom state object to the graph, or use a simple list of messages.
 const GraphState = Annotation.Root({
   messages: Annotation<BaseMessage[]>({
     reducer: (x, y) => x.concat(y),
     default: () => [],
   }),
 });
 
-const tool = createRetrieverTool(retriever, {
+const retriveTool = createRetrieverTool(retriever, {
   name: 'retrieve_blog_posts',
   description:
     'Search and return information about Lilian Weng blog posts on LLM agents, prompt engineering, and adversarial attacks on LLMs.',
 });
-const tools = [tool];
+const retriveTools = [retriveTool];
 
-const toolNode = new ToolNode<typeof GraphState.State>(tools);
+const retriveToolNode = new ToolNode<typeof GraphState.State>(retriveTools);
 
+// const model = new ChatOpenAI({
+//   model: 'gpt-4o',
+//   temperature: 0,
+// });
 const model = new ChatOpenAI({
-  model: 'gpt-4o',
+  // model: 'qwen/qwen3-4b-2507',
+  model: 'google/gemma-3-12b',
+  configuration: {
+    baseURL: 'http://localhost:1234/v1',
+    apiKey: 'not-needed',
+  },
   temperature: 0,
 });
 
@@ -65,18 +91,19 @@ const model = new ChatOpenAI({
  */
 function shouldRetrieve(state: typeof GraphState.State): string {
   const { messages } = state;
-  console.log('---DECIDE TO RETRIEVE---');
   const lastMessage = messages[messages.length - 1];
 
   if (
     'tool_calls' in lastMessage &&
     Array.isArray(lastMessage.tool_calls) &&
     lastMessage.tool_calls.length
   ) {
-    console.log('---DECISION: RETRIEVE---');
+    console.log('---RETRIEVE DECISION: YES ✅ ---');
     return 'retrieve';
   }
+
   // If there are no tool calls then we finish.
+  console.log('---RETRIEVE DECISION: NO ---');
   return END;
 }
 
@@ -92,7 +119,7 @@ function shouldRetrieve(state: typeof GraphState.State): string {
 async function gradeDocuments(
   state: typeof GraphState.State,
 ): Promise<Partial<typeof GraphState.State>> {
-  console.log('---GET RELEVANCE---');
+  console.log('---NODE gradeDocuments---');
 
   const { messages } = state;
   const tool = {
@@ -155,10 +182,10 @@ function checkRelevance(state: typeof GraphState.State): string {
   }
 
   if (toolCalls[0].args.binaryScore === 'yes') {
-    console.log('---DECISION: DOCS RELEVANT---');
+    console.log('---RELEVANT DECISION: YES---');
     return 'yes';
   }
-  console.log('---DECISION: DOCS NOT RELEVANT---');
+  console.log('---RELEVANT DECISION: NO ---');
   return 'no';
 }
 
@@ -174,7 +201,7 @@ function checkRelevance(state: typeof GraphState.State): string {
 async function agent(
   state: typeof GraphState.State,
 ): Promise<Partial<typeof GraphState.State>> {
-  console.log('---CALL AGENT---');
+  console.log('---Node AGENT---');
 
   const { messages } = state;
   // Find the AIMessage which contains the `give_relevance_score` tool call,
@@ -196,7 +223,7 @@ async function agent(
   //   temperature: 0,
   //   streaming: true,
   // }).bindTools(tools);
-  const mainChatModel = model.bindTools(tools);
+  const mainChatModel = model.bindTools(retriveTools);
   const response = await mainChatModel.invoke(filteredMessages);
   return {
     messages: [response],
@@ -252,7 +279,7 @@ async function generate(
   const lastToolMessage = messages
     .slice()
     .reverse()
-    .find((msg) => msg._getType() === 'tool');
+    .find((msg) => msg.getType() === 'tool');
   if (!lastToolMessage) {
     throw new Error('No tool message found in the conversation history');
   }
@@ -282,7 +309,7 @@ async function generate(
 const workflow = new StateGraph(GraphState)
   // Define the nodes which we'll cycle between.
   .addNode('agent', agent)
-  .addNode('retrieve', toolNode)
+  .addNode('retrieve', retriveToolNode)
   .addNode('gradeDocuments', gradeDocuments)
   .addNode('rewrite', rewrite)
   .addNode('generate', generate);
@@ -307,7 +334,7 @@ workflow.addConditionalEdges(
   {
     // Call tool node
     yes: 'generate',
-    no: 'rewrite', // placeholder
+    no: 'rewrite',
   },
 );
 
 
@@ -0,0 +1,184 @@
+import { CheerioWebBaseLoader } from '@langchain/community/document_loaders/web/cheerio';
+import { AIMessage, BaseMessage, HumanMessage } from '@langchain/core/messages';
+import { ChatPromptTemplate, PromptTemplate } from '@langchain/core/prompts';
+import { Annotation, END, START, StateGraph } from '@langchain/langgraph';
+import { ToolNode } from '@langchain/langgraph/prebuilt';
+import { ChatOpenAI, OpenAIClient, OpenAIEmbeddings } from '@langchain/openai';
+import { RecursiveCharacterTextSplitter } from '@langchain/textsplitters';
+import { pull } from 'langchain/hub';
+import { createRetrieverTool } from 'langchain/tools/retriever';
+import { MemoryVectorStore } from 'langchain/vectorstores/memory';
+import { z } from 'zod';
+import { Document } from '@langchain/core/documents';
+
+// 🧑‍🏫 [Build a RAG App: Part 1](https://js.langchain.com/docs/tutorials/rag/)
+
+// const model = new ChatOpenAI({
+//   model: 'gpt-4o',
+//   temperature: 0,
+// });
+const model = new ChatOpenAI({
+  // model: 'qwen/qwen3-4b-2507',
+  model: 'google/gemma-3-12b',
+  configuration: {
+    baseURL: 'http://localhost:1234/v1',
+    apiKey: 'not-needed',
+  },
+  temperature: 0,
+});
+
+// const embeddings = new OpenAIEmbeddings({
+//   model: "text-embedding-qwen3-embedding-0.6b",
+//   // model: 'text-embedding-embeddinggemma-300m',
+//   configuration: {
+//     baseURL: 'http://localhost:1234/v1',
+//     // check: false,
+//     apiKey: 'not-needed',
+//   },
+// });
+
+const urls = [
+  'https://dev.to/nyxtom/introduction-to-crdts-for-realtime-collaboration-2eb1',
+  'https://dev.to/foxgem/crdts-achieving-eventual-consistency-in-distributed-systems-296g',
+  // "https://lilianweng.github.io/posts/2023-06-23-agent/",
+];
+
+const docs = await Promise.all(
+  urls.map((url) =>
+    new CheerioWebBaseLoader(url, {
+      selector: '.crayons-layout__content',
+      // selector: 'p'
+    }).load(),
+  ),
+);
+const docsList = docs.flat();
+
+// const cheerioLoader = new CheerioWebBaseLoader(
+//   "https://lilianweng.github.io/posts/2023-06-23-agent/",
+//   {
+//     selector: 'p'
+//   }
+// );
+// const docsList = await cheerioLoader.load();
+
+console.log(';; docsList ', docsList[0].pageContent.length);
+// console.log(';; docsList ', docsList[0].pageContent.slice(0, 2200))
+
+const textSplitter = new RecursiveCharacterTextSplitter({
+  chunkSize: 500,
+  chunkOverlap: 50,
+});
+const docSplits = await textSplitter.splitDocuments(docsList);
+console.log(';; docSplits ', docSplits.length);
+// console.log(';; docSplits ', docSplits.slice(0, 6))
+
+// 🛢️ save embeddings to vectorDB
+// const vectorStore = new MemoryVectorStore(embeddings);
+// await vectorStore.addDocuments(docSplits)
+// const vectorStore = await MemoryVectorStore.fromDocuments(
+//   docSplits,
+//   embeddings
+// );
+const openAiClient = new OpenAIClient({
+  apiKey: 'not-needed',
+  baseURL: 'http://localhost:1234/v1',
+});
+
+// Create a proper embeddings interface for OpenAIClient
+class OpenAIClientEmbeddings {
+  constructor(
+    private client: OpenAIClient,
+    private model: string,
+  ) {}
+
+  async embedDocuments(texts: string[]): Promise<number[][]> {
+    const response = await this.client.embeddings.create({
+      model: this.model,
+      input: texts,
+      encoding_format: 'float',
+    });
+    return response.data.map((item) => item.embedding);
+  }
+
+  async embedQuery(text: string): Promise<number[]> {
+    const embeddings = await this.embedDocuments([text]);
+    return embeddings[0];
+  }
+}
+
+// Create embeddings instance and use fromDocuments
+const embeddingsInstance = new OpenAIClientEmbeddings(
+  openAiClient,
+  'text-embedding-qwen3-embedding-0.6b',
+);
+// const embeddingsInstance = new OpenAIClientEmbeddings(openAiClient, 'text-embedding-embeddinggemma-300m');
+// const embeddingsInstance = new OpenAIClientEmbeddings(openAiClient, 'text-embedding-granite-embedding-278m-multilingual');
+const vectorStore = await MemoryVectorStore.fromDocuments(
+  docSplits,
+  embeddingsInstance,
+);
+
+// const retrievedDocs = await vectorStore.similaritySearch('yjs');
+// console.log(';; retrievedDocs ', retrievedDocs.length)
+// console.log(';; retrievedDocs ', retrievedDocs)
+
+// Define state for application
+const StateAnnotation = Annotation.Root({
+  question: Annotation<string>,
+  context: Annotation<Document[]>,
+  answer: Annotation<string>,
+});
+
+// only used for types
+const InputStateAnnotation = Annotation.Root({
+  question: Annotation<string>,
+});
+
+// retrieve node
+const retrieve = async (state: typeof InputStateAnnotation.State) => {
+  const retrievedDocs = await vectorStore.similaritySearch(state.question);
+  console.log(';; retrievedDocs ', retrievedDocs.length);
+  // console.log(';; retrievedDocs ', retrievedDocs)
+  return { context: retrievedDocs };
+};
+
+const generate = async (state: typeof StateAnnotation.State) => {
+  const docsContent = state.context.map((doc) => doc.pageContent).join('\n');
+
+  // Define prompt for question-answering
+  // const promptTemplate = await pull<ChatPromptTemplate>("rlm/rag-prompt");
+  const promptTemplate = PromptTemplate.fromTemplate(
+    `You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Use three sentences maximum and keep the answer concise.
+  Question: {question} 
+  Context: {context} 
+  Answer:
+  `,
+  );
+
+  const messages = await promptTemplate.invoke({
+    question: state.question,
+    context: docsContent,
+  });
+
+  const response = await model.invoke(messages);
+  return { answer: response.content };
+};
+
+// Compile application and test
+const graph = new StateGraph(StateAnnotation)
+  .addNode('retrieve', retrieve)
+  .addNode('generate', generate)
+  .addEdge('__start__', 'retrieve')
+  .addEdge('retrieve', 'generate')
+  .addEdge('generate', '__end__')
+  .compile();
+
+// -------
+
+let inputs = { question: 'What is CmRDTs ?' };
+// let inputs = { question: "What is yjs  ?" };
+
+const result = await graph.invoke(inputs);
+
+console.log('\n👾');
+console.log(result.answer);