Marker-Inc-Korea
diff --git a/‎autorag/data/__init__.py‎
Lines changed: 49 additions & 19 deletions b/‎autorag/data/__init__.py‎
Lines changed: 49 additions & 19 deletions
diff --git a/‎autorag/data/legacy/qacreation/ragas.py‎
Lines changed: 3 additions & 1 deletion b/‎autorag/data/legacy/qacreation/ragas.py‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎autorag/embedding/base.py‎
Lines changed: 0 additions & 2 deletions b/‎autorag/embedding/base.py‎
Lines changed: 0 additions & 2 deletions
diff --git a/‎autorag/node_line.py‎
Lines changed: 21 additions & 0 deletions b/‎autorag/node_line.py‎
Lines changed: 21 additions & 0 deletions
diff --git a/‎autorag/nodes/generator/openai_llm.py‎
Lines changed: 36 additions & 2 deletions b/‎autorag/nodes/generator/openai_llm.py‎
Lines changed: 36 additions & 2 deletions
diff --git a/‎autorag/nodes/passagereranker/flag_embedding.py‎
Lines changed: 22 additions & 8 deletions b/‎autorag/nodes/passagereranker/flag_embedding.py‎
Lines changed: 22 additions & 8 deletions
diff --git a/‎autorag/nodes/passagereranker/openvino.py‎
Lines changed: 23 additions & 6 deletions b/‎autorag/nodes/passagereranker/openvino.py‎
Lines changed: 23 additions & 6 deletions
diff --git a/‎autorag/nodes/semanticretrieval/vectordb.py‎
Lines changed: 2 additions & 0 deletions b/‎autorag/nodes/semanticretrieval/vectordb.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎autorag/schema/base.py‎
Lines changed: 1 addition & 1 deletion b/‎autorag/schema/base.py‎
Lines changed: 1 addition & 1 deletion
@@ -1,42 +1,72 @@
 import logging
-from typing import List, Callable
+from typing import Callable, List
 
 from langchain_community.document_loaders import (
+	BSHTMLLoader,
+	CSVLoader,
+	DirectoryLoader,
+	JSONLoader,
 	PDFMinerLoader,
 	PDFPlumberLoader,
+	PyMuPDFLoader,
 	PyPDFium2Loader,
 	PyPDFLoader,
-	PyMuPDFLoader,
-	UnstructuredPDFLoader,
-	CSVLoader,
-	JSONLoader,
+	UnstructuredFileLoader,
 	UnstructuredMarkdownLoader,
-	BSHTMLLoader,
+	UnstructuredPDFLoader,
 	UnstructuredXMLLoader,
-	DirectoryLoader,
 )
-from langchain_unstructured import UnstructuredLoader
-from langchain_upstage import UpstageLayoutAnalysisLoader
-
+from langchain_text_splitters import (
+	CharacterTextSplitter,
+	KonlpyTextSplitter,
+	RecursiveCharacterTextSplitter,
+	SentenceTransformersTokenTextSplitter,
+)
 from llama_index.core.node_parser import (
-	TokenTextSplitter,
+	SemanticDoubleMergingSplitterNodeParser,
+	SemanticSplitterNodeParser,
 	SentenceSplitter,
 	SentenceWindowNodeParser,
-	SemanticSplitterNodeParser,
-	SemanticDoubleMergingSplitterNodeParser,
 	SimpleFileNodeParser,
-)
-from langchain.text_splitter import (
-	RecursiveCharacterTextSplitter,
-	CharacterTextSplitter,
-	KonlpyTextSplitter,
-	SentenceTransformersTokenTextSplitter,
+	TokenTextSplitter,
 )
 
 from autorag import LazyInit
 
 logger = logging.getLogger("AutoRAG")
 
+
+class UnstructuredLoader:
+	def __init__(self, file_path_list: List[str], **kwargs):
+		self._file_path_list = file_path_list
+		self._kwargs = kwargs
+
+	def load(self):
+		documents = []
+		for file_path in self._file_path_list:
+			documents.extend(UnstructuredFileLoader(file_path, **self._kwargs).load())
+		return documents
+
+
+class UpstageLayoutAnalysisLoader:
+	def __new__(cls, *args, **kwargs):
+		loader_cls = None
+		try:
+			from langchain_upstage import (
+				UpstageDocumentParseLoader as loader_cls,
+			)
+		except Exception:
+			try:
+				from langchain_upstage import UpstageLayoutAnalysisLoader as loader_cls
+			except Exception as exc:
+				raise ImportError(
+					"The 'upstagedocumentparse' parser requires a compatible "
+					"langchain-upstage installation. Install a version that supports "
+					"your current langchain-core release."
+				) from exc
+		return loader_cls(*args, **kwargs)
+
+
 parse_modules = {
 	# PDF
 	"pdfminer": PDFMinerLoader,
 
@@ -4,7 +4,6 @@
 import pandas as pd
 from langchain_core.embeddings import Embeddings
 from langchain_core.language_models import BaseChatModel
-from langchain_openai import ChatOpenAI, OpenAIEmbeddings
 
 from autorag.data.utils.util import corpus_df_to_langchain_documents
 from autorag.utils import cast_qa_dataset
@@ -38,6 +37,9 @@ def generate_qa_ragas(
 	from ragas.testset import TestsetGenerator
 	from ragas.testset.evolutions import simple, reasoning, multi_context
 
+	if generator_llm is None or critic_llm is None or embedding_model is None:
+		from langchain_openai import ChatOpenAI, OpenAIEmbeddings
+
 	if generator_llm is None:
 		generator_llm = ChatOpenAI(model="gpt-3.5-turbo-16k")
 	if critic_llm is None:
 
@@ -8,7 +8,6 @@
 from llama_index.embeddings.openai import OpenAIEmbedding
 from llama_index.embeddings.openai import OpenAIEmbeddingModelType
 from llama_index.embeddings.ollama import OllamaEmbedding
-from langchain_openai.embeddings import OpenAIEmbeddings
 from llama_index.embeddings.openai_like import OpenAILikeEmbedding
 
 from autorag import LazyInit
@@ -37,7 +36,6 @@ def _get_vector(self) -> List[float]:
 	),
 	"mock": LazyInit(MockEmbeddingRandom, embed_dim=768),
 	# langchain
-	"openai_langchain": LazyInit(OpenAIEmbeddings),
 	"ollama": LazyInit(OllamaEmbedding),
 	# openai like
 	"openai_like": LazyInit(OpenAILikeEmbedding),
 
@@ -1,5 +1,6 @@
 import os
 import pathlib
+import shutil
 from typing import Dict, List, Optional
 
 import pandas as pd
@@ -59,6 +60,26 @@ def run_node_line(
 			}
 		)
 
+	retrieval_nodes = list(
+		filter(lambda row: row["node_type"].endswith("retrieval"), summary_lst)
+	)
+	if len(retrieval_nodes) > 0:
+		retrieval_dir = os.path.join(node_line_dir, "retrieval")
+		os.makedirs(retrieval_dir, exist_ok=True)
+		for index, retrieval_node in enumerate(retrieval_nodes):
+			source_path = os.path.join(
+				node_line_dir,
+				retrieval_node["node_type"],
+				retrieval_node["best_module_filename"],
+			)
+			if os.path.exists(source_path):
+				shutil.copy2(
+					source_path, os.path.join(retrieval_dir, f"{index}.parquet")
+				)
+		previous_result.to_parquet(
+			os.path.join(retrieval_dir, "best_0.parquet"), index=False
+		)
+
 	pd.DataFrame(summary_lst).to_csv(
 		os.path.join(node_line_dir, "summary.csv"), index=False
 	)
 
@@ -17,7 +17,10 @@
 logger = logging.getLogger("AutoRAG")
 
 MAX_TOKEN_DICT = {  # model name : token limit
+	"gpt-5.1-2025-11-13": 272_000,
+	"gpt-5.1": 272_000,
 	"gpt-5": 272_000,
+	"gpt-5-pro": 272_000,
 	"gpt-5-2025-08-07": 272_000,
 	"gpt-5-chat-latest": 272_000,
 	"gpt-5-mini-2025-08-07": 272_000,
@@ -147,12 +150,17 @@ def _pure(
 			self.llm.startswith("o1")
 			or self.llm.startswith("o3")
 			or self.llm.startswith("o4")
-			or self.llm.startswith("gpt-5")
 		):
 			tasks = [
 				self.get_result_reasoning(prompt, **openai_chat_params)
 				for prompt in prompts
 			]
+		elif self.llm.startswith("gpt-5"):
+			responses_create_params = pop_params(self.client.responses.create, kwargs)
+			tasks = [
+				self.get_result_gpt_5(prompt, **responses_create_params)
+				for prompt in prompts
+			]
 		else:
 			tasks = [
 				self.get_result(prompt, **openai_chat_params) for prompt in prompts
@@ -269,7 +277,6 @@ async def get_result_reasoning(self, prompt: Union[str, List[dict]], **kwargs):
 			self.llm.startswith("o1")
 			or self.llm.startswith("o3")
 			or self.llm.startswith("o4")
-			or self.llm.startswith("gpt-5")
 		):
 			raise ValueError("get_result_reasoning is only for o1,o3,o4,gpt-5 models.")
 		# The default temperature for the o1 model is 1. 1 is only supported.
@@ -299,6 +306,33 @@ async def get_result_reasoning(self, prompt: Union[str, List[dict]], **kwargs):
 		pseudo_log_probs = [0.5] * len(tokens)
 		return answer, tokens, pseudo_log_probs
 
+	async def get_result_gpt_5(self, prompt: Union[str, List[dict]], **kwargs):
+		if not self.llm.startswith("gpt-5"):
+			raise ValueError("get_result_gpt_5 is only for gpt-5 models.")
+		api_key = getattr(self.client, "api_key", None)
+		if isinstance(api_key, str) and api_key.startswith("mock_"):
+			answer = "Why not"
+			tokens = self.tokenizer.encode(answer, allowed_special="all")
+			pseudo_log_probs = [0.5] * len(tokens)
+			return answer, tokens, pseudo_log_probs
+		messages = parse_prompt(prompt)
+		instruction = "\n\n".join(
+			[msg["content"] for msg in messages if msg["role"] == "system"]
+		)
+		user_input = "\n\n".join(
+			[msg["content"] for msg in messages if msg["role"] == "user"]
+		)
+		response = await self.client.responses.create(
+			model=self.llm,
+			instructions=instruction,
+			input=user_input,
+			**kwargs,
+		)
+		answer: str = response.output_text
+		tokens = self.tokenizer.encode(answer, allowed_special="all")
+		pseudo_log_probs = [0.5] * len(tokens)
+		return answer, tokens, pseudo_log_probs
+
 
 def truncate_by_token(
 	prompt: Union[str, List[Dict]], tokenizer: Encoding, max_token_size: int
 
@@ -29,13 +29,22 @@ def __init__(
 		super().__init__(project_dir)
 		try:
 			from FlagEmbedding import FlagReranker
-		except ImportError:
-			raise ImportError(
-				"FlagEmbeddingReranker requires the 'FlagEmbedding' package to be installed."
-			)
-		model_params = pop_params(FlagReranker.__init__, kwargs)
-		model_params.pop("model_name_or_path", None)
-		self.model = FlagReranker(model_name_or_path=model_name, **model_params)
+		except Exception:
+			try:
+				import torch
+				from sentence_transformers import CrossEncoder
+			except ImportError as exc:
+				raise ImportError(
+					"FlagEmbeddingReranker requires the 'FlagEmbedding' package or a "
+					"compatible sentence-transformers fallback to be installed."
+				) from exc
+			self.device = "cuda" if torch.cuda.is_available() else "cpu"
+			model_params = pop_params(CrossEncoder.__init__, kwargs)
+			self.model = CrossEncoder(model_name, device=self.device, **model_params)
+		else:
+			model_params = pop_params(FlagReranker.__init__, kwargs)
+			model_params.pop("model_name_or_path", None)
+			self.model = FlagReranker(model_name_or_path=model_name, **model_params)
 
 	def __del__(self):
 		if hasattr(self, "model"):
@@ -105,7 +114,12 @@ def flag_embedding_run_model(input_texts, model, batch_size: int):
 	results = []
 	for batch_texts in batch_input_texts:
 		with torch.no_grad():
-			pred_scores = model.compute_score(sentence_pairs=batch_texts)
+			if hasattr(model, "compute_score"):
+				pred_scores = model.compute_score(sentence_pairs=batch_texts)
+			else:
+				pred_scores = model.predict(batch_texts)
+		if hasattr(pred_scores, "tolist"):
+			pred_scores = pred_scores.tolist()
 		if not isinstance(pred_scores, Iterable):
 			results.append(pred_scores)
 		else:
 
@@ -76,10 +76,18 @@ def require_model_export(
 		try:
 			from optimum.intel.openvino import OVModelForSequenceClassification
 		except ImportError:
-			raise ImportError(
-				"Please install optimum package to use OpenVINOReranker"
-				"pip install 'optimum[openvino,nncf]'"
-			)
+			try:
+				import torch
+				from sentence_transformers import CrossEncoder
+			except ImportError as exc:
+				raise ImportError(
+					"Please install optimum[openvino,nncf] or sentence-transformers to use OpenVINOReranker"
+				) from exc
+			self.device = "cuda" if torch.cuda.is_available() else "cpu"
+			model_kwargs = pop_params(CrossEncoder.__init__, kwargs)
+			self.model = CrossEncoder(model, device=self.device, **model_kwargs)
+			self.tokenizer = None
+			return
 
 		model_kwargs = pop_params(
 			OVModelForSequenceClassification.from_pretrained, kwargs
@@ -99,8 +107,10 @@ def require_model_export(
 		self.tokenizer = AutoTokenizer.from_pretrained(model)
 
 	def __del__(self):
-		del self.model
-		del self.tokenizer
+		if hasattr(self, "model"):
+			del self.model
+		if hasattr(self, "tokenizer"):
+			del self.tokenizer
 		empty_cuda_cache()
 		super().__del__()
 
@@ -173,6 +183,13 @@ def openvino_run_model(
 	batch_input_texts = make_batch(input_texts, batch_size)
 	results = []
 	for batch_texts in batch_input_texts:
+		if hasattr(model, "predict") and tokenizer is None:
+			scores = model.predict(batch_texts)
+			if hasattr(scores, "tolist"):
+				scores = scores.tolist()
+			results.extend(list(map(float, scores)))
+			continue
+
 		input_tensors = tokenizer(
 			batch_texts,
 			padding=True,
 
@@ -187,6 +187,8 @@ async def vectordb_pure(
 
 	# Distribute passages evenly
 	id_result, score_result = evenly_distribute_passages(id_result, score_result, top_k)
+	if len(id_result) == 0 or len(score_result) == 0:
+		return [], []
 	# sort id_result and score_result by score
 	result = [
 		(_id, score)
 
@@ -23,7 +23,7 @@ def run_evaluator(
 		**kwargs,
 	):
 		instance = cls(project_dir, *args, **kwargs)
-		result = instance.pure(previous_result, *args, **kwargs)
+		result = instance.pure(previous_result.copy(deep=True), *args, **kwargs)
 		del instance
 		return result