TideDra
diff --git a/‎.gitignore‎
Lines changed: 2 additions & 1 deletion b/‎.gitignore‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎config/base.yaml‎
Lines changed: 1 addition & 2 deletions b/‎config/base.yaml‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎config/public.yaml‎
Lines changed: 1 addition & 1 deletion b/‎config/public.yaml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/zotero_arxiv_daily/construct_email.py‎
Lines changed: 9 additions & 47 deletions b/‎src/zotero_arxiv_daily/construct_email.py‎
Lines changed: 9 additions & 47 deletions
diff --git a/‎src/zotero_arxiv_daily/executor.py‎
Lines changed: 18 additions & 9 deletions b/‎src/zotero_arxiv_daily/executor.py‎
Lines changed: 18 additions & 9 deletions
diff --git a/‎src/zotero_arxiv_daily/main.py‎
Lines changed: 40 additions & 109 deletions b/‎src/zotero_arxiv_daily/main.py‎
Lines changed: 40 additions & 109 deletions
@@ -15,4 +15,5 @@ test.ipynb
 logs
 models
 test-compose.yml
-outputs
+outputs
+config/private.yaml
@@ -18,12 +18,11 @@ llm:
   api:
     key: ???
     base_url: ???
-    model: Qwen/Qwen3-30B-A3B-Instruct-2507
-  max_retries: 3
   timeout: 180
   generation_kwargs:
     max_tokens: 16384
     temperature: 0.4
+    model: gpt-4o-mini
   language: English
 
 reranker:
 
@@ -1,5 +1,5 @@
 zotero:
-  ignore_collection: null
+  include_path: null
 source:
   arxiv:
     query: cs.AI+cs.CV+cs.LG+cs.CL
 
@@ -1,13 +1,6 @@
-from paper import ArxivPaper
+from .protocol import Paper
 import math
-from tqdm import tqdm
-from email.header import Header
-from email.mime.text import MIMEText
-from email.utils import parseaddr, formataddr
-import smtplib
-import datetime
-import time
-from loguru import logger
+
 
 framework = """
 <!DOCTYPE HTML>
@@ -59,8 +52,7 @@ def get_empty_html():
   """
   return block_template
 
-def get_block_html(title:str, authors:str, rate:str,arxiv_id:str, abstract:str, pdf_url:str, code_url:str=None, affiliations:str=None):
-    code = f'<a href="{code_url}" style="display: inline-block; text-decoration: none; font-size: 14px; font-weight: bold; color: #fff; background-color: #5bc0de; padding: 8px 16px; border-radius: 4px; margin-left: 8px;">Code</a>' if code_url else ''
+def get_block_html(title:str, authors:str, rate:str, tldr:str, pdf_url:str, affiliations:str=None):
     block_template = """
     <table border="0" cellpadding="0" cellspacing="0" width="100%" style="font-family: Arial, sans-serif; border: 1px solid #ddd; border-radius: 8px; padding: 16px; background-color: #f9f9f9;">
     <tr>
@@ -82,24 +74,18 @@ def get_block_html(title:str, authors:str, rate:str,arxiv_id:str, abstract:str,
     </tr>
     <tr>
         <td style="font-size: 14px; color: #333; padding: 8px 0;">
-            <strong>arXiv ID:</strong> {arxiv_id}
-        </td>
-    </tr>
-    <tr>
-        <td style="font-size: 14px; color: #333; padding: 8px 0;">
-            <strong>TLDR:</strong> {abstract}
+            <strong>TLDR:</strong> {tldr}
         </td>
     </tr>
 
     <tr>
         <td style="padding: 8px 0;">
             <a href="{pdf_url}" style="display: inline-block; text-decoration: none; font-size: 14px; font-weight: bold; color: #fff; background-color: #d9534f; padding: 8px 16px; border-radius: 4px;">PDF</a>
-            {code}
         </td>
     </tr>
 </table>
 """
-    return block_template.format(title=title, authors=authors,rate=rate,arxiv_id=arxiv_id, abstract=abstract, pdf_url=pdf_url, code=code, affiliations=affiliations)
+    return block_template.format(title=title, authors=authors,rate=rate, tldr=tldr, pdf_url=pdf_url, affiliations=affiliations)
 
 def get_stars(score:float):
     full_star = '<span class="full-star">⭐</span>'
@@ -118,14 +104,14 @@ def get_stars(score:float):
         return '<div class="star-wrapper">'+full_star * full_star_num + half_star * half_star_num + '</div>'
 
 
-def render_email(papers:list[ArxivPaper]):
+def render_email(papers:list[Paper]) -> str:
     parts = []
     if len(papers) == 0 :
         return framework.replace('__CONTENT__', get_empty_html())
 
-    for p in tqdm(papers,desc='Rendering Email'):
+    for p in papers:
         rate = get_stars(p.score)
-        authors = [a.name for a in p.authors[:5]]
+        authors = p.authors[:5]
         authors = ', '.join(authors)
         if len(p.authors) > 5:
             authors += ', ...'
@@ -136,31 +122,7 @@ def render_email(papers:list[ArxivPaper]):
                 affiliations += ', ...'
         else:
             affiliations = 'Unknown Affiliation'
-        parts.append(get_block_html(p.title, authors,rate,p.arxiv_id ,p.tldr, p.pdf_url, p.code_url, affiliations))
-        time.sleep(10)
+        parts.append(get_block_html(p.title, authors,rate,p.tldr, p.pdf_url, affiliations))
 
     content = '<br>' + '</br><br>'.join(parts) + '</br>'
     return framework.replace('__CONTENT__', content)
-
-def send_email(sender:str, receiver:str, password:str,smtp_server:str,smtp_port:int, html:str,):
-    def _format_addr(s):
-        name, addr = parseaddr(s)
-        return formataddr((Header(name, 'utf-8').encode(), addr))
-
-    msg = MIMEText(html, 'html', 'utf-8')
-    msg['From'] = _format_addr('Github Action <%s>' % sender)
-    msg['To'] = _format_addr('You <%s>' % receiver)
-    today = datetime.datetime.now().strftime('%Y/%m/%d')
-    msg['Subject'] = Header(f'Daily arXiv {today}', 'utf-8').encode()
-
-    try:
-        server = smtplib.SMTP(smtp_server, smtp_port)
-        server.starttls()
-    except Exception as e:
-        logger.warning(f"Failed to use TLS. {e}")
-        logger.warning(f"Try to use SSL.")
-        server = smtplib.SMTP_SSL(smtp_server, smtp_port)
-
-    server.login(sender, password)
-    server.sendmail(sender, [receiver], msg.as_string())
-    server.quit()
@@ -2,22 +2,25 @@
 from pyzotero import zotero
 from omegaconf import DictConfig
 from .utils import glob_match
-from .retriever import get_retriever, BaseRetriever
+from .retriever import get_retriever_cls
 from .protocol import CorpusPaper
 import random
 from datetime import datetime
-from .reranker import get_reranker
+from .reranker import get_reranker_cls
+from .construct_email import render_email
+from .utils import send_email
+from openai import OpenAI
 class Executor:
     def __init__(self, config:DictConfig):
         self.config = config
-        self.retrievers: dict[str, BaseRetriever] = {
-            source: get_retriever(source)(config) for source in config.executor.source
+        self.retrievers = {
+            source: get_retriever_cls(source)(config) for source in config.executor.source
         }
-        self.reranker = get_reranker(config.executor.reranker)
-
+        self.reranker = get_reranker_cls(config.executor.reranker)(config)
+        self.openai_client = OpenAI(api_key=config.llm.api.key, base_url=config.llm.api.base_url)
     def fetch_zotero_corpus(self) -> list[CorpusPaper]:
         logger.info("Fetching zotero corpus")
-        zot = zotero.Zotero(self.config.zotero.id, 'user', self.config.zotero.api_key)
+        zot = zotero.Zotero(self.config.zotero.user_id, 'user', self.config.zotero.api_key)
         collections = zot.everything(zot.collections())
         collections = {c['key']:c for c in collections}
         corpus = zot.everything(zot.items(itemType='conferencePaper || journalArticle || preprint'))
@@ -56,11 +59,17 @@ def filter_corpus(self, corpus:list[CorpusPaper]) -> list[CorpusPaper]:
     def run(self):
         corpus = self.fetch_zotero_corpus()
         corpus = self.filter_corpus(corpus)
-        source_papers = {}
+        all_papers = []
         for source, retriever in self.retrievers.items():
             logger.info(f"Retrieving {source} papers...")
             papers = retriever.retrieve_papers()
             if len(papers) == 0:
                 logger.info(f"No {source} papers found")
                 continue
-            source_papers[source] = papers
+            all_papers.extend(papers)
+        reranked_papers = self.reranker.rerank(all_papers, corpus)
+        for p in reranked_papers:
+            p.generate_tldr(self.openai_client, self.config.llm)
+            p.generate_affiliations(self.openai_client, self.config.llm)
+        email_content = render_email(reranked_papers)
+        send_email(self.config, email_content)
@@ -1,120 +1,51 @@
-import arxiv
 import os
+import logging
 import sys
-from pyzotero import zotero
-from recommender import rerank_paper
-from construct_email import render_email, send_email
-from tqdm import tqdm
-from loguru import logger
-from gitignore_parser import parse_gitignore
-from tempfile import mkstemp
-from paper import ArxivPaper
-from llm import set_global_llm
-import feedparser
 from omegaconf import DictConfig
 import hydra
+from loguru import logger
+from zotero_arxiv_daily.executor import Executor
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
 
-def get_zotero_corpus(id:str,key:str) -> list[dict]:
-    zot = zotero.Zotero(id, 'user', key)
-    collections = zot.everything(zot.collections())
-    collections = {c['key']:c for c in collections}
-    corpus = zot.everything(zot.items(itemType='conferencePaper || journalArticle || preprint'))
-    corpus = [c for c in corpus if c['data']['abstractNote'] != '']
-    def get_collection_path(col_key:str) -> str:
-        if p := collections[col_key]['data']['parentCollection']:
-            return get_collection_path(p) + '/' + collections[col_key]['data']['name']
-        else:
-            return collections[col_key]['data']['name']
-    for c in corpus:
-        paths = [get_collection_path(col) for col in c['data']['collections']]
-        c['paths'] = paths
-    return corpus
-
-def filter_corpus(corpus:list[dict], pattern:str) -> list[dict]:
-    _,filename = mkstemp()
-    with open(filename,'w') as file:
-        file.write(pattern)
-    matcher = parse_gitignore(filename,base_dir='./')
-    new_corpus = []
-    for c in corpus:
-        match_results = [matcher(p) for p in c['paths']]
-        if not any(match_results):
-            new_corpus.append(c)
-    os.remove(filename)
-    return new_corpus
-
-
-def get_arxiv_paper(query:str, debug:bool=False) -> list[ArxivPaper]:
-    client = arxiv.Client(num_retries=10,delay_seconds=10)
-    feed = feedparser.parse(f"https://rss.arxiv.org/atom/{query}")
-    if 'Feed error for query' in feed.feed.title:
-        raise Exception(f"Invalid ARXIV_QUERY: {query}.")
-    if not debug:
-        papers = []
-        all_paper_ids = [i.id.removeprefix("oai:arXiv.org:") for i in feed.entries if i.arxiv_announce_type == 'new']
-        bar = tqdm(total=len(all_paper_ids),desc="Retrieving Arxiv papers")
-        for i in range(0,len(all_paper_ids),50):
-            search = arxiv.Search(id_list=all_paper_ids[i:i+50])
-            batch = [ArxivPaper(p) for p in client.results(search)]
-            bar.update(len(batch))
-            papers.extend(batch)
-        bar.close()
 
-    else:
-        logger.debug("Retrieve 5 arxiv papers regardless of the date.")
-        search = arxiv.Search(query='cat:cs.AI', sort_by=arxiv.SortCriterion.SubmittedDate)
-        papers = []
-        for i in client.results(search):
-            papers.append(ArxivPaper(i))
-            if len(papers) == 5:
-                break
-
-    return papers
-
-@hydra.main(version_base=None, config_path="config", config_name="default")
+@hydra.main(version_base=None, config_path="../../config", config_name="default")
 def main(config:DictConfig):
-    assert (
-        not config.llm.use_api or config.llm.api.key is not None
-    )  # If use_llm_api is True, openai_api_key must be provided
-    if config.executor.debug:
-        logger.remove()
-        logger.add(sys.stdout, level="DEBUG")
-        logger.debug("Debug mode is on.")
-    else:
-        logger.remove()
-        logger.add(sys.stdout, level="INFO")
-
-    logger.info("Retrieving Zotero corpus...")
-    corpus = get_zotero_corpus(config.zotero.user_id, config.zotero.api_key)
-    logger.info(f"Retrieved {len(corpus)} papers from Zotero.")
-    if config.zotero.ignore_collection:
-        logger.info(f"Ignoring papers in:\n {config.zotero.ignore_collection}...")
-        corpus = filter_corpus(corpus, config.zotero.ignore_collection)
-        logger.info(f"Remaining {len(corpus)} papers after filtering.")
-    logger.info("Retrieving Arxiv papers...")
-    papers = get_arxiv_paper(config.arxiv.query, config.executor.debug)
-    if len(papers) == 0:
-        logger.info("No new papers found. Yesterday maybe a holiday and no one submit their work :). If this is not the case, please check the ARXIV_QUERY.")
-        if not config.executor.send_empty:
-          exit(0)
-    else:
-        logger.info("Reranking papers...")
-        papers = rerank_paper(papers, corpus)
-        if config.executor.max_paper_num != -1:
-            papers = papers[:config.executor.max_paper_num]
-        if config.llm.use_api:
-            logger.info("Using OpenAI API as global LLM.")
-            set_global_llm(api_key=config.llm.api.key, base_url=config.llm.api.base_url, model=config.llm.name, lang=config.llm.generation_kwargs.language)
-        else:
-            logger.info("Using Local LLM as global LLM.")
-            set_global_llm(lang=config.llm.generation_kwargs.language)
-
-    html = render_email(papers)
-    logger.info("Sending email...")
-    send_email(config.email.sender, config.email.receiver, config.email.sender_password, config.email.smtp_server, config.email.smtp_port, html)
-    logger.success("Email sent successfully! If you don't receive the email, please check the configuration and the junk box.")
-
+    # Configure loguru log level based on config
+    log_level = "DEBUG" if config.executor.debug else "INFO"
+    logger.remove()  # Remove default handler
+    logger.add(
+        sys.stderr,
+        level=log_level,
+        format="<green>{time:YYYY-MM-DD HH:mm:ss}</green> | <level>{level: <8}</level> | <cyan>{name}</cyan>:<cyan>{function}</cyan>:<cyan>{line}</cyan> - <level>{message}</level>"
+    )
+    
+    # Intercept standard logging (including httpx) and route through loguru
+    # Only show WARNING and above for httpx to reduce noise
+    class InterceptHandler(logging.Handler):
+        def emit(self, record):
+            # Filter httpx INFO logs
+            if record.name == "httpx" and record.levelno < logging.WARNING:
+                return
+
+            # Get corresponding Loguru level if it exists
+            try:
+                level = logger.level(record.levelname).name
+            except ValueError:
+                level = record.levelno
+
+            # Find caller from where the logged message originated
+            frame, depth = sys._getframe(), 6
+            while frame and frame.f_code.co_filename == logging.__file__:
+                frame = frame.f_back
+                depth += 1
+
+            logger.opt(depth=depth, exception=record.exc_info).log(level, record.getMessage())
+
+    # Remove all existing handlers and add our interceptor
+    logging.basicConfig(handlers=[InterceptHandler()], level=0, force=True)
+    
+    executor = Executor(config)
+    executor.run()
 
 if __name__ == '__main__':
     main()