Merge pull request #63 from obeone/codex/add-include-url-argument-for-filtering

obeone · web-flow · commit daca214ec3fb · 2025-11-19T15:58:23.000+01:00
Add include URL CLI filter
diff --git a/crawler_to_md/cli.py b/crawler_to_md/cli.py
@@ -74,6 +74,13 @@ def main():
         help="Exclude URLs containing this string",
         default=[],
     )
+    parser.add_argument(
+        "--include-url",
+        "-I",
+        action="append",
+        help="Include only URLs containing this string",
+        default=[],
+    )
     parser.add_argument(
         "--export-individual",
         "-ei",
@@ -210,6 +217,7 @@ def main():
         scraper = Scraper(
             base_url=args.base_url,
             exclude_patterns=args.exclude_url,
+            include_url_patterns=args.include_url,
             db_manager=db_manager,
             rate_limit=args.rate_limit,
             delay=args.delay,
diff --git a/crawler_to_md/scraper.py b/crawler_to_md/scraper.py
@@ -22,6 +22,7 @@ def __init__(
         self,
         base_url,
         exclude_patterns,
+        include_url_patterns,
         db_manager: DatabaseManager,
         rate_limit=0,
         delay=0,
@@ -35,6 +36,7 @@ def __init__(
         Args:
             base_url (str): The base URL to start scraping from.
             exclude_patterns (list): List of URL patterns to exclude from scraping.
+            include_url_patterns (list): List of URL patterns that must be present to scrape.
             db_manager (DatabaseManager): The database manager object.
             rate_limit (int): Maximum number of requests per minute.
             delay (float): Delay between requests in seconds.
@@ -50,6 +52,7 @@ def __init__(
         logger.debug(f"Initializing Scraper with base URL: {base_url}")
         self.base_url = base_url
         self.exclude_patterns = exclude_patterns or []
+        self.include_url_patterns = include_url_patterns or []
         self.db_manager = db_manager
         self.rate_limit = rate_limit
         self.delay = delay
@@ -108,6 +111,10 @@ def is_valid_link(self, link):
         valid = True
         if self.base_url and not link.startswith(self.base_url):
             valid = False
+        if self.include_url_patterns and not any(
+            pattern in link for pattern in self.include_url_patterns
+        ):
+            valid = False
         for pattern in self.exclude_patterns:
             if pattern in link:
                 valid = False
diff --git a/tests/test_cli.py b/tests/test_cli.py
@@ -58,6 +58,7 @@ def fake_init(
         self,
         base_url,
         exclude_patterns,
+        include_url_patterns,
         db_manager,
         rate_limit=0,
         delay=0,
@@ -102,6 +103,7 @@ def fake_init(
         self,
         base_url,
         exclude_patterns,
+        include_url_patterns,
         db_manager,
         rate_limit=0,
         delay=0,
@@ -146,6 +148,7 @@ def fake_init(
         self,
         base_url,
         exclude_patterns,
+        include_url_patterns,
         db_manager,
         rate_limit=0,
         delay=0,
@@ -219,6 +222,7 @@ def fake_init(
         self,
         base_url,
         exclude_patterns,
+        include_url_patterns,
         db_manager,
         rate_limit=0,
         delay=0,
@@ -275,6 +279,7 @@ def fake_init(
         self,
         base_url,
         exclude_patterns,
+        include_url_patterns,
         db_manager,
         rate_limit=0,
         delay=0,
@@ -317,6 +322,58 @@ def fake_init(
     assert captured.get('exclude_filters') == ['span']
 
 
+def test_cli_include_url_option(monkeypatch, tmp_path):
+    """
+    Ensure CLI passes include URL filters to the scraper.
+
+    Args:
+        monkeypatch (pytest.MonkeyPatch): Pytest monkeypatch fixture.
+        tmp_path (pathlib.Path): Temporary path for tests.
+    """
+    captured = {}
+
+    def fake_init(
+        self,
+        base_url,
+        exclude_patterns,
+        include_url_patterns,
+        db_manager,
+        rate_limit=0,
+        delay=0,
+        proxy=None,
+        include_filters=None,
+        exclude_filters=None,
+    ):
+        """
+        Capture include URL patterns argument.
+
+        Args:
+            include_url_patterns (list): URL substrings to include.
+        """
+        captured['include_url_patterns'] = include_url_patterns
+
+    monkeypatch.setattr(Scraper, '__init__', fake_init)
+    monkeypatch.setattr(Scraper, 'start_scraping', lambda *a, **k: None)
+    monkeypatch.setattr(ExportManager, 'export_to_markdown', lambda *a, **k: None)
+    monkeypatch.setattr(ExportManager, 'export_to_json', lambda *a, **k: None)
+
+    cache_folder = tmp_path / 'cache'
+    args = [
+        'prog',
+        '--url',
+        'http://example.com',
+        '--output-folder',
+        str(tmp_path),
+        '--cache-folder',
+        str(cache_folder),
+        '--include-url',
+        '/blog',
+    ]
+    monkeypatch.setattr(sys, 'argv', args)
+    cli.main()
+    assert captured.get('include_url_patterns') == ['/blog']
+
+
 def test_cli_overwrite_cache(monkeypatch, tmp_path):
     captured = {}
 
diff --git a/tests/test_scraper.py b/tests/test_scraper.py
@@ -28,17 +28,32 @@ def mark_link_visited(self, url):
 def test_is_valid_link():
     db = DummyDB()
     scraper = Scraper(
-        base_url='https://example.com', exclude_patterns=['/exclude'], db_manager=db
+        base_url='https://example.com',
+        exclude_patterns=['/exclude'],
+        include_url_patterns=[],
+        db_manager=db,
     )
     assert scraper.is_valid_link('https://example.com/page')
     assert not scraper.is_valid_link('https://example.com/exclude/page')
     assert not scraper.is_valid_link('https://other.com/')
 
+    include_scraper = Scraper(
+        base_url='https://example.com',
+        exclude_patterns=[],
+        include_url_patterns=['/docs'],
+        db_manager=db,
+    )
+    assert include_scraper.is_valid_link('https://example.com/docs/page')
+    assert not include_scraper.is_valid_link('https://example.com/blog')
+
 
 def test_fetch_links():
     db = DummyDB()
     scraper = Scraper(
-        base_url='https://example.com', exclude_patterns=['/exclude'], db_manager=db
+        base_url='https://example.com',
+        exclude_patterns=['/exclude'],
+        include_url_patterns=[],
+        db_manager=db,
     )
     html = '''<html><body>
     <a href="https://example.com/page1">1</a>
@@ -49,6 +64,23 @@ def test_fetch_links():
     assert links == {'https://example.com/page1', 'https://example.com/page2'}
 
 
+def test_fetch_links_includes_only_matching_patterns():
+    db = DummyDB()
+    scraper = Scraper(
+        base_url='https://example.com',
+        exclude_patterns=[],
+        include_url_patterns=['/page1'],
+        db_manager=db,
+    )
+    html = '''<html><body>
+    <a href="https://example.com/page1">1</a>
+    <a href="/page2">2</a>
+    <a href="https://example.com/page3">3</a>
+    </body></html>'''
+    links = scraper.fetch_links(url='https://example.com', html=html)
+    assert links == {'https://example.com/page1'}
+
+
 
 
 @patch('os.remove')
@@ -60,7 +92,12 @@ def test_scrape_page_parses_content_and_metadata(mock_tempfile, mock_os_remove):
     mock_tempfile.return_value.__enter__.return_value = mock_file
 
     db = DummyDB()
-    scraper = Scraper(base_url='http://example.com', exclude_patterns=[], db_manager=db)
+    scraper = Scraper(
+        base_url='http://example.com',
+        exclude_patterns=[],
+        include_url_patterns=[],
+        db_manager=db,
+    )
     html = '<html><head><title>Test</title></head><body><p>Hello</p></body></html>'
 
     # Act
@@ -83,7 +120,12 @@ def test_scrape_page_with_markitdown(mock_tempfile, mock_os_remove):
     mock_tempfile.return_value.__enter__.return_value = mock_file
 
     db = DummyDB()
-    scraper = Scraper(base_url='http://example.com', exclude_patterns=[], db_manager=db)
+    scraper = Scraper(
+        base_url='http://example.com',
+        exclude_patterns=[],
+        include_url_patterns=[],
+        db_manager=db,
+    )
     html = (
         '<html><head><title>Test</title></head><body><h1>A Title</h1>'
         '<p>This is a paragraph with <strong>bold</strong> text.</p></body></html>'
@@ -121,6 +163,7 @@ def test_scrape_page_include_exclude(mock_tempfile, mock_os_remove):
     scraper = Scraper(
         base_url='http://example.com',
         exclude_patterns=[],
+        include_url_patterns=[],
         db_manager=db,
         include_filters=['p'],
         exclude_filters=['.remove'],
@@ -181,7 +224,12 @@ def get_all_pages(self):
 
 def test_start_scraping_process(monkeypatch):
     db = ListDB()
-    scraper = Scraper(base_url='http://example.com', exclude_patterns=[], db_manager=db)
+    scraper = Scraper(
+        base_url='http://example.com',
+        exclude_patterns=[],
+        include_url_patterns=[],
+        db_manager=db,
+    )
 
     monkeypatch.setattr(Scraper, 'fetch_links', lambda self, url, html=None: set())
     monkeypatch.setattr(
@@ -219,7 +267,11 @@ def test_scraper_proxy_initialization(monkeypatch):
     db = DummyDB()
     monkeypatch.setattr(Scraper, '_test_proxy', lambda self: None)
     scraper = Scraper(
-        base_url='http://example.com', exclude_patterns=[], db_manager=db, proxy='http://proxy:8080'
+        base_url='http://example.com',
+        exclude_patterns=[],
+        include_url_patterns=[],
+        db_manager=db,
+        proxy='http://proxy:8080'
     )
     assert scraper.session.proxies.get('http') == 'http://proxy:8080'
     assert scraper.session.proxies.get('https') == 'http://proxy:8080'
@@ -230,7 +282,11 @@ def test_scraper_socks_proxy_initialization(monkeypatch):
     proxy = 'socks5://localhost:9050'
     monkeypatch.setattr(Scraper, '_test_proxy', lambda self: None)
     scraper = Scraper(
-        base_url='http://example.com', exclude_patterns=[], db_manager=db, proxy=proxy
+        base_url='http://example.com',
+        exclude_patterns=[],
+        include_url_patterns=[],
+        db_manager=db,
+        proxy=proxy
     )
     assert scraper.session.proxies.get('http') == proxy
     assert scraper.session.proxies.get('https') == proxy
@@ -244,13 +300,22 @@ def fake_head(self, url, timeout=5):
     monkeypatch.setattr(requests.Session, 'head', fake_head)
     with pytest.raises(ValueError):
         Scraper(
-            base_url='http://example.com', exclude_patterns=[], db_manager=db, proxy='http://proxy:8080'
+            base_url='http://example.com',
+            exclude_patterns=[],
+            include_url_patterns=[],
+            db_manager=db,
+            proxy='http://proxy:8080'
         )
 
 
 def test_scrape_page_returns_none_for_empty_content(monkeypatch):
     db = DummyDB()
-    scraper = Scraper(base_url='http://example.com', exclude_patterns=[], db_manager=db)
+    scraper = Scraper(
+        base_url='http://example.com',
+        exclude_patterns=[],
+        include_url_patterns=[],
+        db_manager=db,
+    )
     html = '<html><body></body></html>'
 
     with patch('crawler_to_md.scraper.MarkItDown') as mock_markdown:
@@ -266,6 +331,7 @@ def test_start_scraping_excludes_invalid_urls(monkeypatch):
     scraper = Scraper(
         base_url='http://example.com',
         exclude_patterns=['/exclude'],
+        include_url_patterns=[],
         db_manager=db,
     )
 
@@ -310,6 +376,7 @@ def test_start_scraping_filters_discovered_links(monkeypatch):
     scraper = Scraper(
         base_url='http://example.com',
         exclude_patterns=['/exclude'],
+        include_url_patterns=[],
         db_manager=db,
     )