Skip to content

Crawl visited Domain out of Scope #788

Open
@gitreich

Description

@gitreich

This Issue has the following impact:

A domain which was not in the scope of the crawl was found in the WARC File (Request & Response)
The false domain was andererseits.org
the scope of the crawl shoud have only be materie.at

But this Domain was not found in:
docker logs (or log file in sub directory logs)
page.jsonl
extraPages.jsonl
crawl-state.yaml (from sub folder crawl)

It was reproduceable with Version 1.5.4 with the following command:

docker run -d --name ONB_Btrix_materie_politik_daily_20250305014538 -e NODE_OPTIONS='--max-old-space-size=32768' -p 39833:39833 -p 38665:38665 -v /home/netarchive/browsertrix/crawls/:/crawls/ webrecorder/browsertrix-crawler:1.5.4 crawl --screencastPort 39833 --healthCheckPort 38665 --scopeType domain --headless --delay 1 --behaviorTimeout 120 --pageLoadTimeout 120 --waitUntil networkidle0 --saveState always --logging stats,info --config /crawls/config/materie_politik_daily_20250305014538.yaml --depth 1 --workers 1 --limit 2500 --sizeLimit 1181116007 --timeLimit 43200 --collection materie_politik_daily

(some params are removed from our live crawl)

Here is the config.yaml:

seeds:

And here is the link in the html of materie.at:

<p>Folge 35: <a href="https://andererseits.org/" data-type="link" data-id="https://andererseits.org/" target="_blank" rel="noreferrer noopener">Andererseits</a> ist ein Magazin für Behinderung und Gesellschaft, bei dem Journalistinnen und Journalisten mit und ohne Behinderung „gleichberechtigt, kritisch und fair bezahlt“ arbeiten. Man könnte und sollte auch „investigativ“ hinzufügen. Die erste Recherche mit breiter Aufmerksamkeit richtete sich gegen die problembehaftete ORF-Sammelaktion „Licht ins Dunkel“. Vor Kurzem entstand gemeinsam mit dem Investigativmedium „Dossier“ und dem Karikaturisten Gerhard Haderer eine (gedruckte) Ausgabe über Behinderungen am österreichischen Arbeitsmarkt.</p>
<p>Der Mitgründer und Co-Geschäftsführer von andererseits Lukas Burnar erörtert im Gespräch mit Niko Alm Hintergründe zu diesem Projekt und das Wirken von Andererseits.</p>

Here is the response header of the warc:

WARC/1.1^M
WARC-Page-ID: 64edc5bb-023b-4d24-8d1c-73dd74dbaece^M
WARC-Target-URI: https://andererseits.org/^M
WARC-Date: 2025-03-07T13:17:30.998Z^M
WARC-Type: response^M
WARC-Record-ID: urn:uuid:1da53545-e000-4a15-afbc-fa2c433b618f^M
Content-Type: application/http; msgtype=response^M
WARC-Payload-Digest: sha256:f78732cd573961b7ec798d60330f4d005e64f0137e91589f4fafe58e34cb381f^M
WARC-Block-Digest: sha256:2976593ae04f278fe781f8aa28cea59e7fe3aaf6f8fad4ec899798ecb9e6ac3a^M
Content-Length: 1080503^M

The response itself is huge so i skip it here

The Request in the WARC File:

WARC/1.1^M
WARC-Concurrent-To: urn:uuid:1da53545-e000-4a15-afbc-fa2c433b618f^M
WARC-Page-ID: 64edc5bb-023b-4d24-8d1c-73dd74dbaece^M
WARC-Target-URI: https://andererseits.org/^M
WARC-Date: 2025-03-07T13:17:30.998Z^M
WARC-Type: request^M
WARC-Record-ID: urn:uuid:1529a409-a381-43ce-89c7-b3b8b7c7bfff^M
Content-Type: application/http; msgtype=request^M
WARC-Payload-Digest: sha256:e3b0c44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855^M
WARC-Block-Digest: sha256:8ac8a2c19d1c441af9f62e3e2309d3adaf82ddc6cbc8f100770cc234df048e17^M
Content-Length: 18^M
^M
GET / HTTP/1.1^M
^M
^M
^M

This request should never have been generated with the scope domain of docker start or prefix from the config.yaml

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    Status

    Triage

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions