Skip to content

Latest commit

 

History

History
15 lines (8 loc) · 1.26 KB

File metadata and controls

15 lines (8 loc) · 1.26 KB

bmm parlament scraper

A Figyuszhoz készült scraper, ami a parlament.hu-n megjelenő irományok közt keres kulcsszavakat vagy adatfrissítést.

Szöveges keresést az "Irományszöveg"-ben végez a scraper. Ha egyéb dokumentumok vannak feltöltve, azokban nem keres. Illetve csak "folyamatba lévő" állapotú irományokat figyel.

Dropdown menüből kiválasztható szűrőket használ.

A szűrők beállításainak sémáját az options_schema.json fájlban találod, amit a db-ben options_schema-nak kell beállítani az eventgenerators táblában. (a konkrét json fájlt nem használja semmit, csak azért van itt, hogy ne csak az adatbázisban legyen meg)

A scraper a parlament XML API-ját használja.

A forráskód a Kormány scraper-en alapszik, ami meg a Közlöny scraper-re alapszik.

Ha külföldi ip-jű szerverről szeretnénk futtatni a scriptet, amit a parlament.hu nem szeret, ezért szükség van proxyra. Socks proxy hostját a config Download.proxy_host értékének megadásával állíthatunk be.