Этот проект представляет собой парсер для сайта glavsnab.net, разработанный для извлечения данных о товарах из категории "Зимние товары". Парсер эффективно собирает информацию о товарах, обрабатывая необходимое количество страниц каталога. Результаты парсинга сохраняются в двух удобных форматах: JSON и CSV.
- Извлечение данных о товарах из категории "Зимние товары" на сайте glavsnab.net. Обрабатывает все страницы пагинации.
- Извлечение следующих данных для каждого товара:
sku(артикул товара)name(название товара)link(ссылка на страницу товара)price(цена товара) Если цена не указана на сайте, в поле записывается"По запросу".
- Поддержка форматов вывода
JSONиCSV. Файлы сохраняются какglavsnab.jsonиglavsnab.csv. - Использование библиотеки
requestsдля загрузки страниц иBeautifulSoupдля парсингаHTML. - Структурирование данных с помощью dataclass для повышения читаемости и организации кода.
- Установите необходимые библиотеки:
pip install requests beautifulsoup4- Запустите скрипт:
main.py. - Результаты: Файлы
glavsnab.jsonиglavsnab.csvбудут созданы в той же директории, где находится скрипт.
This project is a parser for the glavsnab.net website, designed to extract product data from the "Winter goods" category. The parser efficiently collects product information, processing up to 672 pages of the catalog. Parsing results are saved in two convenient formats: JSON and CSV.
- Extraction of product data from the "Winter goods" category on the glavsnab.net website. Processes all pagination pages.
- Extraction of the following data for each product:
- sku (product SKU)
- name (product name)
- link (link to the product page)
- price (product price) If the price is not specified on the website, "On request" is written to the field.
- Support for JSON and CSV output formats. Files are saved as glavsnab.json and glavsnab.csv.
- Uses the requests library for downloading pages and BeautifulSoup for parsing HTML.
- Data structuring using dataclass for improved readability and code organization.
- Install necessary libraries:
pip install requests beautifulsoup4- Run the script:
main.py. - Results: The
glavsnab.jsonandglavsnab.csvfiles will be created in the same directory as the script.