В течение нескольких следующих занятий мы будем делать небольшой проект - региональный газетный корпус. Все вместе мы выкачаем тексты статей с сайтов небольших местных газет, обработаем их и соберем в настоящий корпус.
Задание к следующему семинару такое:
- Выбрать себе одну газету из этого списка. Впишите себя в таблицу напротив выбранной газеты. При выборе нужно иметь в виду две вещи:
- Не все ссылки могут быть рабочими (сайты закрываются, а список составлялся давно), так что лучше не просто выбрать себе газету, а попробовать открыть и посмотреть, что там есть, работает ли сайт. Работающих хороших газет может на всех не хватить. Но список постепенно будет пополняться.
- Выбранная газета останется с вами надолго, и задание с ней будет не одно. Так что лучше сразу полюбить то, что выбрали =)
- С помощью
urllib.requestнужно скачать главную страницу вашей газеты, извлечь оттуда все заголовки статей и напечатать заголовки в отдельный текстовый файл.
Это домашнее задание не на оценку, а для тренировки. Домашнее задание на оценку будет большое -- это будет ваш проект корпуса региональной газеты, его вы сделаете после того, как мы пройдем все нужные темы.
UPDATE: А еще напомните, пожалуйста, нам адреса ваших репозиториев для домашних заданий: вставьте ссылку в эту форму.
Если у вас нет репозитория на GitHub для домашних заданий, создайте его.