Проекты Яндекс.Практикум специализация DataScience

Проект 1: Выбор региона для разработки новых нефтяных месторождений

Использовались: Catboost, Bootstrap, Pandas, Seaborn

Описание: Добывающей компании «ГлавРосГосНефть» нужно решить, где бурить новую скважину.

Собраны характеристики пробы нефти для скважин: качество нефти и объём её запасов по трем регионам. Характеристики для каждой скважины в регионе уже известны.
Построена модель для предсказания объёма запасов в новых скважинах.
Выбраны скважины с самыми высокими оценками значений.
Определены регионы с максимальной суммарной прибылью отобранных скважин.
Построена модель для определения региона, где добыча принесёт наибольшую прибыль.
Проанализирована возможная прибыль и риски техникой Bootstrap.

Проект 2: Подготовка прототипа модели для металлообрабатывающего предприятия

Использовались: Catboost, Pandas, Sklearn, Numpy, Seaborn, Matplotlib, SciPy

Описание: Компания разрабатывает решения для эффективной работы золотодобывающей отрасли.

Построена модель, предсказывающая коэффициент восстановления золота из золотосодержащей руды.
Проанализированы данные с параметрами добычи и очистки.
Построена и обучена модель, помогающая оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.

Проект 3: Определение возраста покупателя по фото (Computer Vision)

Использовались: Keras, CNN, ResNet50

Описание: Сетевой супермаркет внедряет систему компьютерного зрения для обработки фотографий покупателей. Фотофиксация в прикассовой зоне поможет определять возраст клиентов, чтобы:

Анализировать покупки и предлагать товары, которые могут заинтересовать покупателей этой возрастной группы;
Контролировать добросовестность кассиров при продаже алкоголя.

Построена модель, которая по фотографии определит приблизительный возраст человека.
Проанализирован набор фотографий людей с указанием возраста при помощи компьютерного зрения с привлечением готовых нейронных сетей и библиотеки Keras.

Проект 4 - Прогнозирование заказов такси (Временные ряды)

Использовались: StatsModels, LinearRegression, DecisionTreeRegressor, RandomForestRegressor, GridSearchCV, TimeSeriesSplit

Описание: Проанализированы исторические данные о заказах такси в аэропортах.

Спрогнозировано количество заказов такси на следующий час, чтобы привлекать больше водителей в период пиковой нагрузки.
Построена модель для такого предсказания.
Значение метрики RMSE на тестовой выборке меньше 48.

Проект 5 - Классификация комментариев (Машинное обучение для текстов)

Описание: Для запуска нового сервиса интернет-магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. Пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других.

Обучена модель классифицировать комментарии на позитивные и негативные.
Проанализирован набор данных с разметкой о токсичности правок.
Построена модель со значением метрики качества F1 не меньше 0.75.
К текстам и временным рядам применена техника feature engineering.
Векторизированы тексты посредством word2vec.

Проект 6 - Предсказание цены автомобиля (Численные методы, Градиентный бустинг)

Использовались: Gradient Boosting, LightGBM, Catboost, MSE

Описание: Сервис по продаже автомобилей с пробегом разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля.

Проанализированы данные: технические характеристики, комплектации и цены автомобилей.
Построена модель для определения стоимости автомобиля с пробегом.
Использованы численные методы, приближённые вычисления, оценка сложности алгоритма, градиентный спуск.

Проект 7 - Отток клиентов банка (Обучение с учителем)

Использовались: One-Hot Encoding, StandardScaler, Upsampling, AUC-ROC, F1, Precision, Recall, TP, TN, FP, FN, Confusion Matrix, GridSearchCV, DecisionTreeClassifier, RandomForestClassifier, LogisticRegression

Описание: Из банка стали уходить клиенты каждый месяц.

Спрогнозирована вероятность ухода клиента из банка в ближайшее время.
Построена модель с предельно большим значением F1-меры с последующей проверкой на тестовой выборке. Доведена метрика до 0.59.
Дополнительно измерен AUC-ROC, соотнесен с F1-мерой.
Обучение с учителем. Работа с несбалансированными данными.

Проект 8 - Определение выгодного тарифа для телеком компании (Описательная статистика)

Использовались: Pandas, Scipy, Stats

Описание: Оператор мобильной связи выяснил: многие клиенты пользуются архивными тарифами.

Проведен предварительный анализ использования тарифов на выборке клиентов, проанализировано поведение клиентов при использовании услуг оператора и рекомендованы оптимальные наборы услуг для пользователей.
Проверены гипотезы о различии выручки абонентов разных тарифов и различии выручки абонентов из Москвы и других регионов.
Определен выгодный тарифный план для корректировки рекламного бюджета.
Разработана система, способная проанализировать поведение клиентов и предложить пользователям новый тариф.
Построена модель для задачи классификации, которая выберет подходящий тариф.
Построена модель с максимально большим значением accuracy.
Доля правильных ответов доведена до 0.75. Проверены accuracy на тестовой выборке.

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
Проект 1 - Выбор региона для разработки новых нефтяных месторождений		Проект 1 - Выбор региона для разработки новых нефтяных месторождений
Проект 2 - Подготовка прототипа модели для металлообрабатывающего предприятия		Проект 2 - Подготовка прототипа модели для металлообрабатывающего предприятия
Проект 3 - Определение возраста покупателя по фото (Computer Vision)		Проект 3 - Определение возраста покупателя по фото (Computer Vision)
Проект 4 - Прогнозирование заказов такси (Временные ряды)		Проект 4 - Прогнозирование заказов такси (Временные ряды)
Проект 5 - Классификация комментариев (Машинное обучение для текстов)		Проект 5 - Классификация комментариев (Машинное обучение для текстов)
Проект 6 - Предсказание цены автомобиля (Численные методы, Градиентный бустинг)		Проект 6 - Предсказание цены автомобиля (Численные методы, Градиентный бустинг)
Проект 7 - Отток клиентов банка (Обучение с учителем)		Проект 7 - Отток клиентов банка (Обучение с учителем)
Проект 8 - Определение выгодного тарифа для телеком компании (Описательная статистика)		Проект 8 - Определение выгодного тарифа для телеком компании (Описательная статистика)
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Проекты Яндекс.Практикум специализация DataScience

About

Releases

Packages

Languages

ViktorGlushak/Yandex_Praktikum_Data_Science-rus-

Folders and files

Latest commit

History

Repository files navigation

Проекты Яндекс.Практикум специализация DataScience

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages