Skip to content

ViktorGlushak/Yandex_Praktikum_Data_Science-rus-

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Проекты Яндекс.Практикум специализация DataScience

Проект 1: Выбор региона для разработки новых нефтяных месторождений

Использовались: Catboost, Bootstrap, Pandas, Seaborn

Описание: Добывающей компании «ГлавРосГосНефть» нужно решить, где бурить новую скважину.

  • Собраны характеристики пробы нефти для скважин: качество нефти и объём её запасов по трем регионам. Характеристики для каждой скважины в регионе уже известны.
  • Построена модель для предсказания объёма запасов в новых скважинах.
  • Выбраны скважины с самыми высокими оценками значений.
  • Определены регионы с максимальной суммарной прибылью отобранных скважин.
  • Построена модель для определения региона, где добыча принесёт наибольшую прибыль.
  • Проанализирована возможная прибыль и риски техникой Bootstrap.

Проект 2: Подготовка прототипа модели для металлообрабатывающего предприятия

Использовались: Catboost, Pandas, Sklearn, Numpy, Seaborn, Matplotlib, SciPy

Описание: Компания разрабатывает решения для эффективной работы золотодобывающей отрасли.

  • Построена модель, предсказывающая коэффициент восстановления золота из золотосодержащей руды.
  • Проанализированы данные с параметрами добычи и очистки.
  • Построена и обучена модель, помогающая оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.

Проект 3: Определение возраста покупателя по фото (Computer Vision)

Использовались: Keras, CNN, ResNet50

Описание: Сетевой супермаркет внедряет систему компьютерного зрения для обработки фотографий покупателей. Фотофиксация в прикассовой зоне поможет определять возраст клиентов, чтобы:

  1. Анализировать покупки и предлагать товары, которые могут заинтересовать покупателей этой возрастной группы;
  2. Контролировать добросовестность кассиров при продаже алкоголя.
  • Построена модель, которая по фотографии определит приблизительный возраст человека.
  • Проанализирован набор фотографий людей с указанием возраста при помощи компьютерного зрения с привлечением готовых нейронных сетей и библиотеки Keras.

Проект 4 - Прогнозирование заказов такси (Временные ряды)

Использовались: StatsModels, LinearRegression, DecisionTreeRegressor, RandomForestRegressor, GridSearchCV, TimeSeriesSplit

Описание: Проанализированы исторические данные о заказах такси в аэропортах.

  • Спрогнозировано количество заказов такси на следующий час, чтобы привлекать больше водителей в период пиковой нагрузки.
  • Построена модель для такого предсказания.
  • Значение метрики RMSE на тестовой выборке меньше 48.

Проект 5 - Классификация комментариев (Машинное обучение для текстов)

Описание: Для запуска нового сервиса интернет-магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. Пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других.

  • Обучена модель классифицировать комментарии на позитивные и негативные.
  • Проанализирован набор данных с разметкой о токсичности правок.
  • Построена модель со значением метрики качества F1 не меньше 0.75.
  • К текстам и временным рядам применена техника feature engineering.
  • Векторизированы тексты посредством word2vec.

Проект 6 - Предсказание цены автомобиля (Численные методы, Градиентный бустинг)

Использовались: Gradient Boosting, LightGBM, Catboost, MSE

Описание: Сервис по продаже автомобилей с пробегом разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля.

  • Проанализированы данные: технические характеристики, комплектации и цены автомобилей.
  • Построена модель для определения стоимости автомобиля с пробегом.
  • Использованы численные методы, приближённые вычисления, оценка сложности алгоритма, градиентный спуск.

Проект 7 - Отток клиентов банка (Обучение с учителем)

Использовались: One-Hot Encoding, StandardScaler, Upsampling, AUC-ROC, F1, Precision, Recall, TP, TN, FP, FN, Confusion Matrix, GridSearchCV, DecisionTreeClassifier, RandomForestClassifier, LogisticRegression

Описание: Из банка стали уходить клиенты каждый месяц.

  • Спрогнозирована вероятность ухода клиента из банка в ближайшее время.
  • Построена модель с предельно большим значением F1-меры с последующей проверкой на тестовой выборке. Доведена метрика до 0.59.
  • Дополнительно измерен AUC-ROC, соотнесен с F1-мерой.
  • Обучение с учителем. Работа с несбалансированными данными.

Проект 8 - Определение выгодного тарифа для телеком компании (Описательная статистика)

Использовались: Pandas, Scipy, Stats

Описание: Оператор мобильной связи выяснил: многие клиенты пользуются архивными тарифами.

  • Проведен предварительный анализ использования тарифов на выборке клиентов, проанализировано поведение клиентов при использовании услуг оператора и рекомендованы оптимальные наборы услуг для пользователей.
  • Проверены гипотезы о различии выручки абонентов разных тарифов и различии выручки абонентов из Москвы и других регионов.
  • Определен выгодный тарифный план для корректировки рекламного бюджета.
  • Разработана система, способная проанализировать поведение клиентов и предложить пользователям новый тариф.
  • Построена модель для задачи классификации, которая выберет подходящий тариф.
  • Построена модель с максимально большим значением accuracy.
  • Доля правильных ответов доведена до 0.75. Проверены accuracy на тестовой выборке.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published