Проект 1: Выбор региона для разработки новых нефтяных месторождений
Использовались: Catboost, Bootstrap, Pandas, Seaborn
Описание: Добывающей компании «ГлавРосГосНефть» нужно решить, где бурить новую скважину.
- Собраны характеристики пробы нефти для скважин: качество нефти и объём её запасов по трем регионам. Характеристики для каждой скважины в регионе уже известны.
- Построена модель для предсказания объёма запасов в новых скважинах.
- Выбраны скважины с самыми высокими оценками значений.
- Определены регионы с максимальной суммарной прибылью отобранных скважин.
- Построена модель для определения региона, где добыча принесёт наибольшую прибыль.
- Проанализирована возможная прибыль и риски техникой Bootstrap.
Проект 2: Подготовка прототипа модели для металлообрабатывающего предприятия
Использовались: Catboost, Pandas, Sklearn, Numpy, Seaborn, Matplotlib, SciPy
Описание: Компания разрабатывает решения для эффективной работы золотодобывающей отрасли.
- Построена модель, предсказывающая коэффициент восстановления золота из золотосодержащей руды.
- Проанализированы данные с параметрами добычи и очистки.
- Построена и обучена модель, помогающая оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.
Проект 3: Определение возраста покупателя по фото (Computer Vision)
Использовались: Keras, CNN, ResNet50
Описание: Сетевой супермаркет внедряет систему компьютерного зрения для обработки фотографий покупателей. Фотофиксация в прикассовой зоне поможет определять возраст клиентов, чтобы:
- Анализировать покупки и предлагать товары, которые могут заинтересовать покупателей этой возрастной группы;
- Контролировать добросовестность кассиров при продаже алкоголя.
- Построена модель, которая по фотографии определит приблизительный возраст человека.
- Проанализирован набор фотографий людей с указанием возраста при помощи компьютерного зрения с привлечением готовых нейронных сетей и библиотеки Keras.
Проект 4 - Прогнозирование заказов такси (Временные ряды)
Использовались: StatsModels, LinearRegression, DecisionTreeRegressor, RandomForestRegressor, GridSearchCV, TimeSeriesSplit
Описание: Проанализированы исторические данные о заказах такси в аэропортах.
- Спрогнозировано количество заказов такси на следующий час, чтобы привлекать больше водителей в период пиковой нагрузки.
- Построена модель для такого предсказания.
- Значение метрики RMSE на тестовой выборке меньше 48.
Проект 5 - Классификация комментариев (Машинное обучение для текстов)
Описание: Для запуска нового сервиса интернет-магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. Пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других.
- Обучена модель классифицировать комментарии на позитивные и негативные.
- Проанализирован набор данных с разметкой о токсичности правок.
- Построена модель со значением метрики качества F1 не меньше 0.75.
- К текстам и временным рядам применена техника feature engineering.
- Векторизированы тексты посредством word2vec.
Проект 6 - Предсказание цены автомобиля (Численные методы, Градиентный бустинг)
Использовались: Gradient Boosting, LightGBM, Catboost, MSE
Описание: Сервис по продаже автомобилей с пробегом разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля.
- Проанализированы данные: технические характеристики, комплектации и цены автомобилей.
- Построена модель для определения стоимости автомобиля с пробегом.
- Использованы численные методы, приближённые вычисления, оценка сложности алгоритма, градиентный спуск.
Проект 7 - Отток клиентов банка (Обучение с учителем)
Использовались: One-Hot Encoding, StandardScaler, Upsampling, AUC-ROC, F1, Precision, Recall, TP, TN, FP, FN, Confusion Matrix, GridSearchCV, DecisionTreeClassifier, RandomForestClassifier, LogisticRegression
Описание: Из банка стали уходить клиенты каждый месяц.
- Спрогнозирована вероятность ухода клиента из банка в ближайшее время.
- Построена модель с предельно большим значением F1-меры с последующей проверкой на тестовой выборке. Доведена метрика до 0.59.
- Дополнительно измерен AUC-ROC, соотнесен с F1-мерой.
- Обучение с учителем. Работа с несбалансированными данными.
Проект 8 - Определение выгодного тарифа для телеком компании (Описательная статистика)
Использовались: Pandas, Scipy, Stats
Описание: Оператор мобильной связи выяснил: многие клиенты пользуются архивными тарифами.
- Проведен предварительный анализ использования тарифов на выборке клиентов, проанализировано поведение клиентов при использовании услуг оператора и рекомендованы оптимальные наборы услуг для пользователей.
- Проверены гипотезы о различии выручки абонентов разных тарифов и различии выручки абонентов из Москвы и других регионов.
- Определен выгодный тарифный план для корректировки рекламного бюджета.
- Разработана система, способная проанализировать поведение клиентов и предложить пользователям новый тариф.
- Построена модель для задачи классификации, которая выберет подходящий тариф.
- Построена модель с максимально большим значением accuracy.
- Доля правильных ответов доведена до 0.75. Проверены accuracy на тестовой выборке.