Этот проект посвящен исследованию данных о пассажирах Титаника и построению модели машинного обучения для предсказания выживаемости.
Мы провели анализ датасета с помощью Pandas, Seaborn и Scipy:
- Исследовали распределение пола и классов пассажиров.
- Проверили гипотезу о различиях в возрасте и стоимости билетов у мужчин и женщин с помощью Mann-Whitney U-test.
- Выяснили, что женщины выживали значительно чаще мужчин, а пассажиры 1-го класса имели наибольшие шансы на спасение.
- Обнаружили выбросы в стоимости билетов и возрасте (использовали
boxplot).
Для предсказания выживаемости мы использовали RandomForestClassifier.
max_depth=5,min_samples_leaf=4,min_samples_split=5,n_estimators=100,bootstrap=False- Модель обучалась на данных с обработанными пропусками и нормализованными признаками.
- Итоговый accuracy на тесте: 0.78468