Skip to content

tsapuanq/Titanic-kaggle-competition

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Titanic-kaggle-competition

Titanic: Statistical Analysis & ML Model

Этот проект посвящен исследованию данных о пассажирах Титаника и построению модели машинного обучения для предсказания выживаемости.

Описательный и статистический анализ

Мы провели анализ датасета с помощью Pandas, Seaborn и Scipy:

  • Исследовали распределение пола и классов пассажиров.
  • Проверили гипотезу о различиях в возрасте и стоимости билетов у мужчин и женщин с помощью Mann-Whitney U-test.
  • Выяснили, что женщины выживали значительно чаще мужчин, а пассажиры 1-го класса имели наибольшие шансы на спасение.
  • Обнаружили выбросы в стоимости билетов и возрасте (использовали boxplot).

Построение модели

Для предсказания выживаемости мы использовали RandomForestClassifier.

Параметры модели (найденные через GridSearchCV):

  • max_depth=5, min_samples_leaf=4, min_samples_split=5, n_estimators=100, bootstrap=False
  • Модель обучалась на данных с обработанными пропусками и нормализованными признаками.
  • Итоговый accuracy на тесте: 0.78468

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors