commit-live-students · Abhimanyu22 · Nov 4, 2018 · Nov 4, 2018 · Nov 28, 2018 · Nov 28, 2018
diff --git a/__pycache__/__init__.cpython-36.pyc b/__pycache__/__init__.cpython-36.pyc
diff --git a/q01_load_data/__pycache__/__init__.cpython-36.pyc b/q01_load_data/__pycache__/__init__.cpython-36.pyc
diff --git a/q01_load_data/__pycache__/build.cpython-36.pyc b/q01_load_data/__pycache__/build.cpython-36.pyc
diff --git a/q01_load_data/build.py b/q01_load_data/build.py
@@ -1,4 +1,14 @@
 import pandas as pd
+import random
 
-# Write your code below
+random.seed(7)
+
+def load_data(path):
+    df = pd.read_table(path, sep=';')
+
+    return df
 
+
+
+
+
diff --git a/q01_load_data/tests/__pycache__/__init__.cpython-36.pyc b/q01_load_data/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q01_load_data/tests/__pycache__/test.cpython-36.pyc b/q01_load_data/tests/__pycache__/test.cpython-36.pyc
diff --git a/q02_data_split/__pycache__/__init__.cpython-36.pyc b/q02_data_split/__pycache__/__init__.cpython-36.pyc
diff --git a/q02_data_split/__pycache__/build.cpython-36.pyc b/q02_data_split/__pycache__/build.cpython-36.pyc
diff --git a/q02_data_split/build.py b/q02_data_split/build.py
@@ -1,8 +1,15 @@
+# %load q02_data_split/build.py
 from greyatomlib.multivariate_regression_project.q01_load_data.build import load_data
 from sklearn.model_selection import train_test_split
 import pandas as pd
 df = load_data('data/student-mat.csv')
 
-# Write your code below
-
+def split_dataset(df):
 
+    X = df.iloc[:,:-1]
+    y = df['G3']
+    X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42, test_size=0.2)
+
+    return X_train, X_test, y_train, y_test
+
+
diff --git a/q02_data_split/tests/__pycache__/__init__.cpython-36.pyc b/q02_data_split/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q02_data_split/tests/__pycache__/test.cpython-36.pyc b/q02_data_split/tests/__pycache__/test.cpython-36.pyc
diff --git a/q03_data_encoding/__pycache__/__init__.cpython-36.pyc b/q03_data_encoding/__pycache__/__init__.cpython-36.pyc
diff --git a/q03_data_encoding/__pycache__/build.cpython-36.pyc b/q03_data_encoding/__pycache__/build.cpython-36.pyc
diff --git a/q03_data_encoding/build.py b/q03_data_encoding/build.py
@@ -1,14 +1,30 @@
+# %load q03_data_encoding/build.py
 from greyatomlib.multivariate_regression_project.q01_load_data.build import load_data
 from greyatomlib.multivariate_regression_project.q02_data_split.build import split_dataset
 from sklearn.preprocessing import LabelEncoder
 import numpy as np
 import pandas as pd
 df = load_data('data/student-mat.csv')
- 
+
 x_train, x_test, y_train, y_test =  split_dataset(df)
 
-# Write your code below
+
+def label_encode(x_train, x_test):
+    columnsToEncode = list(df.select_dtypes(include=['category','object']))
+    le = LabelEncoder()
+    X_transform = x_train.copy()
+    X_test_transform = x_test.copy()
+    for feature in columnsToEncode:
+        X_transform[feature] = le.fit_transform(X_transform[feature])
+        X_test_transform[feature] = le.fit_transform(X_test_transform[feature])
+
+    return X_transform, X_test_transform
+
+label_encode(x_train, x_test)
 
 
 
 
+
+
+
diff --git a/q03_data_encoding/tests/__pycache__/__init__.cpython-36.pyc b/q03_data_encoding/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q03_data_encoding/tests/__pycache__/test.cpython-36.pyc b/q03_data_encoding/tests/__pycache__/test.cpython-36.pyc
diff --git a/q03_ohe_encoder/__pycache__/__init__.cpython-36.pyc b/q03_ohe_encoder/__pycache__/__init__.cpython-36.pyc
diff --git a/q03_ohe_encoder/__pycache__/build.cpython-36.pyc b/q03_ohe_encoder/__pycache__/build.cpython-36.pyc
diff --git a/q03_ohe_encoder/build.py b/q03_ohe_encoder/build.py
@@ -1,19 +1,28 @@
+# %load q03_ohe_encoder/build.py
 from greyatomlib.multivariate_regression_project.q01_load_data.build import load_data
 from greyatomlib.multivariate_regression_project.q02_data_split.build import split_dataset
 from sklearn.preprocessing import OneHotEncoder
 import pandas as pd
 import numpy as np
 
 df = load_data('data/student-mat.csv')
-
 x_train, x_test, y_train, y_test =  split_dataset(df)
-
 category_index = [x for x in range(len(df.columns)) if df[df.columns[x]].dtype == 'object']
 
-
-# Write your code below
-
+def ohe_encode(x_train, x_test, ct = category_index):
 
+    X_transform = pd.get_dummies(x_train.iloc[ct], drop_first=True)
+    X_test_transform = pd.get_dummies(x_test.iloc[ct], drop_first=True)
+
+    return X_transform, X_test_transform
+
+ohe_encode(x_train, x_test, category_index)
 
 
 
+
+
+
+
+
+
diff --git a/q03_ohe_encoder/tests/__pycache__/__init__.cpython-36.pyc b/q03_ohe_encoder/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q03_ohe_encoder/tests/__pycache__/test.cpython-36.pyc b/q03_ohe_encoder/tests/__pycache__/test.cpython-36.pyc
diff --git a/q04_data_visualisation/__pycache__/__init__.cpython-36.pyc b/q04_data_visualisation/__pycache__/__init__.cpython-36.pyc
diff --git a/q04_data_visualisation/__pycache__/build.cpython-36.pyc b/q04_data_visualisation/__pycache__/build.cpython-36.pyc
diff --git a/q04_data_visualisation/build.py b/q04_data_visualisation/build.py
@@ -1,16 +1,24 @@
-# -*- coding: utf-8 -*-
+# %load q04_data_visualisation/build.py
 from greyatomlib.multivariate_regression_project.q01_load_data.build import load_data
 from greyatomlib.multivariate_regression_project.q02_data_split.build import split_dataset
 from greyatomlib.multivariate_regression_project.q03_data_encoding.build import label_encode
-
 import matplotlib.pyplot as plt
 from pandas.plotting import scatter_matrix
+import seaborn as sns
+
 data = load_data('data/student-mat.csv') 
 x_train, x_test, y_train, y_test =  split_dataset(data)
 x_train,x_test = label_encode(x_train,x_test)
 
-# Write your code below
+X_train = x_train.join(y_train)
+
+def visualise_data(data, path):
+    plot = scatter_matrix(X_train)
+    plt.show();
 
 
 
 
+
+
+
diff --git a/q04_data_visualisation/tests/__pycache__/__init__.cpython-36.pyc b/q04_data_visualisation/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q04_data_visualisation/tests/__pycache__/test.cpython-36.pyc b/q04_data_visualisation/tests/__pycache__/test.cpython-36.pyc
diff --git a/q05_linear_regression_model/__pycache__/__init__.cpython-36.pyc b/q05_linear_regression_model/__pycache__/__init__.cpython-36.pyc
diff --git a/q05_linear_regression_model/__pycache__/build.cpython-36.pyc b/q05_linear_regression_model/__pycache__/build.cpython-36.pyc
diff --git a/q05_linear_regression_model/build.py b/q05_linear_regression_model/build.py
@@ -1,15 +1,24 @@
+# %load q05_linear_regression_model/build.py
 from greyatomlib.multivariate_regression_project.q01_load_data.build import load_data
 from greyatomlib.multivariate_regression_project.q02_data_split.build import split_dataset
 
 from sklearn.linear_model import LinearRegression
 from greyatomlib.multivariate_regression_project.q03_data_encoding.build import label_encode
 
 df = load_data('data/student-mat.csv')
-
 x_train, x_test, y_train, y_test =  split_dataset(df)
-
 x_train, x_test = label_encode(x_train,x_test)
 
 
-# Write your code below
+def linear_regression(X=x_train,y=y_train):
+    model = LinearRegression()
+    lm = model.fit(X,y)
 
+    return lm
+
+
+
+
+
+
+
diff --git a/q05_linear_regression_model/tests/__pycache__/__init__.cpython-36.pyc b/q05_linear_regression_model/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q05_linear_regression_model/tests/__pycache__/test.cpython-36.pyc b/q05_linear_regression_model/tests/__pycache__/test.cpython-36.pyc
diff --git a/q06_cross_validation/__pycache__/__init__.cpython-36.pyc b/q06_cross_validation/__pycache__/__init__.cpython-36.pyc
diff --git a/q06_cross_validation/__pycache__/build.cpython-36.pyc b/q06_cross_validation/__pycache__/build.cpython-36.pyc
diff --git a/q06_cross_validation/build.py b/q06_cross_validation/build.py
@@ -1,3 +1,4 @@
+# %load q06_cross_validation/build.py
 from greyatomlib.multivariate_regression_project.q01_load_data.build import load_data
 from greyatomlib.multivariate_regression_project.q02_data_split.build import split_dataset
 
@@ -17,5 +18,12 @@
 
 model =linear_regression(x_train,y_train)
 
-# Write your code below
+def cross_validation_regressor(Model=model, X=x_test, y=y_train):
+    scores = cross_val_score(model, X, y)
+    r2score = scores.mean()
 
+    return r2score
+
+
+
+
diff --git a/q06_cross_validation/tests/__pycache__/__init__.cpython-36.pyc b/q06_cross_validation/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q06_cross_validation/tests/__pycache__/test.cpython-36.pyc b/q06_cross_validation/tests/__pycache__/test.cpython-36.pyc
diff --git a/q07_regression_pred/__pycache__/__init__.cpython-36.pyc b/q07_regression_pred/__pycache__/__init__.cpython-36.pyc
diff --git a/q07_regression_pred/__pycache__/build.cpython-36.pyc b/q07_regression_pred/__pycache__/build.cpython-36.pyc
diff --git a/q07_regression_pred/build.py b/q07_regression_pred/build.py
@@ -1,3 +1,4 @@
+# %load q07_regression_pred/build.py
 
 from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
 
@@ -18,5 +19,16 @@
 
 val = cross_validation_regressor(model,x_train,y_train)
 
+def regression_predictor(Model, X, y):
+    Model.fit(x_train,y_train)
+    y_pred = Model.predict(X)
+    mse = mean_squared_error(y, y_pred)
+    mae = mean_absolute_error(y, y_pred)
+    r2 = r2_score(y, y_pred)
+
+    return y_pred, mse, mae, r2
+
+
+
+
 
-# Write your code below    
diff --git a/q07_regression_pred/tests/__pycache__/__init__.cpython-36.pyc b/q07_regression_pred/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q07_regression_pred/tests/__pycache__/test.cpython-36.pyc b/q07_regression_pred/tests/__pycache__/test.cpython-36.pyc
diff --git a/q08_linear_model/__pycache__/__init__.cpython-36.pyc b/q08_linear_model/__pycache__/__init__.cpython-36.pyc
diff --git a/q08_linear_model/__pycache__/build.cpython-36.pyc b/q08_linear_model/__pycache__/build.cpython-36.pyc
diff --git a/q08_linear_model/build.py b/q08_linear_model/build.py
@@ -1,3 +1,4 @@
+# %load q08_linear_model/build.py
 import pandas as pd
 import numpy as np
 from greyatomlib.multivariate_regression_project.q01_load_data.build import load_data
@@ -15,6 +16,15 @@
 val = cross_validation_regressor(model,x_train,y_train)
 y_pred, mse, mae, r2 = regression_predictor(model, x_test, y_test)
 
-# Write your code below
+def linear_model(x_train, x_test, y_train, y_test):
 
+    G = model.fit(x_train, y_train)
+    y_pred = G.predict(x_test)  
+    stat_table = pd.DataFrame([[val, mae, mse, r2]], columns=['cross_validation', 'mae', 'rmse', 'r2'])
 
+    return G, y_pred, stat_table
+
+
+
+
+
diff --git a/q08_linear_model/tests/__pycache__/__init__.cpython-36.pyc b/q08_linear_model/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q08_linear_model/tests/__pycache__/test.cpython-36.pyc b/q08_linear_model/tests/__pycache__/test.cpython-36.pyc
diff --git a/q09_advanced_model_q01_lasso/__pycache__/__init__.cpython-36.pyc b/q09_advanced_model_q01_lasso/__pycache__/__init__.cpython-36.pyc
diff --git a/q09_advanced_model_q01_lasso/__pycache__/build.cpython-36.pyc b/q09_advanced_model_q01_lasso/__pycache__/build.cpython-36.pyc
diff --git a/q09_advanced_model_q01_lasso/build.py b/q09_advanced_model_q01_lasso/build.py
@@ -1,3 +1,4 @@
+# %load q09_advanced_model_q01_lasso/build.py
 from greyatomlib.multivariate_regression_project.q01_load_data.build import load_data
 
 from greyatomlib.multivariate_regression_project.q02_data_split.build import split_dataset
@@ -6,6 +7,7 @@
 
 from greyatomlib.multivariate_regression_project.q07_regression_pred.build import regression_predictor
 from sklearn.linear_model import Lasso
+from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
 import numpy as np
 import pandas as pd
 
@@ -18,6 +20,19 @@
 
 x_train,x_test = label_encode(x_train,x_test)
 
-# Write your solution here
+def lasso(x_train, x_test, y_train, y_test, alpha=0.1):
+
+    lasso_model = Lasso(alpha)
+    G = lasso_model.fit(x_train, y_train)
+    val = cross_validation_regressor(lasso_model,x_train,y_train)
+    y_pred, mse, mae, r2 = regression_predictor(lasso_model, x_test, y_test)
+    r2 = r2_score(y_test, y_pred)
+    stat_table = pd.DataFrame([[val, mae, r2, mse]], columns=['cross_validation', 'mae', 'r2', 'rmse'])
+
+    return G, y_pred, stat_table
+
 
 
+
+
+
diff --git a/q09_advanced_model_q01_lasso/tests/__pycache__/__init__.cpython-36.pyc b/q09_advanced_model_q01_lasso/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q09_advanced_model_q01_lasso/tests/__pycache__/test.cpython-36.pyc b/q09_advanced_model_q01_lasso/tests/__pycache__/test.cpython-36.pyc
diff --git a/q09_advanced_model_q02_ridge/__pycache__/__init__.cpython-36.pyc b/q09_advanced_model_q02_ridge/__pycache__/__init__.cpython-36.pyc
diff --git a/q09_advanced_model_q02_ridge/__pycache__/build.cpython-36.pyc b/q09_advanced_model_q02_ridge/__pycache__/build.cpython-36.pyc
diff --git a/q09_advanced_model_q02_ridge/build.py b/q09_advanced_model_q02_ridge/build.py
@@ -1,3 +1,4 @@
+# %load q09_advanced_model_q02_ridge/build.py
 from greyatomlib.multivariate_regression_project.q01_load_data.build import load_data
 
 from greyatomlib.multivariate_regression_project.q02_data_split.build import split_dataset
@@ -18,8 +19,17 @@
 
 x_train,x_test = label_encode(x_train,x_test)
 
-# Write your code below
-
-
+def ridge(x_train, x_test, y_train, y_test, alpha=0.1):
+
+    ridge_model = Ridge(alpha)
+    G = ridge_model.fit(x_train, y_train)
+    val = cross_validation_regressor(ridge_model,x_train,y_train)
+    y_pred, mse, mae, r2 = regression_predictor(ridge_model, x_test, y_test)
+    stat_table = pd.DataFrame([[val, mae, r2, mse]], columns=['cross_validation', 'mae', 'r2', 'rmse'])
+
+    return G, y_pred, stat_table
 
 
+
+
+
diff --git a/q09_advanced_model_q02_ridge/tests/__pycache__/__init__.cpython-36.pyc b/q09_advanced_model_q02_ridge/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q09_advanced_model_q02_ridge/tests/__pycache__/test.cpython-36.pyc b/q09_advanced_model_q02_ridge/tests/__pycache__/test.cpython-36.pyc
diff --git a/q10_data_missing_values/__pycache__/__init__.cpython-36.pyc b/q10_data_missing_values/__pycache__/__init__.cpython-36.pyc
diff --git a/q10_data_missing_values/__pycache__/build.cpython-36.pyc b/q10_data_missing_values/__pycache__/build.cpython-36.pyc
diff --git a/q10_data_missing_values/build.py b/q10_data_missing_values/build.py
@@ -1,3 +1,4 @@
+# %load q10_data_missing_values/build.py
 from greyatomlib.multivariate_regression_project.q01_load_data.build import load_data
 from greyatomlib.multivariate_regression_project.q02_data_split.build import split_dataset
 from greyatomlib.multivariate_regression_project.q03_data_encoding.build import label_encode
@@ -8,6 +9,18 @@
 
 x_train, x_test, y_train, y_test =  split_dataset(df)
 x_train,x_test = label_encode(x_train,x_test)
+df.describe()
 
-# Write your code below
+def describe_df(data):
+    df = data
+    return df.describe(), x_train.apply(pd.value_counts)
 
+
+describe_df(df)
+
+
+
+
+
+
+
diff --git a/q10_data_missing_values/tests/__pycache__/__init__.cpython-36.pyc b/q10_data_missing_values/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q10_data_missing_values/tests/__pycache__/test.cpython-36.pyc b/q10_data_missing_values/tests/__pycache__/test.cpython-36.pyc
diff --git a/q11_feature_selection_q01_plot_corr/__pycache__/__init__.cpython-36.pyc b/q11_feature_selection_q01_plot_corr/__pycache__/__init__.cpython-36.pyc
diff --git a/q11_feature_selection_q01_plot_corr/__pycache__/build.cpython-36.pyc b/q11_feature_selection_q01_plot_corr/__pycache__/build.cpython-36.pyc
diff --git a/q11_feature_selection_q01_plot_corr/build.py b/q11_feature_selection_q01_plot_corr/build.py
@@ -1,8 +1,9 @@
+# %load q11_feature_selection_q01_plot_corr/build.py
 
 import matplotlib.pyplot as plt
 from matplotlib.pyplot import yticks, xticks, subplots, set_cmap
 from greyatomlib.multivariate_regression_project.q01_load_data.build import load_data
-
+import seaborn as sns
 
 from greyatomlib.multivariate_regression_project.q02_data_split.build import split_dataset
 
@@ -21,6 +22,22 @@
 
 #Remember to concatenate training features and labels if you want to check that scatterplots which I would prefer.You are free to explore labels to labels, features to features ,etc scatterplots as you want by passing arguments
 #============================================================================
-#visualise_data(pd.concat([x_train,y_train],axis=1),"../images/data_image.png")
+#visualise_data(pd.concat([x_train,y_train],axis=1),'../images/data_image.png')
+
+def plot_corr(df, size=11):
+
+    df_train = pd.concat([x_train,y_train],axis=1)
+    corr = df_train.corr()
+    fig, ax = subplots(figsize=(size,size))
+    plt.set_cmap('YlOrRd')
+    ax.matshow(corr)
+    xticks(range(len(corr.columns)), corr.columns, rotation=90)
+    yticks(range(len(corr.columns)), corr.columns)
+    fig.savefig('./images/data_image.png')
+    return ax
+
+
+
+
+
 
-# Write your solution here:
diff --git a/q11_feature_selection_q01_plot_corr/tests/__pycache__/__init__.cpython-36.pyc b/q11_feature_selection_q01_plot_corr/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q11_feature_selection_q01_plot_corr/tests/__pycache__/test.cpython-36.pyc b/q11_feature_selection_q01_plot_corr/tests/__pycache__/test.cpython-36.pyc
diff --git a/q11_feature_selection_q02_best_k_features/__pycache__/__init__.cpython-36.pyc b/q11_feature_selection_q02_best_k_features/__pycache__/__init__.cpython-36.pyc
diff --git a/q11_feature_selection_q02_best_k_features/__pycache__/build.cpython-36.pyc b/q11_feature_selection_q02_best_k_features/__pycache__/build.cpython-36.pyc
diff --git a/q11_feature_selection_q02_best_k_features/build.py b/q11_feature_selection_q02_best_k_features/build.py
@@ -1,3 +1,4 @@
+# %load q11_feature_selection_q02_best_k_features/build.py
 # Default imports
 from sklearn.feature_selection import SelectPercentile
 from sklearn.feature_selection import f_regression
@@ -12,16 +13,27 @@
 np.random.seed(9)
 
 df = load_data('data/student-mat.csv')
-
 x_train, x_test, y_train, y_test =  split_dataset(df)
-
 x_train,x_test = label_encode(x_train,x_test)
+np.random.seed(9)
+
+def percentile_k_features(x_train, y_train, k=50):
+
+    model = SelectPercentile(f_regression, percentile=k)
+    model.fit(x_train, y_train)
+    cols_list = model.get_support(indices=True)
+    cols_sort = [cols_list for _, cols_list in sorted(zip(model.scores_[cols_list],cols_list), reverse=True)]
+    top_k_predictors = x_train.iloc[:,cols_sort]
+
+    return list(top_k_predictors.columns.values)
 
+percentile_k_features(x_train, y_train, k=50)
 
-np.random.seed(9)
-# Write your code below
 
 
 
 
 
+
+
+
diff --git a/q11_feature_selection_q02_best_k_features/tests/__pycache__/__init__.cpython-36.pyc b/q11_feature_selection_q02_best_k_features/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q11_feature_selection_q02_best_k_features/tests/__pycache__/test.cpython-36.pyc b/q11_feature_selection_q02_best_k_features/tests/__pycache__/test.cpython-36.pyc
diff --git a/q12_feature_selection/__pycache__/__init__.cpython-36.pyc b/q12_feature_selection/__pycache__/__init__.cpython-36.pyc
diff --git a/q12_feature_selection/__pycache__/build.cpython-36.pyc b/q12_feature_selection/__pycache__/build.cpython-36.pyc