Trabajando en función check_df

Rchatru · Rchatru · commit aa59f1382689 · 2022-06-13T06:17:50.000+01:00
diff --git a/functions.py b/functions.py
@@ -37,62 +37,87 @@ def df_info(df):
    s = buffer.getvalue() 
    return s
 
+
+
+class stdScaler(TransformerMixin, BaseEstimator):
+
+    def fit(self, X, y=None):
+        self.means_ = X.mean(axis=0)
+        self.std_dev_ = X.std(axis=0)
+        return self
+
+    def transform(self, X, y=None):
+        return (X - self.means_[:X.shape[1]]) / self.std_dev_[:X.shape[1]]
+
+
+
+def OneHotEncode(original_df, feature_to_encode):
+    encoded_cols = pd.get_dummies(original_df[feature_to_encode])
+    res = pd.concat([original_df, encoded_cols], axis=1)
+    res = res.drop([feature_to_encode], axis=1)
+    return(res)
+
 vars = ['FixationPointX_(MCSpx)','FixationPointY_(MCSpx)','Fixation','Saccade','Unclassified']
 
-# class stdScaler(TransformerMixin, BaseEstimator):
-
-#     def fit(self, X, y=None):
-#         self.means_ = X.mean(axis=0)
-#         self.std_dev_ = X.std(axis=0)
-#         return self
-
-#     def transform(self, X, y=None):
-#         return (X - self.means_[:X.shape[1]]) / self.std_dev_[:X.shape[1]]
-
-
-
-# La selección de escena debe estar aqui
-# esc = 6
-# X = df.loc[df['escena' + str(esc)] == 1]
-# def check_df(df_in):
-#    # En primer lugar ajusta el nombre de las columnas a la forma requerida
-#    df_in.rename(columns=lambda x: x.replace(" ", "_"), inplace=True)
-#    cols = df_in.columns.tolist()
-
-#    # Compara los elementos de la lista de variables necesarias (vars) con las del archivo introducido (cols).
-#    if set(vars).issubset(set(cols)):
-#       if len(vars) == len(cols):
-#          df = df_in
-#       else:
-#          message = 'Las variables del archivo de entrada no coinciden con las esperadas. Se eliminarán las no necesarias.'
-#          st.info(message)
-#          df = df_in.drop(columns=set(cols) - set(vars))
-#    else:
-#       st.error("El archivo introducido no tiene todas las variables necesarias.")
-#       return False
-#       #sys.exit()
-      
-#    df.fillna(0, inplace=True)
+def check_df(df_in):
+   # En primer lugar ajusta el nombre de las columnas a la forma requerida
+   df_in.rename(columns=lambda x: x.replace(" ", "_"), inplace=True)
+   cols = df_in.columns.tolist()
+
+   # Eliminar las finas en las que no existan datos para las variables indicadas
+   # El resto de NaN se rellenará con 0
+   df = df_in.dropna(subset=['GazePointIndex', 'StrictAverageGazePointX_(ADCSmm)', 'StrictAverageGazePointY_(ADCSmm)'])
+   df = df.fillna(0)
 
-#    # Cálculo de los cuartiles y rango IQR
-#    Q1 = df[vars].quantile(0.25)
-#    Q3 = df[vars].quantile(0.75)
-#    IQR = Q3 - Q1
+   # Como necesidad para operaciones posteriores, se sustituyen las ',' por '.' y se convierte a tipo numérico
+   for var in ['StrictAverageGazePointX_(ADCSmm)', 'StrictAverageGazePointY_(ADCSmm)']:
+      df[var] = df[var].replace(',', '.', regex=True)
+      df[var] = df[var].astype(float)
 
-#    # Límites superior e inferior para el cálculo de los outliers
-#    k = 3
-#    l_sup = Q3 + k*IQR
-#    l_inf = Q1 - k*IQR
+   # df = OneHotEncode(df, 'SceneName')
+   df = OneHotEncode(df, 'GazeEventType')
+   
+   # Cálculo de los cuartiles y rango IQR
+   Q1 = df[vars].quantile(0.25)
+   Q3 = df[vars].quantile(0.75)
+   IQR = Q3 - Q1
+
+   # Límites superior e inferior para el cálculo de los outliers
+   k = 3
+   l_sup = Q3 + k*IQR
+   l_inf = Q1 - k*IQR
+
+   # Se eliminan los outliers que se encuentren por encima del límite superior o por debajo del límite inferior
+   df = df[~((df < l_inf) | (df > l_sup)).any(axis=1)]
+
+   # Escalado de las variables (estandarizado)
+   stdscaler = stdScaler()
+   df[['FixationPointX_(MCSpx)','FixationPointY_(MCSpx)']] = stdscaler.fit_transform(df[['FixationPointX_(MCSpx)','FixationPointY_(MCSpx)']])
+
+   # Sólo nos interesa la escena 6
+   df = df.loc[df['SceneName']=='escena6']
 
-#    # Se eliminan los outliers que se encuentren por encima del límite superior o por debajo del límite inferior
-#    fix_X = (encoded_train.loc[(encoded_train['FixationPointX_(MCSpx)'] >= l_sup['FixationPointX_(MCSpx)']) | (encoded_train['FixationPointX_(MCSpx)'] <= l_inf['FixationPointX_(MCSpx)'])])
-#    limp_train = encoded_train[~((encoded_train < m_inf) | (encoded_train > m_sup)).any(axis=1)]
+   # Separar X e Y, y eliminar columnas que no se necesitan
+
+
+   # Compara los elementos de la lista de variables necesarias (vars) con las del archivo introducido (cols).
+   if set(vars).issubset(set(cols)):
+      if len(vars) == len(cols):
+         df = df_in
+      else:
+         message = 'Las variables del archivo de entrada no coinciden con las esperadas. Se eliminarán las no necesarias.'
+         st.info(message)
+         df = df_in.drop(columns=set(cols) - set(vars))
+   else:
+      st.error("El archivo introducido no tiene todas las variables necesarias.")
+      return False
+      #sys.exit()
+      
+  
 
    
-#    stdscaler = stdScaler()
-#    df[vars] = stdscaler.fit_transform(df[vars])
 
-#    return df
+   return df
 
 
 # Es necesario añadir esta función al cache para que no se ejecute la predicción cada vez que se actualiza la página.