Merge pull request #7 from calculquebec/rev-tech-summary

dlq · web-flow · commit fffc1d677745 · 2025-09-18T10:10:14.000-04:00
Révision des résumés techniques
diff --git a/src/01-dataframe.ipynb b/src/01-dataframe.ipynb
@@ -166,7 +166,7 @@
    "outputs": [],
    "source": [
     "# Note that pd.read_csv is used because we imported pandas as pd\n",
-    "surveys_df = pd.read_csv(\"../data/surveys.csv\")"
+    "surveys_df = pd.read_csv('../data/surveys.csv')"
    ]
   },
   {
@@ -182,7 +182,7 @@
    "outputs": [],
    "source": [
     "# Note that pd.read_csv is used because we imported pandas as pd\n",
-    "pd.read_csv(\"../data/surveys.csv\")"
+    "pd.read_csv('../data/surveys.csv')"
    ]
   },
   {
@@ -972,14 +972,21 @@
     "  * **Sélection** : `df['nom_colonne']`\n",
     "  * **Méthodes** :\n",
     "    * Statistiques descriptives :\n",
-    "      `count()`, `mean()`, `std()`, `min()`, `median()`, `max()`\n",
-    "    * Autres : `describe()`, `nunique()`, `unique()`\n",
+    "      * `count()`, `mean()`, `std()`\n",
+    "      * `min()`, `median()`, `max()`\n",
+    "      * `nunique()`, `unique()`\n",
+    "    * Sommaire statistique : `describe()`\n",
     "* **Grouper selon les valeurs** d'une ou plusieurs colonnes :\n",
     "  * `groupby(nom_col)`\n",
     "  * `groupby([nom_col1, nom_col2])`\n",
+    "  * Statistiques descriptives : `aggregate([fonction1, ...])`\n",
     "* **Tableaux croisés dynamiques**\n",
     "  * Transformation selon les valeurs de l'index : `unstack()`\n",
-    "  * Aggrégation dans un tableau croisé dynamique : `pivot_table()`"
+    "  * Aggrégation dans un tableau croisé dynamique : `pivot_table()`\n",
+    "    * `values=colX`\n",
+    "    * `index=[col_ind]`\n",
+    "    * `columns=[categorie1, categorie2]`\n",
+    "    * `aggfunc=fonction` (défaut: moyenne)"
    ]
   },
   {
@@ -1001,14 +1008,21 @@
     "  * **Selection**: `df['column_name']`\n",
     "  * **Methods**:\n",
     "    * Descriptive statistics:\n",
-    "      `count()`, `mean()`, `std()`, `min()`, `median()`, `max()`\n",
-    "    * Others: `describe()`, `nunique()`, `unique()`\n",
+    "      * `count()`, `mean()`, `std()`\n",
+    "      * `min()`, `median()`, `max()`\n",
+    "      * `nunique()`, `unique()`\n",
+    "    * Statistical summary: `describe()`\n",
     "* **Grouping by values** of one or many columns:\n",
     "  * `groupby(column_name)`\n",
     "  * `groupby([column_name1, column_name2])`\n",
+    "  * Descriptive statistics: `aggregate([function1, ...])`\n",
     "* **Pivot tables**\n",
     "  * Reshaping a DataFrame from values in the index: `unstack()`\n",
-    "  * Aggregation in a pivot table: `pivot_table()`"
+    "  * Aggregation in a pivot table: `pivot_table()`\n",
+    "    * `values=colX`\n",
+    "    * `index=[col_ind]`\n",
+    "    * `columns=[category1, category2]`\n",
+    "    * `aggfunc=function` (default: mean)"
    ]
   },
   {
diff --git a/src/02-selection.ipynb b/src/02-selection.ipynb
@@ -77,7 +77,7 @@
     "import pandas as pd\n",
     "\n",
     "# Charger les données\n",
-    "surveys_df = pd.read_csv(\"../data/surveys.csv\")"
+    "surveys_df = pd.read_csv('../data/surveys.csv')"
    ]
   },
   {
@@ -93,7 +93,7 @@
     "import pandas as pd\n",
     "\n",
     "# Read in the survey csv\n",
-    "surveys_df = pd.read_csv(\"../data/surveys.csv\")"
+    "surveys_df = pd.read_csv('../data/surveys.csv')"
    ]
   },
   {
diff --git a/src/03-format.ipynb b/src/03-format.ipynb
@@ -71,7 +71,7 @@
     "import pandas as pd\n",
     "\n",
     "# Charger les données\n",
-    "surveys_df = pd.read_csv(\"../data/surveys.csv\")"
+    "surveys_df = pd.read_csv('../data/surveys.csv')"
    ]
   },
   {
@@ -87,7 +87,7 @@
     "import pandas as pd\n",
     "\n",
     "# Read in the survey csv\n",
-    "surveys_df = pd.read_csv(\"../data/surveys.csv\")"
+    "surveys_df = pd.read_csv('../data/surveys.csv')"
    ]
   },
   {
@@ -652,18 +652,14 @@
    },
    "source": [
     "## Résumé technique\n",
-    "* **Gestion des types**\n",
-    "    * Pour un **DataFrame** :\n",
-    "        * Attributs : `dtypes`\n",
-    "    * Pour une **série** (colonne) :\n",
-    "        * Attributs : `dtype`\n",
-    "        * Méthodes : `astype()`\n",
+    "* **Statistique descriptive par groupes selon l'index de** `df`\n",
+    "    * `df.groupby()[colonne].transform(fonction)`\n",
     "* **Nettoyage**\n",
     "    * `df.copy()`\n",
     "    * `isna()`, `notna()`\n",
     "    * `colonne.fillna(valeur, inplace=True)`\n",
     "* **Sauvegarde**\n",
-    "    * `df.to_csv(nom_csv, index=False)`"
+    "    * `df.to_csv(nom_csv, index)`"
    ]
   },
   {
@@ -674,18 +670,14 @@
    },
    "source": [
     "## Technical Summary\n",
-    "* **Managing data types**\n",
-    "    * For a **DataFrame**:\n",
-    "        * Attribute: `dtypes`\n",
-    "    * For a **Series** (column):\n",
-    "        * Attribute: `dtype`\n",
-    "        * Method: `astype()`\n",
+    "* **Descriptive statistic by groups with the index of** `df`\n",
+    "    * `df.groupby()[column].transform(function)`\n",
     "* **Cleaning data**\n",
     "    * `df.copy()`\n",
     "    * `isna()`, `notna()`\n",
     "    * `column.fillna(value, inplace=True)`\n",
     "* **Saving a DataFrame**\n",
-    "    * `df.to_csv(csv_filename, index=False)`"
+    "    * `df.to_csv(csv_filename, index)`"
    ]
   },
   {
diff --git a/src/04-combine.ipynb b/src/04-combine.ipynb
@@ -1244,14 +1244,9 @@
     "  * Réinitialiser l'index au besoin : `reset_index(drop=True)`\n",
     "* **Joindre** des DataFrames avec `pandas.merge()`\n",
     "  * `left=`, `right=` : les deux DataFrames à joindre\n",
-    "  * `left_on=`, `right_on=` : les clés de jonction de chaque DataFrame\n",
-    "  * `on=` : clés de jonction communes aux deux DataFrames\n",
     "  * `how=` : `'inner'` (défaut), `'left'`, `'right'`, `'outer'`\n",
-    "* **Table de pivot** : `pivot_table()`\n",
-    "  * `values=colX`\n",
-    "  * `index=[col_ind]`\n",
-    "  * `columns=[categorie1, categorie2]`\n",
-    "  * `aggfunc=numpy.mean` (défaut: moyenne)"
+    "  * `left_on=`, `right_on=` : les clés de jonction de chaque DataFrame\n",
+    "  * `on=` : clés de jonction communes aux deux DataFrames"
    ]
   },
   {
@@ -1269,14 +1264,9 @@
     "  * Resetting the index: `reset_index(drop=True)`\n",
     "* **Joining** DataFrames with `pandas.merge()`\n",
     "  * `left=`, `right=`: both DataFrames to join\n",
-    "  * `left_on=`, `right_on=`: join key for each DataFrame\n",
-    "  * `on=`: join key for both DataFrames\n",
     "  * `how=`: `'inner'` (default), `'left'`, `'right'`, `'outer'`\n",
-    "* **Pivot table**  `pivot_table()`\n",
-    "  * `values=colX`\n",
-    "  * `index=[col_ind]`\n",
-    "  * `columns=[category1, category2]`\n",
-    "  * `aggfunc=numpy.mean` (default: mean)"
+    "  * `left_on=`, `right_on=`: join key for each DataFrame\n",
+    "  * `on=`: join key for both DataFrames"
    ]
   },
   {

Original file line number	Diff line number	Diff line change
`@@ -77,7 +77,7 @@`
`77`	`77`	`"import pandas as pd\n",`
`78`	`78`	`"\n",`
`79`	`79`	`"# Charger les données\n",`
`80`		`- "surveys_df = pd.read_csv(\"../data/surveys.csv\")"`
	`80`	`+ "surveys_df = pd.read_csv('../data/surveys.csv')"`
`81`	`81`	`]`
`82`	`82`	`},`
`83`	`83`	`{`
`@@ -93,7 +93,7 @@`
`93`	`93`	`"import pandas as pd\n",`
`94`	`94`	`"\n",`
`95`	`95`	`"# Read in the survey csv\n",`
`96`		`- "surveys_df = pd.read_csv(\"../data/surveys.csv\")"`
	`96`	`+ "surveys_df = pd.read_csv('../data/surveys.csv')"`
`97`	`97`	`]`
`98`	`98`	`},`
`99`	`99`	`{`