SubaashNair
diff --git a/‎docs/_config.yml‎
Lines changed: 27 additions & 0 deletions b/‎docs/_config.yml‎
Lines changed: 27 additions & 0 deletions
diff --git a/‎docs/api-reference.md‎
Lines changed: 194 additions & 0 deletions b/‎docs/api-reference.md‎
Lines changed: 194 additions & 0 deletions
diff --git a/‎docs/examples.md‎
Lines changed: 166 additions & 0 deletions b/‎docs/examples.md‎
Lines changed: 166 additions & 0 deletions
@@ -0,0 +1,27 @@
+title: StatClean Documentation
+description: Comprehensive statistical data preprocessing and outlier detection library
+theme: minima
+url: "https://subaashnair.github.io"
+baseurl: "/StatClean"
+
+plugins:
+  - jekyll-feed
+  - jekyll-sitemap
+
+markdown: kramdown
+highlighter: rouge
+
+navigation:
+  - title: Home
+    url: /
+  - title: API Reference
+    url: /api-reference
+  - title: Statistical Methods
+    url: /statistical-methods
+  - title: Examples
+    url: /examples
+  - title: Installation
+    url: /installation
+
+github:
+  repository_url: "https://github.com/SubaashNair/StatClean"
@@ -0,0 +1,194 @@
+# API Reference
+
+## StatClean Class
+
+### Initialization
+
+```python
+StatClean(df=None, preserve_index=True)
+```
+
+**Parameters:**
+- `df` (pandas.DataFrame, optional): The DataFrame to clean
+- `preserve_index` (bool, default=True): Whether to preserve original index
+
+### Detection Methods
+
+#### `detect_outliers_iqr(column, lower_factor=1.5, upper_factor=1.5)`
+Detect outliers using the Interquartile Range method.
+
+**Parameters:**
+- `column` (str): Column name to analyze
+- `lower_factor` (float): Lower bound multiplier for IQR
+- `upper_factor` (float): Upper bound multiplier for IQR
+
+**Returns:**
+- `pandas.Series`: Boolean mask indicating outliers
+
+#### `detect_outliers_zscore(column, threshold=3.0)`
+Detect outliers using Z-score method.
+
+**Parameters:**
+- `column` (str): Column name to analyze  
+- `threshold` (float): Z-score threshold for outlier detection
+
+**Returns:**
+- `pandas.Series`: Boolean mask indicating outliers
+
+#### `detect_outliers_modified_zscore(column, threshold=3.5)`
+Detect outliers using Modified Z-score (MAD-based) method.
+
+**Parameters:**
+- `column` (str): Column name to analyze
+- `threshold` (float): Modified Z-score threshold
+
+**Returns:**
+- `pandas.Series`: Boolean mask indicating outliers
+
+#### `detect_outliers_mahalanobis(columns, chi2_threshold=0.95)`
+Detect multivariate outliers using Mahalanobis distance.
+
+**Parameters:**
+- `columns` (list): List of column names for multivariate analysis
+- `chi2_threshold` (float): Chi-square threshold percentile
+
+**Returns:**
+- `pandas.Series`: Boolean mask indicating outliers
+
+### Treatment Methods
+
+#### `remove_outliers_iqr(column, lower_factor=1.5, upper_factor=1.5)`
+Remove outliers using IQR method.
+
+**Returns:**
+- `StatClean`: Self (enables method chaining)
+
+#### `remove_outliers_zscore(column, threshold=3.0)`
+Remove outliers using Z-score method.
+
+**Returns:**
+- `StatClean`: Self (enables method chaining)
+
+#### `winsorize_outliers_iqr(column, lower_factor=1.5, upper_factor=1.5)`
+Cap outliers at IQR bounds instead of removing.
+
+**Returns:**
+- `StatClean`: Self (enables method chaining)
+
+### Statistical Testing
+
+#### `grubbs_test(column, alpha=0.05, two_sided=True)`
+Perform Grubbs' test for outliers with statistical significance.
+
+**Parameters:**
+- `column` (str): Column name to test
+- `alpha` (float): Significance level
+- `two_sided` (bool): Whether to perform two-sided test
+
+**Returns:**
+- `dict`: Test results including p-value, test statistic, critical value
+
+#### `dixon_q_test(column, alpha=0.05)`
+Perform Dixon's Q-test for small samples (n < 30).
+
+**Parameters:**
+- `column` (str): Column name to test
+- `alpha` (float): Significance level
+
+**Returns:**
+- `dict`: Test results including Q-statistic, critical value, p-value
+
+### Data Transformations
+
+#### `transform_boxcox(column, lambda_param=None)`
+Apply Box-Cox transformation with automatic lambda estimation.
+
+**Parameters:**
+- `column` (str): Column name to transform
+- `lambda_param` (float, optional): Transformation parameter
+
+**Returns:**
+- `dict`: Transformation results including optimal lambda
+
+#### `recommend_transformation(column)`
+Automatically recommend best transformation based on distribution.
+
+**Parameters:**
+- `column` (str): Column name to analyze
+
+**Returns:**
+- `dict`: Recommendations including best transformation and improvement metrics
+
+### Analysis Methods
+
+#### `analyze_distribution(column)`
+Comprehensive distribution analysis with statistical tests.
+
+**Parameters:**
+- `column` (str): Column name to analyze
+
+**Returns:**
+- `dict`: Distribution analysis including skewness, kurtosis, normality test
+
+#### `compare_methods(columns, methods=['iqr', 'zscore', 'modified_zscore'])`
+Compare agreement between different detection methods.
+
+**Parameters:**
+- `columns` (list): Column names to compare
+- `methods` (list): Detection methods to compare
+
+**Returns:**
+- `dict`: Method comparison results and agreement statistics
+
+### Visualization
+
+#### `plot_outlier_analysis(columns=None, figsize=(15, 5))`
+Generate comprehensive outlier analysis plots.
+
+**Parameters:**
+- `columns` (list, optional): Columns to plot (defaults to all numeric)
+- `figsize` (tuple): Base figure size for each subplot
+
+**Returns:**
+- `dict`: Dictionary of matplotlib figures keyed by column names
+
+### Utility Methods
+
+#### `get_outlier_stats(columns=None, include_indices=False)`
+Get comprehensive outlier statistics without removing data.
+
+**Parameters:**
+- `columns` (list, optional): Columns to analyze
+- `include_indices` (bool): Whether to include outlier indices
+
+**Returns:**
+- `pandas.DataFrame`: Statistics for each column and method
+
+#### `set_thresholds(**kwargs)`
+Configure default thresholds for detection methods.
+
+**Parameters:**
+- `iqr_lower_factor` (float): IQR lower bound multiplier
+- `iqr_upper_factor` (float): IQR upper bound multiplier  
+- `zscore_threshold` (float): Z-score threshold
+- `modified_zscore_threshold` (float): Modified Z-score threshold
+
+**Returns:**
+- `StatClean`: Self (enables method chaining)
+
+## Utility Functions
+
+### `plot_outliers(data, outliers, title="Outlier Analysis", figsize=(10, 6))`
+Create scatter plot highlighting outliers.
+
+### `plot_distribution(data, outliers, title="Distribution Analysis", figsize=(10, 6))`
+Plot KDE distribution with outlier separation.
+
+### `plot_boxplot(data, outliers, title="Box Plot Analysis", figsize=(10, 6))`
+Enhanced box plot with outlier overlay.
+
+### `plot_qq(data, outliers, title="Q-Q Plot", figsize=(10, 6))`
+Q-Q plot for normality assessment.
+
+### `plot_outlier_analysis(data, outliers, title="Comprehensive Analysis", figsize=(12, 10))`
+2x2 comprehensive analysis dashboard.
@@ -0,0 +1,166 @@
+# Examples
+
+## Quick Start Example
+
+```python
+import pandas as pd
+from statclean import StatClean
+
+# Sample data with outliers
+df = pd.DataFrame({
+    'income': [25000, 30000, 35000, 40000, 500000, 45000, 50000],
+    'age': [25, 30, 35, 40, 35, 45, 50]
+})
+
+# Initialize StatClean
+cleaner = StatClean(df)
+
+# Basic outlier removal
+cleaner.remove_outliers_zscore('income')
+cleaned_df = cleaner.clean_df
+
+print(f"Original shape: {df.shape}")
+print(f"Cleaned shape: {cleaned_df.shape}")
+```
+
+## Statistical Testing Example
+
+```python
+# Formal statistical testing
+grubbs_result = cleaner.grubbs_test('income', alpha=0.05)
+print(f"P-value: {grubbs_result['p_value']:.6f}")
+print(f"Outlier detected: {grubbs_result['outlier_detected']}")
+
+# Dixon's Q-test for small samples
+dixon_result = cleaner.dixon_q_test('age', alpha=0.05)
+print(f"Q-statistic: {dixon_result['q_statistic']:.3f}")
+```
+
+## Multivariate Analysis Example
+
+```python
+# Mahalanobis distance for multivariate outliers
+outliers = cleaner.detect_outliers_mahalanobis(['income', 'age'])
+print(f"Multivariate outliers detected: {outliers.sum()}")
+
+# Remove multivariate outliers
+cleaner.remove_outliers_mahalanobis(['income', 'age'])
+```
+
+## Data Transformation Example
+
+```python
+# Automatic transformation recommendation
+recommendation = cleaner.recommend_transformation('income')
+print(f"Best transformation: {recommendation['best_transformation']}")
+
+# Apply Box-Cox transformation
+transformed = cleaner.transform_boxcox('income')
+print(f"Optimal lambda: {transformed['lambda']:.3f}")
+```
+
+## Method Chaining Example
+
+```python
+# Fluent API with method chaining
+result = (cleaner
+          .set_thresholds(zscore_threshold=2.5)
+          .add_zscore_columns(['income'])
+          .winsorize_outliers_iqr('income')
+          .clean_df)
+```
+
+## Comprehensive Analysis Example
+
+```python
+# Distribution analysis
+analysis = cleaner.analyze_distribution('income')
+print(f"Skewness: {analysis['skewness']:.3f}")
+print(f"Recommended method: {analysis['recommended_method']}")
+
+# Compare detection methods
+comparison = cleaner.compare_methods(['income'])
+print("Method Agreement:")
+for method, stats in comparison['income']['method_stats'].items():
+    print(f"  {method}: {stats['outliers_detected']} outliers")
+```
+
+## Visualization Example
+
+```python
+import matplotlib.pyplot as plt
+
+# Comprehensive analysis plots
+figures = cleaner.plot_outlier_analysis(['income', 'age'])
+
+# Individual visualization components
+from statclean.utils import plot_outliers, plot_distribution
+
+outliers = cleaner.detect_outliers_zscore('income')
+plot_outliers(df['income'], outliers, title='Income Analysis')
+plot_distribution(df['income'], outliers, title='Income Distribution')
+
+plt.show()
+```
+
+## Real Dataset Example
+
+```python
+from sklearn.datasets import fetch_california_housing
+import pandas as pd
+from statclean import StatClean
+
+# Load California Housing dataset
+housing = fetch_california_housing()
+df = pd.DataFrame(housing.data, columns=housing.feature_names)
+df['PRICE'] = housing.target
+
+print(f"Dataset shape: {df.shape}")
+
+# Initialize with index preservation
+cleaner = StatClean(df, preserve_index=True)
+
+# Analyze key features
+features = ['MedInc', 'AveRooms', 'PRICE']
+for feature in features:
+    analysis = cleaner.analyze_distribution(feature)
+    print(f"\n{feature} Analysis:")
+    print(f"  Skewness: {analysis['skewness']:.3f}")
+    print(f"  Recommended method: {analysis['recommended_method']}")
+
+# Comprehensive cleaning
+cleaned_df, info = cleaner.clean_columns(
+    columns=features,
+    method='auto',
+    show_progress=True
+)
+
+print(f"\nResults:")
+print(f"Original: {df.shape}")
+print(f"Cleaned: {cleaned_df.shape}")
+```
+
+## Advanced Statistical Example
+
+```python
+# Batch processing with detailed reporting
+columns_to_clean = ['MedInc', 'AveRooms', 'Population', 'PRICE']
+
+# Get outlier statistics without removal
+stats = cleaner.get_outlier_stats(columns_to_clean, include_indices=True)
+print(stats)
+
+# Apply custom cleaning strategy
+strategy = {
+    'MedInc': {'method': 'modified_zscore', 'threshold': 3.0},
+    'AveRooms': {'method': 'iqr', 'lower_factor': 2.0, 'upper_factor': 2.0},
+    'Population': {'method': 'zscore', 'threshold': 2.5},
+    'PRICE': {'method': 'auto'}
+}
+
+cleaned_df = cleaner.apply_cleaning_strategy(strategy)
+
+# Generate summary report
+report = cleaner.get_summary_report()
+print(report)
+```