📧 Spam Email Classifier – Advanced NLP/ NLU with Balanced Sampling

Individual Project 02
Machine Learning with Advanced Python
Infotech College of Business & IT

A robust Spam Email Classification System that leverages Natural Language Processing (NLP/ NLU) and Machine Learning techniques to distinguish spam from legitimate emails.
This project meticulously explores two data balancing strategies: Random Downsampling and SMOTE (Synthetic Minority Oversampling Technique), evaluating their impact on classification performance.

🚀 Project Highlights

🔎 Exploratory Data Analysis (EDA): Clear visualization of spam vs. ham email distributions.
🧹 Data Preprocessing: Text cleaning and TF-IDF vectorization using scikit-learn.
⚖️ Class Balancing Strategies:
- 📉 Random Downsampling
  - Reducing Majority class samples to achieve balance.
  - Matched with Minor class, 1368 per each.
- 🔬 SMOTE
  - Generating synthetic Minority class samples for balance.
  - Synthetically geberated and matched with Major class 4360 per each
🤖 Machine Learning Model: Logistic Regression trained on TF-IDF features.
📊 Evaluation Metrics: Accuracy, Precision, Recall, F1-score, and Confusion Matrix visualizations.

Class Imbalance between Spam (1) vs. Not-Spam (0) categories

🛠️ Tech Stack

Languages: Python 🐍
Libraries: Pandas, NumPy, scikit-learn, spaCy, Imbalanced-learn, Matplotlib, Seaborn
Notebook Environment: Jupyter
IDE: Visual Studio Code with Anaconda Distribution

📂 Repository Structure

ML_Projects_Spam_Email_Classifier
|
├── 1_data/
│    ├── email.csv
│    ├── validation_dataset.csv
|
├── 2_notebooks/
│    ├── project_02_spam_email-classifier_F_downsampled.ipynb # Downsampling approach
│    ├── project_02_spam_email-classifier_F_SMOTE.ipynb # SMOTE approach
|    ├── requirements.txt # Dependencies
|
├── 3_models/
│    ├── spam_email_classifier_model_downsampled.h5
│    ├── spam_email_classifier_model_smote.h5
|
├── 4_visualizations/
│    ├── 1_test_data/
│           ├── Classification reports, confusion matrices, Accuracy, Precision, Recall, F1_Scores
│    ├── 2_validation_data/
│           ├── Classification reports, confusion matrices, Accuracy, Precision, Recall, F1_Scores
|
├── LICENSE.md # MIT License
└── README.md # Project documentation

⚖️ Model Comparison

Method	Strengths ✨	Weaknesses ⚠️	Best Use Case
Downsampling	Fast, avoids synthetic data bias	Data loss, weaker performance on small datasets	When dataset is very large
SMOTE	Retains all data, balances intelligently	Risk of overfitting, slower on big data	When dataset is imbalanced but limited

📈 Model Performance and Evaluation (Both Random Downsampling and SMOTE)

- Confusion matrix (TP, TN, FP, FN)
- Classification Reports (Accuracy, Precision, Recall, F1_Score)

⚡ Quick Start

Clone the repository

git clone https://github.com/ThilinaPerera-DataAnalytics/ML_Projects_Spam_Email_Classifier.git
cd ML_Projects_Spam_Email_Classifier

Install dependencies
```
pip install -r requirements.txt
```
Launch Jupyter Notebook
```
jupyter notebook
```

Open either:

* [project_02_spam_email-classifier_F_downsampled.ipynb](2_notebooks\project_02_spam_email-classifier_F_downsampled.ipynb)
* [project_02_spam_email-classifier_F_SMOTE.ipynb](2_notebooks\project_02_spam_email-classifier_F_SMOTE.ipynb)

🔮 Future Enhancements

Integration with Transformers (BERT, DistilBERT) for state-of-the-art NLP.
Deployment as a Flask/FastAPI web service.
Interactive Streamlit dashboard for real-time spam detection.
Model monitoring with MLflow.
Add unit tests and CI/CD pipelines.

🙏 Acknowledgement

Lecturer Mr. Akshan Bandara for guidance & Infotech College staff for resources.
Dataset
- Source: Kaggle Spam Email Dataset
- Size: ~5728 email samples
- Labels:
  - 1 → Spam | 0 → Not Spam (Ham)

👨‍💻 Author

Thilina Perera/ Data with TP

📌 Data Science/ Data Analytics
📌 Machine Learning, Deep Learning, LLM/LMM, NLP, and Automated Data Pipelines Explorer

🔍 LinkedIn | 🔍 GitHub | 🔍 YouTube

🏆 License

This project is licensed under the MIT License – free to use and extend.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
1_data		1_data
2_notebooks		2_notebooks
3_models		3_models
4_visualizations		4_visualizations
.gitignore		.gitignore
LICENSE.md		LICENSE.md
ReadMe.md		ReadMe.md
cover_photo.png		cover_photo.png
image.png		image.png
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

📧 Spam Email Classifier – Advanced NLP/ NLU with Balanced Sampling

🚀 Project Highlights

🛠️ Tech Stack

📂 Repository Structure

⚖️ Model Comparison

📈 Model Performance and Evaluation (Both Random Downsampling and SMOTE)

⚡ Quick Start

🔮 Future Enhancements

🙏 Acknowledgement

👨‍💻 Author

🏆 License

About

Uh oh!

Releases

Packages

Languages

License

ThilinaPerera-DataAnalytics/ML_Projects_Spam_Email_Classifier

Folders and files

Latest commit

History

Repository files navigation

📧 Spam Email Classifier – Advanced NLP/ NLU with Balanced Sampling

🚀 Project Highlights

🛠️ Tech Stack

📂 Repository Structure

⚖️ Model Comparison

📈 Model Performance and Evaluation (Both Random Downsampling and SMOTE)

⚡ Quick Start

🔮 Future Enhancements

🙏 Acknowledgement

👨‍💻 Author

🏆 License

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages