Olympic Data Analysis & Transformation

This project is an end-to-end data engineering pipeline built using Azure services to process Olympic data. The pipeline extracts raw data from a source, transforms it using Apache Spark (via Azure Databricks), stores the data in Azure Data Lake Storage, and performs analytical queries using Azure Synapse Analytics. Finally, the processed data is visualized through a dashboard built in Power BI.

Project Objectives:

Extracted Olympic data from a source
Performed data transformations using Apache Spark in Azure Databricks.
Stored both raw and transformed data in Azure Data Lake Storage.
Analyzed the data using Azure Synapse Analytics and create an interactive dashboard.

Steps:

1. Data Extraction:

Data is extracted from the source using Azure Data Factory and stored in Azure Data Lake Storage.

2. Data Transformation:

Data is transformed using Apache Spark in Azure Databricks. The script handles tasks such as:
- Identifying top countries with the highest number of gold medals.
- Calculating gender-based statistics (entries by gender).
The transformed data is saved back to Azure Data Lake Storage.

3. Data Analysis:

Performed data analysis on the transformed data using Azure Synapse Analytics, where SQL queries can be run to explore the data.

Technologies Used:

Azure Data Factory: For extracting data.
Azure Databricks: For transforming data using Apache Spark.
Azure Data Lake Storage: For storing raw and transformed data.
Azure Synapse Analytics: For querying and analyzing data.
Power BI/Tableau: For creating dashboards.

How to Run:

Set up your Azure environment (Azure Data Factory, Databricks, Data Lake Storage).
Use the provided Olympic-data-transformation.py script in Azure Databricks to process the data.
Run the SQL scripts in Azure Synapse Analytics to perform analytical queries.

License:

This project is licensed under the MIT License - see the LICENSE file for details.

Name		Name	Last commit message	Last commit date
Latest commit History 45 Commits
data		data
Olympic-data-analysis.sql		Olympic-data-analysis.sql
Olympic-data-transformation.py		Olympic-data-transformation.py
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Olympic Data Analysis & Transformation

Project Objectives:

Steps:

1. Data Extraction:

2. Data Transformation:

3. Data Analysis:

Technologies Used:

How to Run:

License:

About

Uh oh!

Releases

Packages

Languages

miladkhanlou/Olympic-data-pipeline

Folders and files

Latest commit

History

Repository files navigation

Olympic Data Analysis & Transformation

Project Objectives:

Steps:

1. Data Extraction:

2. Data Transformation:

3. Data Analysis:

Technologies Used:

How to Run:

License:

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages