GitHub - sneha-rangole/DataStreamIQ: DataStreamIQ - A scalable big data pipeline to process unstructured job descriptions (JSON, TXT, PDF) from the City of Los Angeles. Built with PySpark for real-time parsing, AWS S3/Glue/Athena for storage and querying, and Power BI for visualization.

Project Notes: DataStreamIQ - Real-Time Streaming & Processing of Unstructured Data
Student: Sneha Rangole | Group: 1

Project Overview

Objective: Build a scalable pipeline to process unstructured job descriptions (JSON, TXT, PDF) from the City of Los Angeles, enabling structured querying and visualization.
Key Goals:

Data Processing: Transform unstructured data into structured format using PySpark.
Storage: Use AWS S3 for reliable, scalable storage.
Querying: Catalog data with AWS Glue and enable SQL queries via Athena.
Insights: Visualize processed data in Power BI.

Tools & Technologies

PySpark: Real-time processing, UDFs for parsing unstructured data.
AWS S3: Store raw/processed data.
AWS Glue: Data cataloging.
AWS Athena: Query processed data.
Power BI: Visualization.

Workflow

Ingestion: Collect data from JSON, TXT, and PDF files.
Processing:
- PySpark UDFs: Extract fields (salary, dates, requirements) using regex.
- Unified Schema: Standardize data across formats.
Storage: Save raw/processed data to S3 in Parquet format.
Cataloging: Use AWS Glue Crawler to create metadata tables.
Querying: Run SQL queries in Athena for analysis.
Visualization: Export results to Power BI for dashboards.

Code Structure

main.py:
- Sets up Spark Session with AWS credentials.
- Reads streaming data from JSON, TXT, and PDF directories.
- Applies UDFs to extract structured fields (e.g., extract_salary, extract_end_date).
- Unions data from all sources and writes to S3.
udf_utils.py:
- Custom functions for parsing text (e.g., regex patterns for salary ranges, dates).
- Handles PDF text extraction using PyMuPDF.

Challenges & Solutions

Unstructured Data Complexity
- Issue: Varied formats (PDF, JSON, TXT) required flexible parsing.
- Solution: UDFs with regex patterns and PySpark’s schema enforcement.
AWS Permissions
- Issue: Configuring IAM roles and S3 bucket policies.
- Solution: Defined granular permissions for Glue, Athena, and S3 access.
Real-Time Processing
- Issue: Optimizing Spark Streaming for diverse inputs.
- Solution: Checkpointing in S3 and microbatch processing (5-second intervals).

Results

Structured Data Lake: Processed data stored in S3 as Parquet files.
Queryable Catalog: AWS Glue tables enable SQL queries via Athena.
Actionable Dashboards: Power BI visualizations for trends in job postings (e.g., salary ranges, application deadlines).

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
config		config
input		input
.DS_Store		.DS_Store
.gitignore		.gitignore
README.md		README.md
docker-compose.yml		docker-compose.yml
main.py		main.py
udf_utils.py		udf_utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Project Overview

Tools & Technologies

Workflow

Code Structure

Challenges & Solutions

Results

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Project Overview

Tools & Technologies

Workflow

Code Structure

Challenges & Solutions

Results

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages