BlazeWild

Follow

🎯

Focusing

Asok BK BlazeWild

🎯

Focusing

Follow

Computer Vision and Research | Video Processing, Tracking

14 followers · 14 following

Achievements

Achievements

Highlights

Pro

BlazeWild/README.md

🔬 AI Researcher from Nepal | Computer Vision & Multimodal Learning

🔬 Research Focus

🎥 Multimodal Video Captioning - Audio-Visual understanding
👁️ Computer Vision - 3D Reconstruction, Pose Estimation
🤖 Vision Transformers - Attention mechanisms for visual tasks
📊 Deep Learning Research - PyTorch implementations
🌐 Portfolio | 📧 ashokbk215@gmail.com

🌟 Research Projects

🛠️ Research Stack

📊 GitHub Statistics

🏆 GitHub Trophies

📈 Contribution Graph

🤝 Connect With Me

<🤝 Connect

"Researching multimodal AI systems for real-world applications"

Pinned Loading

Real-Time-Motion-Transfer-to-a-3D-Avatar Real-Time-Motion-Transfer-to-a-3D-Avatar Public

Real-time human pose detection and motion transfer to 3D avatars using MediaPipe, DNN, and Three.js — supports webcam and video inputs with custom avatar integration.

Python 19 7
Custom_LLM_DataGen_Template Custom_LLM_DataGen_Template Public

🔧 Modular pipeline for generating high-quality, domain-specific datasets for LLM fine-tuning — from PDFs and web scraping to synthetic Q&A generation, quality filtering, and training-ready formatting.

Python 2 1
Hav-Cocap Hav-Cocap Public

Hav-Cocap: Hybrid Audio-Visual Compressed Video Captioning framework. Extends CoCap with an Audio Encoder and evaluated on the AVCaps dataset.

Jupyter Notebook
Blaze2Cap_AI_Motioner Blaze2Cap_AI_Motioner Public

3D Human Pose Estimation: BlazePose to TotalCapture Motion Dataset Pipeline with PyTorch DataLoader for motion capture research and machine learning

Python 2
GPT_FROM_SCRATCH GPT_FROM_SCRATCH Public

Minimal GPT implementation from scratch using PyTorch — trains a character-level transformer on the Tiny Shakespeare dataset to demonstrate core LLM concepts.

Jupyter Notebook
MV_MAE MV_MAE Public

MV-MAE is a hierarchical video model that leverages motion vectors and I-frames from compressed videos to efficiently learn masked motion representations for accurate UAV action recognition.

Python