MathComp

Kaggle Competition: AI Mathematical Olympiad Prize

This repository contains code for my approach to solving complex mathematical problems in LaTeX format using reinforcement learning (RL) and large language models (LLMs).

Overview

The goal of this competition is to develop algorithms and models capable of solving challenging math problems. My approach involves iteratively improving a value function and policy using a reinforcement learning loop similar to that of openAI O1/O3 and DeepSeek R1.

Repository Contents

rl-iterations.sh – Bash script for running the RL training loop.
vllm_gen.py – Generates reasoning paths using beam search, guided by a value function and policy.
train_value.py – Trains the value function using both completed and intermediate reasoning paths.
train_policy.py – Trains the policy using both completed and intermediate reasoning paths.

Name		Name	Last commit message	Last commit date
Latest commit History 91 Commits
10prob_sol.ipynb		10prob_sol.ipynb
FT_HPS.ipynb		FT_HPS.ipynb
FineTune.ipynb		FineTune.ipynb
FineTune_LORA.ipynb		FineTune_LORA.ipynb
PRM RL policy PPO.ipynb		PRM RL policy PPO.ipynb
PRM RL policy copy.ipynb		PRM RL policy copy.ipynb
PRM RL policy.ipynb		PRM RL policy.ipynb
PRM RL.ipynb		PRM RL.ipynb
PRM copy.ipynb		PRM copy.ipynb
PRM.ipynb		PRM.ipynb
PRM_data.ipynb		PRM_data.ipynb
RAG.ipynb		RAG.ipynb
README.md		README.md
Retriver.ipynb		Retriver.ipynb
aimo-code-execution.ipynb		aimo-code-execution.ipynb
aimo-mixtral-baseline.ipynb		aimo-mixtral-baseline.ipynb
aimo-zero-shot-sc-mmos-deepseekmath.ipynb		aimo-zero-shot-sc-mmos-deepseekmath.ipynb
analysis_outputs.ipynb		analysis_outputs.ipynb
beam-local-code copy 2.ipynb		beam-local-code copy 2.ipynb
beam-local-code copy.ipynb		beam-local-code copy.ipynb
beam-local-code-combined.ipynb		beam-local-code-combined.ipynb
beam-local-code.ipynb		beam-local-code.ipynb
beam-local.ipynb		beam-local.ipynb
beam-newprm-code.ipynb		beam-newprm-code.ipynb
beam-newprm.ipynb		beam-newprm.ipynb
beam-prm-completepath.ipynb		beam-prm-completepath.ipynb
beam-prm.ipynb		beam-prm.ipynb
data_normalize.ipynb		data_normalize.ipynb
data_prepare.ipynb		data_prepare.ipynb
deepseekmath-ft.ipynb		deepseekmath-ft.ipynb
functions.py		functions.py
improved-code-interpretation.ipynb		improved-code-interpretation.ipynb
llm.ipynb		llm.ipynb
llm_SoC.ipynb		llm_SoC.ipynb
llm_code.ipynb		llm_code.ipynb
merge-lora-weights.ipynb		merge-lora-weights.ipynb
prepare_embeddings.ipynb		prepare_embeddings.ipynb
rag-llm.ipynb		rag-llm.ipynb
rl-iterations.sh		rl-iterations.sh
save-huggingface-model.ipynb		save-huggingface-model.ipynb
train_policy.py		train_policy.py
train_policy_SFT.py		train_policy_SFT.py
train_policy_SFT3.py		train_policy_SFT3.py
train_policy_logp.py		train_policy_logp.py
train_value.py		train_value.py
train_value3.py		train_value3.py
updated-code-interpretation.ipynb		updated-code-interpretation.ipynb
usepastkeys.ipynb		usepastkeys.ipynb
vllm-code.ipynb		vllm-code.ipynb
vllm-multigpu.ipynb		vllm-multigpu.ipynb
vllm-pure-code.ipynb		vllm-pure-code.ipynb
vllm.ipynb		vllm.ipynb
vllm_gen.py		vllm_gen.py
vllm_gen2.py		vllm_gen2.py
vllm_gen3.py		vllm_gen3.py
vllm_gen_logp.py		vllm_gen_logp.py
vllm_sampleN.ipynb		vllm_sampleN.ipynb
woFineTune_eval.ipynb		woFineTune_eval.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MathComp

Overview

Repository Contents

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

MathComp

Overview

Repository Contents

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages