📚 LLMs vs. SweSAT – Andon Labs Hackathon 2025

This repo contains our work from the Andon Labs Hackathon at Linköping University, where we evaluated LLMs on SweSAT (Högskoleprovet) question types.

🧠 Models Evaluated

openai/gpt-4o-mini
openai/gpt-4o
anthropic/claude-3-5-haiku-latest
anthropic/claude-3-5-sonnet-latest
o1-mini

📄 Dataset

Questions sourced from: 👉 github.com/ViktorAlm/HP

Covers:

Reading Comprehension (RC) – SV & EN
Sentence Completion (MEK) – SV & EN
Vocabulary (Words) – SV only

📊 Results

Detailed Performance

Aggregated Accuracy

🏆 Findings

GPT-4o and Claude 3.5 Sonnet consistently outperformed others.
LLMs are nearing human-level performance on standardized tests.
Prompt quality had a notable impact on accuracy.

📌 Summary

Can an LLM pass the SweSAT? For some question types, yes—especially with the right prompt and a top-tier model.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
assets		assets
data		data
.gitignore		.gitignore
HP_eval_System.py		HP_eval_System.py
README.md		README.md
requirements.txt		requirements.txt
sys_prompt.json		sys_prompt.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

📚 LLMs vs. SweSAT – Andon Labs Hackathon 2025

🧠 Models Evaluated

📄 Dataset

📊 Results

🏆 Findings

📌 Summary

About

Uh oh!

Releases

Packages

Uh oh!

Languages

oscarhoffmann3487/SweSAT_LLM_Benchmark

Folders and files

Latest commit

History

Repository files navigation

📚 LLMs vs. SweSAT – Andon Labs Hackathon 2025

🧠 Models Evaluated

📄 Dataset

📊 Results

🏆 Findings

📌 Summary

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages