关于复杂的评测指标 #243

RingoTC · 2025-05-02T12:00:55Z

RingoTC
May 2, 2025

pykt 的 wandb_predict.py 会报很多个指标。
这里真的非常非常非常让人困惑😕，读了两篇论文 + 代码 + 几个issue 后，应该是可以得出结论了。（得写文档啊！！！

examples/wandb_predict.py
pykt/models/evaluate_model.py
pykt/utils/wandb_utils.py
和论文给出的答案

以及参考了几个github issue
#185
#144
#120

比如

{'testauc': 0.9188002221943278, 'testacc': 0.8678735316393662, 'window_testauc': 0.9201199409709553, 'window_testacc': 0.868663798838086, 'oriaucconcepts': 0.807274877304899, 'oriauclate_mean': 0.807413805143088, 'oriauclate_vote': 0.8049668720325175, 'oriauclate_all': 0.8058672455891169, 'oriaccconcepts': 0.7851768050790059, 'oriacclate_mean': 0.807144009898327, 'oriacclate_vote': 0.8066383344988972, 'oriacclate_all': 0.8018075205766851, 'windowaucconcepts': 0.8093884777107377, 'windowauclate_mean': 0.8101170671331457, 'windowauclate_vote': 0.8078638216548034, 'windowauclate_all': 0.8085259538001138, 'windowaccconcepts': 0.7864040341303994, 'windowacclate_mean': 0.808367475743734, 'windowacclate_vote': 0.8078753971395257, 'windowacclate_all': 0.8028583348487928}

pykt的评测手段可以分为两个切面

是问题层面评估还是知识点层面（也就是是否要按照知识点对序列进行展开）
如果是知识点层面，又涉及到知识点如何整合成问题（也就是几种 fusion方式）

testauc，window_testauc 这就是问题层面的评估，也就是按照问题的 id 构造序列，然后预测。
oriaucconcepts，windowaucconcepts 这就是知识点层面的评估。但是计算 AUC 是直接把题目拆成若干个不同的知识点（当做不同的题目）。
oriauclate_mean 同样是知识点层面的评估，但是不同的是，几个知识点的预测结果会用平均、投票等方法得到对题目整体的预测。

是用 window 还是硬切分
这里其实很奇怪，论文里完全没提到报的结果是用这种 window 的方式得到的。这也不是之前很多论文会选择的一种评估方式。所谓 window 的评估方式，就是使用滑动窗口，比如我们maxlen是 200，我们预测 201 的时候，这里已经超过了maxlen，是拿 1-200 去预测，同理 202位置是用 2-201 去预测。

所谓硬切分，就是把超过 maxlen 的序列拆成多个序列，然后预测，这也是 AKT 原文的做法。这里对应的就是 ori 前缀。

论文里报的方法（推荐的 All In One 的评估方式），应该是 windowauclate_mean（如果有知识点的话），所以大家关注这个指标就好了。

此外 wandb_eval.py 是做多步预测，也就是模型不再是 teacher forcing的方式去逐步修正误差，而是在若干步之后就不再告诉真实值，拿模型的预测值当真实值进行预测。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

关于复杂的评测指标 #243

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

关于复杂的评测指标 #243

Uh oh!

Uh oh!

RingoTC May 2, 2025

Replies: 0 comments

RingoTC
May 2, 2025