关于复杂的评测指标 #243
RingoTC
started this conversation in
Show and tell
关于复杂的评测指标
#243
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
pykt 的 wandb_predict.py 会报很多个指标。
这里真的非常非常非常让人困惑😕,读了两篇论文 + 代码 + 几个issue 后,应该是可以得出结论了。(得写文档啊!!!
examples/wandb_predict.py
pykt/models/evaluate_model.py
pykt/utils/wandb_utils.py
和论文给出的答案
以及参考了几个github issue
#185
#144
#120
比如
pykt的评测手段可以分为两个切面
如果是知识点层面,又涉及到知识点如何整合成问题(也就是几种 fusion方式)
这里其实很奇怪,论文里完全没提到报的结果是用这种 window 的方式得到的。这也不是之前很多论文会选择的一种评估方式。所谓 window 的评估方式,就是使用滑动窗口,比如我们maxlen是 200,我们预测 201 的时候,这里已经超过了maxlen,是拿 1-200 去预测,同理 202位置是用 2-201 去预测。
所谓硬切分,就是把超过 maxlen 的序列拆成多个序列,然后预测,这也是 AKT 原文的做法。这里对应的就是 ori 前缀。
论文里报的方法(推荐的 All In One 的评估方式),应该是 windowauclate_mean(如果有知识点的话),所以大家关注这个指标就好了。
此外 wandb_eval.py 是做多步预测,也就是模型不再是 teacher forcing的方式去逐步修正误差,而是在若干步之后就不再告诉真实值,拿模型的预测值当真实值进行预测。
Beta Was this translation helpful? Give feedback.
All reactions