用多个权重确定测验的“难度”?

Posted

技术标签:

【中文标题】用多个权重确定测验的“难度”?【英文标题】:Determine the "difficulty" of quiz with multiple weights? 【发布时间】:2016-12-26 19:15:20 【问题描述】:

我正在尝试确定测验对象的“难度”。

我的最终目标是能够为任何测验创建一个“难度分数” (DS)。这将使我能够准确地将一个测验与另一个测验进行比较,尽管它由不同的问题/答案组成。

在创建我的测验对象时,我为每个问题分配一个“难度指数” (DI),它是从 1 到 15 的数字。

15 = 最困难 1 = 难度最低

现在衡量这个“难度分数”的一种严格的方法可能是将每个问题的“难度指数”相加,然后除以测验的最大可能“难度指数”。 (例如 16/30 = 53.3% 难度)

但是,我也有多个与每个问题相关的 “weighting” 属性。这些权重又是一个 1-5 的比例。

5 = 影响最大 1 = 影响最小

我有(2)而不是更常见的(1)的原因是我可以适应如下场景......

如果向学生提出一个非常困难的问题 (DI=15) 并且学生回答“不正确”,不要让它对他们的分数造成太大影响,但如果他们“正确”得到它,就会大大提高他们的分数。我称这些为我的 “正” (PW) 和 “负” (NW) 权重。

测验示例 A: 问题 1:DI = 1 |密码 = 3 |净重 = 3 问题 2:DI = 1 |密码 = 3 |净重 = 3 问题 3:DI = 1 |密码 = 3 |净重 = 3 问题 4:DI = 15 |密码 = 5 |净重 = 1

测验示例 B: 问题 1:DI = 1 |密码 = 3 |净重 = 3 问题 2:DI = 1 |密码 = 3 |净重 = 3 问题 3:DI = 1 |密码 = 3 |净重 = 3 问题 4:DI = 15 |密码 = 1 |净重 = 5

从技术上讲,以上两个测验非常相似,但测验 B 应该更“难”,因为如果你做错了,最难的问题会对你的分数产生最大的影响。

我现在的问题是在考虑复杂的加权系统时如何准确确定“难度分数”?

非常感谢任何帮助!

【问题讨论】:

这些问题是选择题吗?我之所以问是因为模型会有所不同:在多项选择测验中,最难的问题仍然有 1/x 的机会通过猜测获得正确答案。此外,对于多项选择题,分数是全有或全无。 就我而言,问题将是“单一”选择。喜欢“真或假”或选择“a、b、c 或 d”。只有一个选项是正确的。我确实明白你的意思,选择的选项越多也会增加问题的难度。 您的权重系统表明,有时不回答比给出错误答案更好(例如,当 PW=1 和 NW=5 时)。是这样,还是“没有答案”=“错误答案”? 附带说明:您还可以根据答对的人数百分比来更改问题的难度分数。 (我记得我在学习 C 时编写了一个这样的在线测验;好时光 :-) @m69 - 这确实有助于纠正在设置问题的“难度指数”时所犯的任何错误,但它依赖于学生参加测验。我真的希望能够在任何人参加测验之前衡量测验的难度。 【参考方案1】:

挑战当然是确定每个问题的难度分数。

我建议以下模型:

难易度 (H):定义一个难回答的问题,以降低正确回答的机会。最难的问题是(1)正确回答的机会等于随机选择(因为它本质上非常难),并且(2)它有最多的可能答案。我们将这样的问题定义为 (H = 15)。在量表的另一端,我们将为一个问题定义 (H = 0),其中正确回答的机会是 100%(因为它是微不足道的)(我知道 - 这样的问题永远不会出现)。现在 - 通过主观推断来定义每个问题的难度(请记住,人们总是可以在给定的选项之间猜测)。例如,如果一个 (H = 15) 问题有 4 个答案,而另一个具有相似固有硬度的问题有 2 个答案 - 它将是 (H = 7.5)。另一个例子:如果您认为一个普通学生有 62.5% 的问题答对率 - 这也是一个 (H = 7.5) 问题(这是因为 H = 15 有 25% 的正确答案,而 H = 0 有100%。平均为 62.5%)

效果 (E):现在,我们将测量 PW 和 NW 的效果。对于有 50% 机会正确回答的问题 - 效果是 E = 0.5*PW - 0.5*NW。对于有 25% 机会正确回答的问题 - 效果是 E = 0.25*PW - 0.75*NW。对于琐碎的问题,NW 无关紧要,所以效果是 E = PW。

难度(DI):最后一步是综合难度和效果——称之为难度。我建议 DI = H - c*E,其中 c 是一些正常数。您可能需要再次标准化。

编辑:或者,您可以尝试以下公式:DI = H * (1 - c*E),其中影响幅度不是绝对的,而是相对的问题的难度。


澄清:

老师只需要估计每个问题的一个参数:一个普通学生正确回答这个问题的概率是多少。他的估计,e,将是在 [1/k, 1] 范围内,其中 k 是答案的数量。

硬度H是e的线性函数,1/k映射为15,1映射为0。函数为:H = 15 * k / (k-1) * (1-e)

效果E取决于e、PW和NW。公式为E = e*PW - (1-e)*NW


基于 OP cmets 的示例:

问题一:

k = 4,e = 0.25(最难)。因此 H = 15

PW = 1,NW = 5,e = 0.25。因此 E = 0.25*1 - 0.75*5 = -3.5

c = 5。DI = 15 - 5*(-3.5) = 32.5

问题 2:

k = 4, e = 0.95(非常简单)。因此 H = 1

PW = 1,NW = 5,e = 0.95。因此 E = 0.95*1 - 0.05*5 = 0.7

c = 5。DI = 1 - 5*(0.7) = -2.5

【讨论】:

感谢您的反馈!因此,使用您描述的方法和以下问题。问题 A:H = 15,PW = 1,NW = 5,(4) 可能的选项。 H是“老师”认为的硬度。我会得到 21.25 的 DI 和 5 的“c”常数。 问题 B:H = 1,PW = 1,NW = 5,(4) 可能的选项。我会得到 17.75 的 DI。现在从技术上讲,问题“B”应该比“A”更容易,但我认为它会更容易。我错过了什么吗? @jrucci:我做了一些澄清并解决了你的问题。请查看我的编辑。 我正在运行一些测试,当我有一些结果时会更新我的问题。我很清楚,你说如果一个问题有 4 个可能的选项,只有 1 个是正确的,那么最大难度是 0.25,最低难度是 1? 确实如此。最大的困难是当普通学生毫无头绪时。他通过猜测正确回答的机会是 25%。最低的难度是当您认为普通学生有 100% 的机会正确回答时。【参考方案2】:

我想说问题的核心是 在数学上你的示例测验 A 和 B 是相同的,除了测验 A 给学生 4 个无偿加分(或者,等效地,测验 B 任意从他们身上拿走 4 分)。如果同一个学生同时考取,分数分布是一样的,只是偏移了4分。因此,虽然这两个测验在心理上可能感觉不同(因为,让我们面对现实吧,获得加分感觉很好,而丢分感觉很糟糕,即使你在技术上没有做任何应得的事情),找到一个客观的方法区分它们似乎很棘手。

也就是说,“心理难度”的一个合理衡量标准可能只是随机选择的学生从测验中获得的平均分数(每个问题)。当然,这不是您可以可靠地预先计算出来的,尽管您可以在事后根据实际测验结果进行估计。

但是,如果您能够以某种方式将您的(可能是任意的)难度等级与可能正确回答问题的学生比例联系起来,那么您可以使用它来估计预期的平均分数。因此,例如,我们可以简单地假设与问题难度作为成功率的线性关系,难度 1 对应于 100% 的预期成功率,难度 15 对应于 0% 的预期成功率。那么测验的每个问题的预期平均分数 S 可以计算为:

S = avg(PW × X - NW × (1 - X))

其中对测验中的所有问题取平均值,其中 PW 和 NW 分别是正确和错误答案的分数权重,下面的 DI 是问题的难度等级,X = (15 - DI ) / 14 是估计的成功率。

当然,我们可能还想考虑这样一个事实,即即使学生不知道问题的答案,他们仍然可以猜测。基本上这意味着估计的成功率 X 的范围不应从 0 到 1,而是从 1/N 到 1,其中 N 是问题的选项数。因此,考虑到这一点,我们可以将 X 的公式调整为:

X = (1 + (N - 1) × (15 - DI) / 14) / N

用这个估计的平均分数 S 作为难度度量的一个问题是它在任何一个方向上都没有界限,并且没有提供明显的尺度来表明什么是“简单”测验或“困难”测验。这里的根本问题是您没有为问题权重指定任何限制,因此从技术上讲,没有什么可以阻止某人提出一个具有 100 万分的正或负权重的问题。

也就是说,如果您确实对权重施加了一些合理的限制(即使它们只是建议),那么您也应该能够在 S 上建立合理的阈值,以便考虑进行测验,例如容易,中等或困难。即使你不这样做,你至少仍然可以使用它来根据难度对测验进行排名。

附言。在 UI 中呈现预期分数的一种方法可能是将其乘以测验中的问题数量,并将结果显示为测验的“par”。这样一来,学生们就可以通过看他们的得分是高于还是低于标准来粗略地判断自己的表现和测验的难度。

【讨论】:

感谢@Imari 的输入!我在跟踪你时遇到了一些麻烦(此时这些概念有点超出我的范围)。你能用这些示例问题分解你的公式吗?问题 A(最难):难度输入:15 ​​分中的 15 分,正权重:5 分中的 1 分,负重:5 分中的 5 分,(4)可能的选项可供选择。问题 B(最简单):难度输入:1 出 15,正权重:5 出 5,负权重:1 出 5,(4)可能的选项可供选择。再次感谢!

以上是关于用多个权重确定测验的“难度”?的主要内容,如果未能解决你的问题,请参考以下文章

spssau数据处理难度

在 Python Tkinter 中按下按钮后如何清除窗口?

面试高频题难度 1.5/5,常规滑动窗口运用题

软件工程附加题

Focal Loss 损失函数简述

我正在使用 Windows 窗体和 C# 进行测验,但它一直显示相同的问题