按 5 星评级排序的更好方法是啥？

Posted 2023-02-19

技术标签:

【中文标题】按 5 星评级排序的更好方法是啥？【英文标题】：What is a better way to sort by a 5 star rating?按 5 星评级排序的更好方法是什么？ 【发布时间】：2010-11-27 12:38:43 【问题描述】：

我正在尝试使用 5 星系统按客户评分对一堆产品进行分类。我为其设置的网站没有很多评分，并且会继续添加新产品，因此通常会有一些评分较低的产品。

我尝试使用平均星级评分，但当评分数量较少时，该算法会失败。

例如，具有 3x 5 星评级的产品会比具有 100x 5 星评级和 2x 2 星评级的产品显示得更好。

第二个产品是否应该显示得更高，因为它在统计上更值得信赖，因为评级数量更多？

【问题讨论】：

【参考方案1】：

在 2015 年之前，互联网电影数据库 (IMDb) 公开列出了用于对其Top 250 电影列表进行排名的公式。引用：

Top Rated 250 Titles 的计算公式给出了真正的贝叶斯估计：
weighted rating (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C
地点：
R = 电影的平均值（平均值） v = 电影票数 m = 进入前 250 名所需的最低票数（目前为 25000） C = 整个报告的平均投票数（目前为 7.0）
对于前 250 名，仅考虑普通选民的投票。

这并不难理解。公式为：

rating = (v / (v + m)) * R +
         (m / (v + m)) * C;

数学上可以简化为：

rating = (R * v + C * m) / (v + m);

变量是：

R – 物品自己的等级。 R 是项目投票的平均值。（例如，如果一个项目没有投票，它的 R 为 0。如果有人给它 5 星，R 变为 5。如果有人给它 1 星，R 变为 3，[1, 5] 的平均值。以此类推。 ) C – 平均项目评级。找出数据库中每一项的R，包括当前一项，取它们的平均值；即 C。（假设数据库中有 4 个项目，它们的评分为 [2, 3, 5, 5]。C 是 3.75，这些数字的平均值。） v – 项目的投票数。（再举一个例子，如果有 5 个人对一个项目投了票，v 是 5。） m – 可调参数。应用于评级的“平滑”量基于与 m 相关的票数 (v)。调整 m 直到结果让你满意。并且不要将 IMDb 对 m 的描述误解为“需要列出的最低投票数”——这个系统完全有能力对投票数少于 m 的项目进行排名。

公式所做的只是：在计算平均值之前添加 m 个假想票，每个票的值为 C。一开始，当没有足够的数据（即投票数大大少于m）时，这会导致空白被平均数据填充。然而，随着票数的积累，最终虚构的票数会被真实票数淹没。

在这个系统中，投票不会导致评分大幅波动。相反，他们只是在某个方向上稍微扰乱了它。

当票数为零时，只有虚构票数，并且都是C。因此，每个项目都以C开头。

另见：

demo。点击“解决”。 IMDb 系统的另一个explanation。类似贝叶斯星级系统的explanation。

【讨论】：

引用的 wiki 答案文章表明公式是 WR = (v * R + m * C) / (v + m)，因为考虑到 C 并且值 I'我看起来好多了。公式其实是一样的，你一定要把原来的那个填错了，(v/(v+m))*R+(m/(v+m))*C就是与 (v * R + m * C) / (v + m) 相同。链接：goo.gl/IW9s1A 如果我做得对，我认为 5 分的 1 票大于 4 分的 5 票。而且不适合排名系统对于简单的答案，只需将like 与like 进行比较，即比较相应的 5 星评级。所以在您的示例中，具有 100x 5 星评级的产品优于具有 3x 5 星评级的产品。【参考方案2】：

Evan Miller shows 一种贝叶斯方法来排名 5 星评级：

在哪里

nk 是k-星级评分的数量， sk 是 k 星星的“价值”（以点为单位）， N 是总票数 K 是最大星数（例如 K=5，在 5 星评级系统中） z_alpha/2 是正态分布的 1 - alpha/2 分位数。如果您希望 95% 的置信度（基于贝叶斯后验分布）实际排序标准至少与计算的排序标准一样大，请选择 z_alpha/2 = 1.65。

在Python中，排序标准可以用

def starsort(ns):
    """
    http://www.evanmiller.org/ranking-items-with-star-ratings.html
    """
    N = sum(ns)
    K = len(ns)
    s = list(range(K,0,-1))
    s2 = [sk**2 for sk in s]
    z = 1.65
    def f(s, ns):
        N = sum(ns)
        K = len(ns)
        return sum(sk*(nk+1) for sk, nk in zip(s,ns)) / (N+K)
    fsns = f(s, ns)
    return fsns - z*math.sqrt((f(s2, ns)- fsns**2)/(N+K+1))

例如，如果一件商品有 60 颗五星、80 颗四星、75 颗三星、20 颗二星和 25 颗一星，那么它的总星级大约是 3.4：

x = (60, 80, 75, 20, 25)
starsort(x)
# 3.3686975120774694

您可以使用

对 5 星评级列表进行排序

sorted([(60, 80, 75, 20, 25), (10,0,0,0,0), (5,0,0,0,0)], key=starsort, reverse=True)
# [(10, 0, 0, 0, 0), (60, 80, 75, 20, 25), (5, 0, 0, 0, 0)]

这显示了更多评分对整体星级值的影响。

你会发现这个公式往往会给出一个有点低于亚马逊、Ebay 或沃尔玛等网站报告的总体评级特别是当票数很少（比如说，小于300）时。这反映了更少的选票带来更高的不确定性。随着票数的增加（成千）所有这些评级公式总体上应该倾向于（加权）平均评分。

由于该公式仅取决于 5 星评级的频率分布对于商品本身，很容易合并来自多个来源的评论（或者，更新根据新投票的总体评分）只需添加频率一起分发。

与IMDb公式不同，这个公式不依赖于平均分跨越所有项目，也没有人为的最低投票数截止值。

此外，这个公式利用了完整的频率分布——不仅仅是平均星数和票数。这是有道理的应该因为一个有 10 个 5 星和 10 个 1 星的项目应该被视为比具有更多不确定性的项目（因此没有被评为高） 20 个 3 星评级：

In [78]: starsort((10,0,0,0,10))
Out[78]: 2.386028063783418

In [79]: starsort((0,0,20,0,0))
Out[79]: 2.795342687927806

IMDb 公式没有考虑到这一点。

【讨论】：

非常感谢！我将此答案移植到 javascript。 gist.github.com/dfabulich/fc6b13a8bffc5518c4731347de642749 我还将这个答案移植到 SQL 中，假设列 rated5、rated4、rated3、rated2 和 rated1，这是对有多少人给出该评级的计数。

select ((5*(rated5+1)+4*(rated4+1)+3*(rated3+1)+2*(rated2+1)+1*(rated1+1))/(5+rated5+rated4+rated3+rated2+rated1))-1.65*SQRT((((25*(rated5+1)+16*(rated4+1)+9*(rated3+1)+4*(rated2+1)+1*(rated1+1))/(5+rated5+rated4+rated3+rated2+rated1)) - POWER(((5*(rated5+1)+4*(rated4+1)+3*(rated3+1)+2*(rated2+1)+1*(rated1+1))/(5+rated5+rated4+rated3+rated2+rated1)), 2))/(6+rated5+rated4+rated3+rated2+rated1)) as x from mytable

这是最好的答案。那么，如果只有一个 5 开始评级，那么平均为什么是 2.5？例如。 starsort([1,0,0,0,0]) 2.4036636531319653 埃文米勒的公式看起来很复杂，但实际上很简单。首先，在计算平均值和标准差之前，为每个小部件添加五个虚假评级：一个 1 星、一个 2 星、一个 3 星、一个 4 星和一个 5-星级。然后，当需要排序时，首先从平均值中减去标准偏差 σ， 将 σ 乘以常数因子 z 以增加共识的权重，即 X = A - zσ。在 z = 1.65 时，每个小部件的“真实”平均值大于 X 的置信度为 90%。【参考方案3】：

请参阅this page 以获得对基于星级的评分系统的良好分析，以及查看this one 以获得对基于赞成/反对票的系统的良好分析。

对于上下投票，您想估计在给定评分的情况下，“真实”分数（如果您有无限评分）大于某个数量（例如，其他一些类似的数字）的概率您正在排序的项目）。

答案见第二篇文章，但结论是你想使用威尔逊置信度。这篇文章给出了方程式和示例 Ruby 代码（很容易翻译成另一种语言）。

【讨论】：

Wilson 置信区间仅适用于二项分布（例如，+1/-1 风格评级）；目前尚不清楚对 5 星评级计划采取什么方法。【参考方案4】：

您可以按median 排序，而不是算术平均值。在这种情况下，两个示例的中位数均为 5，因此在排序算法中两者的权重相同。

您可以使用 mode 达到相同的效果，但中位数可能是一个更好的主意。

如果您想为具有 100 个 5 星评级的产品分配额外的权重，您可能希望采用某种加权模式，为具有相同中位数但总体投票数更多的评级分配更多权重。

【讨论】：

如果我使用中值法，您将如何确定哪一个应该被评为更好的 5x 5 星评级和 4x 2 星评级或 5x 5 星评级和 4x 1 星评级？两者的评分都为 5。这取决于你。这取决于你认为哪个更好。也许您首先按中位数排序，然后按均值排序。或者可能首先按中位数，然后按总票数。加权中位数：首先按中位数排序，然后按均值排序。总票数提高了分数的可靠性（置信度），但没有说明分数本身。【参考方案5】：

嗯，根据您想要制作的复杂程度，您还可以根据该人的评分数量以及这些评分的内容对评分进行加权。如果这个人只做了一个评级，它可能是一个先令评级，并且可能计算得更少。或者如果这个人在 a 类中评分很多，但在 b 类中评分很少，并且平均评分为 1.3 颗星（满分 5 星），听起来 a 类可能被该用户的低平均分人为压低，并且应该调整。

但足以让它变得复杂。让我们变得简单。

假设我们只使用两个值，ReviewCount 和 AverageRating，用于特定项目，我认为 ReviewCount 本质上是“可靠性”值是有意义的。但我们不只是想降低低 ReviewCount 项目的分数：单个 1 星评级可能与单个 5 星评级一样不可靠。所以我们想要做的可能是平均到中间：3。

所以，基本上，我在想一个方程，比如 X * AverageRating + Y * 3 = the-rating-we-want。为了使这个值正确，我们需要 X+Y 等于 1。此外，随着 ReviewCount 的增加，我们需要 X 的值增加……评论计数为 0，x 应该为 0（给我们一个等式“ 3”），并且评论数无限，X 应为 1（这使得等式 = AverageRating）。

那么什么是 X 和 Y 方程？对于 X 方程，当自变量接近无穷大时，希望因变量渐近接近 1。一组好的方程类似于： Y = 1/(因子^RatingCount) 和（利用 X 必须等于 1-Y 的事实） X = 1 – (1/(因子^RatingCount)

然后我们可以调整“因子”以适应我们正在寻找的范围。

我使用这个简单的 C# 程序尝试了几个因素：

        // We can adjust this factor to adjust our curve.
        double factor = 1.5;  

        // Here's some sample data
        double RatingAverage1 = 5;
        double RatingCount1 = 1;

        double RatingAverage2 = 4.5;
        double RatingCount2 = 5;

        double RatingAverage3 = 3.5;
        double RatingCount3 = 50000; // 50000 is not infinite, but it's probably plenty to closely simulate it.

        // Do the calculations
        double modfactor = Math.Pow(factor, RatingCount1);
        double modRating1 = (3 / modfactor)
            + (RatingAverage1 * (1 - 1 / modfactor));

        double modfactor2 = Math.Pow(factor, RatingCount2);
        double modRating2 = (3 / modfactor2)
            + (RatingAverage2 * (1 - 1 / modfactor2));

        double modfactor3 = Math.Pow(factor, RatingCount3);
        double modRating3 = (3 / modfactor3)
            + (RatingAverage3 * (1 - 1 / modfactor3));

        Console.WriteLine(String.Format("RatingAverage: 0, RatingCount: 1, Adjusted Rating: 2:0.00", 
            RatingAverage1, RatingCount1, modRating1));
        Console.WriteLine(String.Format("RatingAverage: 0, RatingCount: 1, Adjusted Rating: 2:0.00",
            RatingAverage2, RatingCount2, modRating2));
        Console.WriteLine(String.Format("RatingAverage: 0, RatingCount: 1, Adjusted Rating: 2:0.00",
            RatingAverage3, RatingCount3, modRating3));

        // Hold up for the user to read the data.
        Console.ReadLine();

所以你不必费心复制它，它会给出以下输出：

RatingAverage: 5, RatingCount: 1, Adjusted Rating: 3.67
RatingAverage: 4.5, RatingCount: 5, Adjusted Rating: 4.30
RatingAverage: 3.5, RatingCount: 50000, Adjusted Rating: 3.50

类似的东西？您显然可以根据需要调整“因子”值以获得所需的权重。

【讨论】：

【参考方案6】：

如果您只需要一个快速且廉价的解决方案，并且大多数情况下无需使用大量计算即可工作，这里有一个选项（假设评分等级为 1-5）

SELECT Products.id, Products.title, avg(Ratings.score), etc
FROM
Products INNER JOIN Ratings ON Products.id=Ratings.product_id
GROUP BY 
Products.id, Products.title
ORDER BY (SUM(Ratings.score)+25.0)/(COUNT(Ratings.id)+20.0) DESC, COUNT(Ratings.id) DESC

加上 25 并除以总评分 + 20，基本上就是将 10 个最差分数和 10 个最佳分数加到总评分中，然后进行相应的排序。

这确实存在已知问题。例如，它不公平地奖励评分很少且评分较低的产品（如this graph 所示，平均评分为 1 且只有一个评分的产品评分为 1.2，而平均评分为 1 且评分为 1k+ 的产品评分接近 1.05） .你也可以争辩说它对评分很少的高质量产品进行了不公平的惩罚。

此图表显示了超过 1-1000 个评分的所有 5 个评分的情况： http://www.wolframalpha.com/input/?i=Plot3D%5B%2825%2Bxy%29/%2820%2Bx%29%2C%7Bx%2C1%2C1000%7D%2C%7By%2C0%2C6%7D%5D

你可以看到在最底层的收视率有所下降，但总的来说，我认为这是一个公平的排名。你也可以这样看：

http://www.wolframalpha.com/input/?i=Plot3D%5B6-%28%2825%2Bxy%29/%2820%2Bx%29%29%2C%7Bx%2C1%2C1000%7D%2C%7By%2C0%2C6%7D%5D

如果您在此图表中的大多数位置放置弹珠，它会自动滚向得分较高且评分较高的产品。

【讨论】：

【参考方案7】：

显然，评分数量少使这个问题成为统计上的障碍。永远不会少...

提高综合评分质量的一个关键因素是“对评分者进行评分”，即密切关注每个特定“评分者”提供的评分（相对于其他评分者）。这允许在聚合过程中权衡他们的投票。

另一个解决方案，更多的是应对，是为最终用户提供对基础项目的投票计数（或其范围指示）。

【讨论】：