当只使用最可能的类时是不是使用 softmax?
Posted
技术标签:
【中文标题】当只使用最可能的类时是不是使用 softmax?【英文标题】:Is softmax used when only the most probable class will be used?当只使用最可能的类时是否使用 softmax? 【发布时间】:2019-09-29 11:37:38 【问题描述】:我有一个包含 17 个类的深度学习分类问题,我正在使用 Pytorch。该架构包括交叉熵损失,在线性层之后实现。
我相信,通常情况下,计算一个 softmax 激活并将其解释为相应输出类的概率。但是softmax是一个单调函数,如果我只想要最可能的类,我可以简单地选择线性层之后得分最高的类,而将softmax排除在外。
鉴于 softmax 是默认的,在分类问题中广泛使用的激活,我想知道我是否遗漏了一些重要的东西。谁能指导我?
请注意,我搜索了大量网站,但据我所知,没有一个回答这个基本问题(尽管提供了很多信息)。
谢谢
【问题讨论】:
This 和 this 可能会有所帮助。 谢谢,这些很有用。 【参考方案1】:你是对的,你不需要 softmax 来预测最可能的班级 - 你确实可以选择得分最高的班级。
但是,您需要在训练时间内使用 softmax 来计算损失函数(交叉熵),因为它仅适用于类的概率分布。 softmax 变换保证您的网络的输出确实看起来像一个分布:所有分数都是正数,并且总和为 1。如果它们不是正数,则无法计算交叉熵,因为它涉及对数。如果分数总和不等于一个(或任何其他常数),那么模型可以通过使所有分数无限大来最小化损失,而实际上并没有学到任何有用的东西。
此外,在预测时 softmax 也很有用,因为当您报告概率而不是仅仅得分时,您可以将其解释为 置信度:例如该模型的预测有 98% 的把握。
在某些情况下,它可能不是您最感兴趣的课程。例如如果您进行信用评分,那么即使违约概率很低(例如 20%)也可能足以拒绝贷款申请。在这种情况下,您希望查看概率本身而不是最可能的类 - 而 softmax 有助于正确估计它们。
【讨论】:
好的,谢谢。我会尝试添加它,看看它对收敛有什么影响。 好的,这就是我想要的答案。原来pytorch直接把softmax构建成交叉熵,所以我不需要加进去。 如here 所述,您仍然需要softmax 来避免除以0以上是关于当只使用最可能的类时是不是使用 softmax?的主要内容,如果未能解决你的问题,请参考以下文章