多输出神经网络

Posted

技术标签:

【中文标题】多输出神经网络【英文标题】:Multiple Output Neural Network 【发布时间】:2012-01-16 08:58:17 【问题描述】:

我已经用 python 构建了我的第一个神经网络,并且我一直在玩一些数据集;到目前为止一切顺利!

我有一个关于多结果建模事件的快速问题:-

假设我想训练一个网络来告诉我每个跑步者赢得 100 米冲刺的概率。我会给网络关于每个跑步者的所有相关数据,输出的数量将等于比赛中跑步者的数量。

我的问题是,使用 sigmoid 函数,我如何确保输出的总和等于 1.0?网络会自然而然地学会这样做,还是我必须以某种方式明确地做到这一点?如果是这样,我将如何去做?

非常感谢。

【问题讨论】:

请注意,除非您有充分的理由,否则不要在隐藏层中使用逻辑 sigmoid。请改用 tanh,因为它会使您的网络状况更好。由于历史原因,主要使用Logistic sigmoid.. 【参考方案1】:

您的网络应该解决这个问题并最终自然地学习它。

为了让网络更快地了解这一点,首先想到的是:

添加一个名为“sum”的附加输出(对所有其他输出神经元求和)——如果您希望所有输出神经元位于单独的层中,只需添加一层输出,首先是numRunners 输出只需连接上一层对应的神经元,最后一个numRunners+1-th神经元连接上一层的所有神经元,并将权重固定为1)

训练集将包含每个跑步者的 0-1 个向量(没有跑步),“预期”结果将是一个 0-1 向量 00..00001000..01 第一个 1 标记获胜的跑步者比赛,最后 1 个标记“概率”的“总和”

对于未知的比赛,网络会尝试预测哪位赛跑者会获胜。由于输出具有连续的值(或多或少:D),它们可以被解读为“跑步者将赢得比赛的网络确定性”——这就是您要寻找的内容

李>

即使没有额外的sum神经元,这也是对训练数据应该如何排列的粗略描述。

【讨论】:

酷,非常感谢您的快速响应,非常感谢:) 在实践中,神经网络永远不会学习只输出总和为 1.0 的值。【参考方案2】:

基本上,您需要一个将这些实数转换为概率(每个都在 0 到 1 之间,总和为 1)的多个实数的函数。您可以通过对网络的输出进行后期处理来轻松实现这一点。

您的网络会为您提供实数 r1, r2, ..., rn,随着每位跑步者赢得比赛的概率而增加。

然后计算 exp(r1), exp(r2), ...,并将它们相加为 ers = exp(r1) + exp(r2) + ... + exp(rn)。那么第一个赛车手获胜的概率就是exp(r1) / ers。

这是玻尔兹曼分布的一种用途。 http://en.wikipedia.org/wiki/Boltzmann_distribution

【讨论】:

【参考方案3】:

您的神经网络的输出将接近 1。我认为它实际上不会达到 1。

您实际上不需要查看哪个输出等于 1。一旦您将网络训练到特定的错误级别,当您呈现输入时,只需稍后在输出中查找最大输出即可。例如,假设您的输出层呈现以下输出:[0.0001, 0.00023, 0.0041, 0.99999412, 0.0012, 0.0002],那么赢得比赛的选手是 4 号选手。

所以是的,你的网络会“学习”产生 1,但它不会完全是 1。这就是为什么你要训练到一定的错误率。我最近创建了一个神经网络来识别手写数字,这就是我使用的方法。在我的输出层中,我有一个包含 10 个分量的向量。第一个分量代表 0,最后一个分量代表 9。所以当我将 4 呈现给网络时,我希望输出向量看起来像 [0, 0, 0, 0, 1, 0, 0, 0, 0, 0]。当然,这不是我得到的确切内容,而是我训练网络提供的内容。所以要找到它是哪个数字,我只需检查哪个组件的输出或得分最高。

现在在您的第二个问题中,我相信您是在问网络将如何学习提供正确答案?为此,您需要为您的网络提供一些训练数据并对其进行训练,直到输出低于某个错误阈值。所以你需要的是一组包含输入正确输出的数据。最初,您的神经网络将设置有随机权重(有一些算法可以帮助您选择更好的 权重以最小化训练时间,但这有点高级)。接下来,您需要一种方法来告诉神经网络从提供的数据中学习。所以基本上你将数据提供给神经网络,它会提供一个输出,这很可能是错误的。然后将该数据与预期(正确)输出进行比较,并告诉神经网络更新其权重,使其更接近正确答案。您一遍又一遍地这样做,直到错误低于某个阈值。

最简单的方法是实现随机反向传播算法。在此算法中,您计算​​神经网络的实际输出与预期输出之间的误差。然后你将误差从输出层一直反向传播到权重到隐藏层,同时调整权重。然后你重复这个过程,直到你计算的误差低于某个阈值。因此,在每一步中,您都离解决方案越来越近。

您可以使用here 描述的算法。涉及相当多的数学,所以要为此做好准备!如果您想查看此算法的实现示例,您可以查看我在github 上的这段 Java 代码。该代码也使用了动量和一种简单形式的模拟退火,但标准的反向传播算法应该很容易辨别。 backpropagation 上的 Wikipedia 文章有一个 link 用于 Python 中反向传播算法的实现。

您可能不会立即理解算法;希望花一些时间来理解它并完成一些数学运算。我一边写代码一边拿着铅笔和纸坐下来,这就是我最终理解发生了什么的方式。

这里有一些资源可以帮助您更好地理解反向传播:

The learning process: backpropagation Error backpropagation

如果你想要更多资源,也可以看看我的回答here。

【讨论】:

非常感谢您提供有用的资源。在我编写的网络中,我使用遗传算法进行训练。我还没有研究反向传播,我会看看你提供的资源。 反向传播比遗传算法更容易——这是一个很好的起点。 纯反向传播仅限于可以计算导数的误差函数,即便如此,它也可能面临陷入局部最优的可能性。遗传算法有其自身的缺点,但它们都没有遇到这些问题。 我不明白这有什么理由反对。 OP 没有指定使用什么算法。我也很清楚,反向传播需要一个存在导数的激活函数,并且反向传播可能会陷入局部最小值。仅仅因为这些缺点存在于标准的反向传播算法中,这并没有使我的答案出错。 是否可以激活多个输出?例如,您可以使用 [0, 1, 0, 1] 之类的东西来训练您的网络吗?还是为每个独立的输出简单地创建一个不同的神经网络更好?例如,我想要一张有四扇门的图片,如果门关闭,则输出 0,如果门打开,则输出 1。如果门看起来不同,我应该为每个门创建一个神经网络吗?谢谢!

以上是关于多输出神经网络的主要内容,如果未能解决你的问题,请参考以下文章

卷积神经网络多输入通道和多输出通道(channels)

BP神经网络预测回归-BP多输入多输出预测-Matlab

如何理解多类神经网络的输出

结合回归和分类的多输出神经网络

TensorFlow2 入门指南 | 17 搭建多输入多输出卷积神经网络

优化预测基于matlab粒子群算法优化BP神经网络(多输入多输出)含Matlab源码 1418期