tensorflow--交叉熵

Posted ignb

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了tensorflow--交叉熵相关的知识,希望对你有一定的参考价值。

学而不思则罔,思而不学则怠。

最近在看《TensorFlow 实战Google深度学习框架第二版》这本书。从头开始学习深度学习,对于细节方面进行探究。相当于重新拾起来这门”手艺“。

这篇随笔重点是交叉熵。在本书中出现的位置是62页,章节是3.4.5完整神经网络样例程序的20行附近(可能空行不一致),这里示例代码中出现了损失函数,代码如下:

 1 import tensorflow as tf
 2 from numpy.random import RandomState
 3 
 4 batch_size = 8
 5 
 6 w1 = tf.Variable(tf.random_normal((2,3), stddev=1, seed=1))
 7 w2 = tf.Variable(tf.random_normal((3,1), stddev=1, seed=1))
 8 
 9 #定义输入的张量,第一维设为None,方便变化
10 x = tf.placeholder(tf.float32, shape=(None, 2), name=x-input)
11 y_ = tf.placeholder(tf.float32, shape=(None, 1), name=y-input)
12 
13 a = tf.matmul(x, w1)
14 y = tf.matmul(a, w2)
15 
16 #cross_entropy就是损失函数
17 y = tf.sigmoid(y)
18 cross_entropy = -tf.reduce_mean(
19     y_ * tf.log(tf.clip_by_value(y, 1e-10, 1.0))
20     + (1-y_)*tf.log(tf.clip_by_value(1-y, 1e-10, 1.0)))

我们可以看到18行这里是我修改过的代码,根据交叉熵的理论,在这个例子中交叉熵的公式应该为

<math xmlns="http://www.w3.org/1998/Math/MathML" display="block">
  <mi>l</mi>
  <mi>o</mi>
  <mi>s</mi>
  <mi>s</mi>
  <mo>=</mo>
  <mo>&#x2212;<!-- − --></mo>
  <mi>y</mi>
  <mi>l</mi>
  <mi>o</mi>
  <mi>g</mi>
  <mo stretchy="false">(</mo>
  <mrow class="MJX-TeXAtom-ORD">
    <mover>
      <mi>y</mi>
      <mo stretchy="false">&#x005E;<!-- ^ --></mo>
    </mover>
  </mrow>
  <mo stretchy="false">)</mo>
  <mo>&#x2212;<!-- − --></mo>
  <mo stretchy="false">(</mo>
  <mn>1</mn>
  <mo>&#x2212;<!-- − --></mo>
  <mi>y</mi>
  <mo stretchy="false">)</mo>
  <mi>l</mi>
  <mi>o</mi>
  <mi>g</mi>
  <mo stretchy="false">(</mo>
  <mn>1</mn>
  <mo>&#x2212;<!-- − --></mo>
  <mrow class="MJX-TeXAtom-ORD">
    <mover>
      <mi>y</mi>
      <mo stretchy="false">&#x005E;<!-- ^ --></mo>
    </mover>
  </mrow>
  <mo stretchy="false">)</mo>
</math>

应该是二值分布。不过书中给的代码有谬误,20行中1-y_写成了1-y。

参考博客https://www.cnblogs.com/qggg/p/6850120.html

如果本文有理解错误的地方还请评论指正,你的帮助是我进步的动力。

以上是关于tensorflow--交叉熵的主要内容,如果未能解决你的问题,请参考以下文章

TensorFlow的四种交叉熵

TensorFlow中如何选择交叉熵损失?

Tensorflow四种交叉熵函数计算公式

为啥 Keras/tensorflow 的 sigmoid 和交叉熵精度低?

Tensorflow系列3:多层神经网络--解决非线性问题

实现二元交叉熵损失给出了与 Tensorflow 不同的答案