YOLOv3 使用逻辑回归预测每个边界框的对象分（objectness score）。如果当前预测的边界框比之前其他的任何边界框更好的与 ground truth 对象重合，那它的分数就是 1。如果当前预测的边界框不是最好的，但它和 ground truth 对象重合了一定的阈值以上，神经网络会忽略这个预测。我们使用的阈值是 0.5。我们的系统只为每个 ground truth 对象分配一个边界框。如果当前的边界框未分配给相应的 ground truth 对象，那它仅仅是检测错了对象，不会对坐标或分类预测造成影响。

类别预测

YOLO v3采用多标签分类方法，每个边界框预测可能包含多个类。在训练过程中，使用二元交叉熵损失来进行类别预测。

类置信度表示检测到的物体属于一个具体类的概率值，物体分数也通过一个sigmoid函数，表示概率值。

不使用softmax，因为预测的每个框只包含一个类，然而一些数据集的包含大量重叠标签（如人和女人）。多标签分类使得YOLO v3可用于更复杂的领域，如图像数据集。

跨尺寸预测

为了识别更多的物体，尤其小物体，YOLOv3使用三个不同尺度进行预测，三个不同尺度步幅分别是32、16和8。（输入416 × 416的图像，检测尺度分别为13 × 13、26 × 26、52 × 52）每个尺度分别预测三个边界框，使用 k-means 聚类来确定边界框的先验，三个尺寸对应九个聚类，这九个先验框在COCO数据集上分别是：

网络降采样输入图像，一直到第一个检测层，步幅是32；然后，将此层上采样2倍与之前同样大小的特征图进行按通道堆叠（concatenation ），第二个检测层步幅16；使用相同的上采样过程到检测层步幅为8（见下图）。

这种方法使我们能够从早期特征映射中的上采样特征和更细粒度的信息中获得更有意义的语义信息。

在基本特征提取器中增加了几个卷积层，并用最后的卷积层预测一个三维张量：边界框、框中目标、分类预测。以COCO数据集为例，所得的张量为N × N × [3∗(4+1+80)]（N × N为输出特征图的格点数，3个锚框，4个边界框偏移值，1个目标预测，80种分类预测）。

特征提取器

（新的网络：Darknet-53）

使用一个新的网络（Darknet-53）进行特征提取。该网络融合了YOLO v2、Darknet-19和残差网络，由连续的3×3和1×1的卷积层组合而成，使用了一些残差块，加深网络层数，引入Resnet中的跨层加和操作（输入特征图和输出特征图对应维度相加，concat操作指特征图按通道维度拼接），使网络变得更大，一共53个卷积层，在保持速度的同时，有效地提高了检测的精度。