markdown 同时边缘对齐和学习
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了markdown 同时边缘对齐和学习相关的知识,希望对你有一定的参考价值。
# Simultaneous Edge Alignment and Learning [Zhiding Yu+, ECCV, 2018]
## Abstract
Edge detection is among the most fundamental vision problems for its role in perceptual grouping and its wide applications.
Recent advances in representation learning have led to considerable improvements in this area. Many state of the art edge detection models are learned with fully convolutional networks (FCNs).
However, FCN-based edge learning tends to be vulnerable to misaligned labels due to the delicate structure of edges.
While such problem was considered in evaluation benchmarks, similar issue has not been explicitly addressed in general edge learning.
In this paper, we show that label misalignment can cause considerably degraded edge learning quality, and address this issue by proposing a simultaneous edge alignment and learning framework.
To this end, we formulate a probabilistic model where edge alignment is treated as latent variable optimization, and is learned end-to-end during network training.
Experiments show several applications of this work, including improved edge detection with state of the art performance, and automatic refinement of noisy annotations.
## 概要
エッジ検出は、知覚的グループ化におけるその役割およびその広範な用途のための最も根本的な視覚問題の一つである。
表現学習における最近の進歩は、この分野においてかなりの改善をもたらした。 最新のエッジ検出モデルの多くは、完全畳み込みネットワーク(FCN)で学習されています。
ただし、FCNベースのエッジ学習は、エッジの構造が繊細であるため、ラベルの位置ずれを起こしやすい傾向があります。
このような問題は評価ベンチマークで考慮されましたが、一般的なエッジラーニングでは同様の問題が明示的に解決されていません。
本稿では、ラベルの位置ずれがエッジ学習の品質を著しく低下させる可能性があることを示し、同時にエッジ位置合わせと学習のフレームワークを提案することでこの問題に対処します。
この目的のために、エッジアラインメントが潜在変数最適化として扱われ、ネットワークトレーニング中にエンドツーエンドで学習される確率モデルを作成します。
実験は、最先端の性能を備えた改善されたエッジ検出、およびノイズの多い注釈の自動改良を含む、この研究のいくつかの応用を示しています。
# 1 Introduction
Early edge detection methods often formulate the task as a low-level or mid-level grouping problem where Gestalt laws and perceptual grouping play considerable roles in algorithm design [23,7,44,16].
Latter works start to consider learning edges in a data-driven way, by looking into the statistics of features near boundaries [25,34,12,39,1,2,31,13].
More recently, advances in deep representation learning [26,43,18] have further led to significant improvements on edge detection, pushing the boundaries of state of the art performance [49,20,3,24,50] to new levels.
The associated tasks also expended from the conventional binary edge detection problems to the recent more challenging category-aware edge detection problems [38,17,4,22,52].
As a result of such advancement, a wide variety of other vision problems have enjoyed the benefits of reliable edge detectors.
Examples of these applications include, but are not limited to (semantic) segmentation [1,51,9,4,5],
object proposal generation [53,4,50], object detection [29], depth estimation [32,19], and 3D vision [33,21,42], etc.
![Seal.sampel](https://github.com/februa/Reserch-thesis/raw/image/seal_source/figs/fig1/seal_sample.png)
With the strong representation abilities of deep networks and the dense labeling nature of edge detection, many state of the art edge detectors are based on FCNs.
Despite the underlying resemblance to other dense labeling tasks, edge learning problems face some typical challenges and issues.
First, in light of the highly imbalanced amounts of positive samples (edge pixels) and negative samples (non-edge pixels),
using reweighted losses where positive samples are weighted higher has become a predominant choice in recent deep edge learning frameworks [49,24,22,30,52].
While such a strategy to some extent renders better learning behaviors6, it also induces thicker detected edges as well as more false positives.
An example of this issue is illustrated in Fig.
1(c) and Fig. 1(g), where the edge mapspredicted by CASENet [52] contains thick object boundaries.
A direct consequence is that many local details are missing, which is not favored for other potential applications using edge detectors.
Another challenging issue for edge learning is the training label noise caused by inevitable misalignment during annotation.
Unlike segmentation, edge learning is generally more vulnerable to such noise due to the fact that edge structures by nature are much more delicate than regions.
Even slight misalignment can lead to significant proportion of mismatches between ground truth and prediction.
In order to predict sharp edges, a model should learn to distinguish the few true edge pixels while suppressing edge responses near them.
This already presents a considerable challenge to the model as non-edge pixels near edges are likely to be hard negatives with similar features,
while the presence of misalignment further causes significant confusion by continuously sending false positives during training.
The problem is further aggravated under reweighted losses, where predicting more false positives near the edge is be an effective way to decrease the loss due to the significant higher weights of positive samples.
Unfortunately, completely eliminating misalignment during annotation is almost impossible given the limit of human precision and the diminishing gain of annotation quality from additional efforts as a result.
For datasets such as Cityscapes [11] where high quality labels are generated by professional annotators, misalignment can still be frequently observed.
For datasets with crowdsourcing annotations where quality control presents another challenge, the issue can become even more severe.
Our proposed solution is an end-to-end framework towards Simultaneous Edge Alignment and Learning (SEAL).
In particular, we formulate the problem with a probabilistic model, treating edge labels as latent variables to be jointly learned during training.
We show that the optimization of latent edge labels can be transformed into a bipartite graph min-cost assignment problem, and present an end-to-end learning framework towards model training.
Fig. 2 shows some examples where the model gradually learns how to align noisy edge labels to more accurate positions along with edge learning.
# はじめに
過去数十年にわたり、エッジ検出はコンピュータビジョンにおいて重要な役割を果たしてきました。
最近の研究は、境界付近の特徴の統計を調べることによって、データ駆動型の方法でエッジを学習することを検討し始めている[25、34、12、39、1、2、31、13]。
ごく最近では、深層表現学習[26、43、18]の進歩によってさらにエッジ検出が大幅に改善され、最先端のパフォーマンスの限界[49、20、3、24、50]が新たなレベルに押し上げられました。
関連するタスクはまた、従来のバイナリエッジ検出問題から最近のより困難なカテゴリを意識したエッジ検出問題へと拡大した[38、17、4、22、52]。
そのような進歩の結果として、他の多種多様な視覚問題が信頼できるエッジ検出器の利点を享受してきた。
これらのアプリケーションの例には、(semantic)セグメンテーション[1,51,9,4,5]、オブジェクト提案生成[53,4,50]、
オブジェクト検出[29]、深度推定[32,19], および3Dビジョン[33,21,42]など。
ここに画像が入る
ディープネットワークの強力な表現能力とエッジ検出の密集したラベル付けの性質により、多くの最先端のエッジ検出器はFCNに基づいています。
根本的に他の密集したラベリングタスクに似ているにもかかわらず、エッジ学習問題はいくつかの典型的な課題と問題に直面しています。
第一に、ポジティブサンプル(エッジピクセル)とネガティブサンプル(非エッジピクセル)の量が非常にアンバランスであることを考慮して、
ポジティブサンプルの重み付けを大きくした場合に重み付けし直した損失を使用することが、最近のディープエッジラーニングフレームワークでは主な選択となっています[49、24、22、30、52]。
このような戦略はある程度より良い学習行動6をもたらしますが、それはまた、検出されたエッジを太くし、誤検出を増やす原因にもなります。
この問題の一例を図1に示す。
図1(c)および図1(g)において、CASENet [52]によって予測されたエッジマップは太いオブジェクト境界を含む。
直接的な結果は、多くの局所的な詳細が欠けていることであり、これはエッジ検出器を使用する他の潜在的な用途にとっては好ましくない。
エッジ学習のためのもう一つの挑戦的な問題は、アノテーションの間の避けられないミスアライメントによって引き起こされるトレーニングラベルノイズです。
セグメンテーションとは異なり、エッジ学習は一般的にそのようなノイズに対してより脆弱です。というのも、本質的にエッジ構造は地域よりもはるかに繊細だからです。
わずかなミスアライメントでも、グランドトゥルースと予測との間にかなりの割合のミスマッチが生じる可能性があります。
鋭いエッジを予測するために、モデルはそれらの近くのエッジ応答を抑制しながら少数の真のエッジピクセルを区別することを学ぶべきです。
位置合わせの不在がトレーニング中に連続して誤ったポジティブを送ることによってさらに重大な混乱を引き起こす一方で、エッジ付近の非エッジピクセルは同様の特徴を有するハードネガティブである可能性が高いので、
これはすでにモデルに対してかなりの挑戦を提示する。
重み付けされた損失の下では、問題はさらに悪化します。エッジ付近でより多くの偽陽性を予測することは、陽性サンプルの有意に高い重みによる損失を減らすための効果的な方法です。
残念なことに、注釈の間のミスアライメントを完全に排除することは、人間の精度の限界および結果としてのさらなる努力からの注釈の質の獲得の減少を考えると、ほとんど不可能である。
高品質のラベルがプロのアノテーターによって生成されるCityscapes [11]のようなデータセットのために、それでもミスアライメントはしばしば観察されることができます。
品質管理が新たな課題となるクラウドソーシングアノテーションを持つデータセットの場合、問題はさらに深刻になる可能性があります。
提案された解決策は、同時エッジアライメントおよび学習(SEAL)に向けたエンドツーエンドのフレームワークである。
特に、本発明者らは、確率モデルを用いて問題を定式化し、訓練中に共同で学習されるべき潜在的変数としてエッジラベルを扱う。
潜在的エッジラベルの最適化は二部グラフ最小コスト割当問題に変換できることを示し、モデル訓練に向けてのエンドツーエンド学習フレームワークを提示した。
図2は、エッジ学習とともに、モデルがノイズの多いエッジラベルをより正確な位置に合わせる方法を徐々に学習する例を示しています。
損失を再重み付けすることが最先端の学習問題に役立つという広く信じられている直観とは反対に、この論文でなされた興味深い直感に反する観察は、極端に不均衡な分布にもかかわらず提案された枠組みの下で(通常の)「シグモイドクロスエントロピー損失」が驚くほどうまく機能することです。
根本的な理由は、エッジ位置合わせがポジティブエッジサンプルの純度を高めることによって学習の混乱を大幅に減らすことです。
一方、エッジアライメントがないと、ラベルノイズと不均衡な分布が混在するため、正のクラスを正しく学習することがモデルで困難になります。
ラベルの品質が向上し、重み付けされていない損失を使用して負の抑制が改善されるという利点の結果として、提案されたフレームワークは高品質のシャープエッジで最新の検出性能を生み出します(図1(d)および図1(h)参照) 。
# 2 Related work
## 2.1 Boundary map correspondence
Our work is partly motivated by the early work of boundary evaluation using
precision-recall and F-measure [34].
To address misalignment between prediction and human ground truth,
[34] proposed to compute a one-to-one correspondence
for the subset of matchable edge pixels from both domains by solving a min-cost assignment problem.
However, [34] only considers the alignment between fixed boundary maps,
while our work addresses a more complicated learning problem
where edge alignment becomes part of the optimization with learnable inputs.
## 2.2 Mask refinement via energy minimization
Yang et al. [50] proposed to use dense-CRF to refine object mask and contour.
Despite the similar goal, our method differs from [50] in that:
1. The refinement framework in [50] is a separate preprocessing step, while our work jointly learns refinement with the model in an end-to-end fashion.
2. The CRF model in [50] only utilizes low-level features, while our model considers both low-level and high-level information via a deep network.
3. The refinement framework in [50] is segmentation-based, while our framework directly targets edge refinement.
## 2.3 Object contour and mask learning
A series of works [40,8,37] seek to learn object contours/masks in a supervised fashion.
Deep active contour [40] uses learned CNN features to steer contour evolution given the input of an initialized contour.
Polygon-RNN [8] introduced a semi-automatic approach for object mask annotation, by learning to extract polygons given input bounding boxes.
DeepMask [37] proposed an object proposal generation method to output class-agnostic segmentation masks.
These methods require accurate ground truth for contour/mask learning,
while this work only assumes noisy ground truths and seek to refine them automatically.
## 2.4 Noisy label learning
Our work can be broadly viewed as a structured noisy label learning framework where we leverage abundant structural priors to correct label noise.
Existing noisy label learning literatures have proposed directed graphical models [48], conditional random fields (CRF) [45], neural networks [46,47],
robust losses [35] and knowledge graph [27] to model and correct image-level noisy labels.
Alternatively, our work considers pixel-level labels instead of image-level ones.
## 2.5 Virtual evidence in Bayesian networks
Our work also shares similarity with virtual evidence [36,6,28], where the uncertainty of an observation is modeled by a distribution rather than a single value.
In our problem, noisy labels can be regarded as uncertain observations which give conditional prior distributions over different configurations of aligned labels.
# 2 関連研究
## 2.1 境界マップ対応
私たちの仕事は部分的には精密リコールとF測度を使った境界評価の初期の仕事[34]によって動機づけられています。
予測と人間の真理との間の不整合に対処するために、最小コスト割り当て問題を解くことによって、
両方のドメインからのマッチング可能なエッジ画素のサブセットに対する一対一対応を計算することが提案された。
しかしながら、[34]は固定境界マップ間のアライメントのみを考慮し、
我々の研究はエッジアライメントが学習可能な入力による最適化の一部となるより複雑な学習問題に対処している。
## 2.2 エネルギー最小化によるマスク改善
Yangなど[50]は、オブジェクトマスクと輪郭を洗練するために密なCRFを使用することを提案しました。
同様の目標にもかかわらず、私たちの方法は[50]とは次の点で異なります。
1. [50]はframeworkの洗練を前処理に分けていますが、私たちの研究はモデルとの洗練をend-to-endで共同で学習します。
2. [50]のCRFモデルは低レベルの特徴のみを利用しているが、我々のモデルは低レベルと高レベルの両方の情報を深いネットワークを介して考慮している。
3. [50]の洗練フレームワークはセグメンテーションに基づいていますが、私たちのフレームワークはエッジ洗練を直接ターゲットにしています。
## 2.3 オブジェクト輪郭とマスク学習
一連の研究[40、8、37]は、教師付き方法で物体の輪郭/マスクを学ぶことを目指しています。
ディープアクティブコンター[40]は、学習されたCNN機能を使用して、初期化されたコンターが入力された場合にコンターの進化を誘導します。
Polygon-RNN [8]は、入力バウンディングボックスを与えられたポリゴンを抽出することを学ぶことによって、
オブジェクトマスクアノテーションのための半自動アプローチを導入しました。
DeepMask [37]はクラスにとらわれないセグメンテーションマスクを出力するためのオブジェクト提案生成法を提案した。
これらの方法は輪郭/マスク学習のために正確なGround Truthを必要としますが、
この研究はノイズの多いGround Truthを仮定してそれらを自動的に洗練することを試みます
## 2.4 ノイズラベル学習
私たちの作品は、構造的にノイズの多いラベル学習フレームワークと広く見なすことができます。このフレームワークでは、ラベルのノイズを修正するために豊富な構造の前兆を利用します。
既存のノイズラベル学習文献は、画像レベルをモデル化し補正するために、有向グラフィカルモデル[48]、条件付き確率場(CRF)[45]、
ニューラルネットワーク[46、47]、ロバストロス[35]、知識グラフ[27]を提案した。 ノイズのラベル。
あるいは、私たちの仕事は、イメージレベルのラベルの代わりにピクセルレベルのラベルを考慮します。
## 2.5 ベイジアンネットワークにおける仮想証明
我々の研究はまた、観測の不確実性が単一の値ではなく分布によってモデル化されているという事実上の証拠との類似性を共有している[36、6、28]。
我々の問題では、雑音のあるラベルは、整列ラベルの異なる構成に対して条件付き事前分布を与える不確実な観測と見なすことができる。
# 3 A probabilistic view towards edge learning
In many classification problems, training of the models can be formulated as maximizing the following likelihood function with respect to the parameters:
> 式(1)
where y, x and W indicate respectively training labels, observed inputs and model parameters.
Depending on how the conditional probability is parameterized, the above likelihood function may correspond to different types of models.
For example, a generalized linear model function leads to the well known logistic regression.
If the parameterization is formed as a layered representation, the model may turn into CNNs or multilayer perceptrons.
One may observe that many traditional supervised edge learning models can also be regarded as special cases under the above probabilistic framework.
Here, we are mostly concerned with edge detection using fully convolutional neural networks.
In this case, the variable y indicates the set of edge prediction configurations at every pixel, while x and W denote the input image and the network parameters, respectively.
# 3 エッジ学習への確率論的見解
多くの分類問題では、モデルのトレーニングは、パラメータに関して次の尤度関数を最大化するように定式化できます。
> 式(1)
ここで、y、x、Wはそれぞれ学習ラベル、観測値、モデルパラメータを表します。
条件付き確率がどのようにパラメータ化されるかに応じて、上記の尤度関数は異なるタイプのモデルに対応し得る。
たとえば、一般化線形モデル関数は、よく知られているロジスティック回帰につながります。
パラメータ化が階層化表現として形成される場合、モデルはCNNまたは多層パーセプトロンに変わり得る。
多くの伝統的な教師付きエッジ学習モデルも上記の確率的枠組みの下での特別な場合と見なすことができることを観察することができる。
ここでは、完全畳み込みニューラルネットワークを使用したエッジ検出に主に関係しています。
この場合、変数yは各画素におけるエッジ予測構成の集合を示し、xおよびWはそれぞれ入力画像およびネットワークパラメータを示す。
# 4 Simultaneous edge alignment and learning
To introduce the ability of correcting edge labels during training,
we consider the following model.
Instead of treating the observed annotation y as the fitting target,
we assume there is an underlying ground truth yˆ that is more accurate than y.
Our goal is to treat yˆ as a latent variable to be jointly estimated during learning,
which leads to the following likelihood maximization problem:
> 式(2)
where yˆ indicates the underlying true ground truth. The former part P(y|yˆ)
can be regarded as an edge prior probabilistic model of an annotator generating
labels given the observed ground truths, while the latter part P(yˆ|x;W) is the
standard likelihood of the prediction model.
## 4.1 Multilabel edge learning
Consider the multilabel edge learning setting where one assumes that y does not need to be mutually exclusive at each pixel.
In other words, any pixel may correspond to the edges of multiple classes.
The likelihood can be decomposed to a set of class-wise joint probabilities assuming the inter-class independence:
> 式(3)
where y^k ∈ {0, 1} ^N indicates the set of binary labels corresponding to the k-th class.
A typical multilabel edge learning example which alsoassumes inter-class independence is CASENet [52].
In addition, binary edge detection methods such as HED [49] can be viewed as special cases of multilabel edge learning.
## 4.2 Edge prior model
## 4.3 Network likelihood model
## 4.4 Learning
## 4.5 Inference
# 4 Simultaneous edge alignment and learning(どう和訳すれば?)
訓練中にエッジラベルを修正する能力を導入するために、我々は以下のモデルを検討する。
観測された注釈yをフィッティングターゲットとして扱う代わりに、
yよりも正確な根底にある真理値y ^があると仮定します。
私たちの目的は、学習中にy ^を潜在変数としてまとめて推定することです。
これは、次のような尤度最大化問題につながります。
> 式(2)
ここで、y ^は基礎となるground truthの真値を示します。
前者の部分P(y | y ^)は、観測されたGround Truthを与えられたラベルを生成する
アノテーターのエッジ事前確率モデルと見なすことができますが、
後者の部分P(y ^ | x; W)は予測モデルの標準尤度です。
## 4.1 Multilabel edge learning
yが各ピクセルで相互に排他的である必要がないと仮定するマルチラベルエッジ学習設定を考えてみましょう。
言い換えれば、どのピクセルも複数のクラスのエッジに対応することがあります。
尤度は、クラス間の独立性を仮定して、クラスごとの同時確率の集合に分解できます。
> 式(3)
ここで、y ^ k∈{0、1} ^ Nは、k番目のクラスに対応するバイナリラベルの集合を示します。
クラス間の独立性も仮定している典型的なマルチラベルエッジ学習の例はCASENet [52]です。
さらに、HED [49]などのバイナリエッジ検出方法は、
マルチラベルエッジ学習の特別な場合と見なすことができます。
## 4.2 Edge prior model
以上是关于markdown 同时边缘对齐和学习的主要内容,如果未能解决你的问题,请参考以下文章