ダミーのためのオブジェクト検出パート2:CNN、DPMとOverfeat

第2部では、画像分類(AlexNet、VGG、ResNet)のためのいくつかの古典的な畳み込みニューラルワークアーキテクチャ設計と、物体認識のためのDPM(変形可能な部品モデル)およ

“ダミーのオブジェクト検出”シリーズの第1部が紹介されました:(1)画像勾配ベクトルの概念とHOGアルゴリズムが一つの画像内のすべての勾配ベクトル; (2)画像セグメンテーションアルゴリズムがオブジェクトを含む可能性のある領域を検出するためにどのように機能するか、(3)選択的検索アルゴリズムが画像セグメンテーションの結果をより良い領域提案のためにどのように洗練するか。

パート2では、画像分類のための古典的な畳み込みニューラルネットワークアーキテクチャの詳細を見つけようとしています。 彼らは、オブジェクト検出のための深層学習モデルのさらなる進歩のための基礎を築きます。 あなたはR-CNNと関連するモデルの詳細を学びたい場合は、パート3をチェックしてください。

シリーズ内のすべての投稿へのリンク: .

画像分類のためのCNN

CNNは、「畳み込みニューラルネットワーク」の略で、深層学習の世界でのコンピュータビジョンの問題のための主要な解決策です。 それは、ある程度、人間の視覚野システムがどのように機能するかに触発されました。

畳み込み演算

私は強く畳み込み演算にこのガイドをお勧めします,視覚化と例のトンとクリーンで堅実な説明を提供します. ここでは、この記事で画像を操作しているときに、二次元畳み込みに焦点を当てましょう。

つまり、畳み込み演算は、事前定義されたカーネル(”フィルタ”とも呼ばれます)を入力フィーチャマップ(画像ピクセルの行列)の上にスライドさせ、カーネルと部分的な入力フィーチャの値を乗算して加算して出力を生成します。 通常、カーネルは入力イメージよりもはるかに小さいため、値は出力行列を形成します。

畳み込み演算

1. 出力を生成するために入力フィーチャマップにカーネルを適用する図。 (画像ソース: River Trail documentation)

図2は、3×3カーネルを数値の5×5の2D行列に畳み込み、3×3行列を生成する方法の実際の例を示しています。 パディングサイズとストライドの長さを制御することにより、特定のサイズの出力行列を生成できます。

畳み込み演算畳み込み演算

図。 2. 2D畳み込み操作の2つの例:(上)パディングなしと1×1ストライド;(下)1×1境界ゼロパディングと2×2ストライド。 (画像ソース:deeplearning。net)

AlexNet(クリジェフスキー他, 2012)

  • 5 畳み込み層+2MLP層+1LR層
  • データ拡張技術を使用して、画像変換、水平反射、パッチ抽出などのトレーニングデータセットを拡張します。

畳み込みpperationの例

図。 3. AlexNetのアーキテクチャ。 (画像ソース:リンク)

VGG(シモニャンとZisserman, 2014)

  • ネットワークは、その時点で”非常に深い”と考えられています; 19層
  • アーキテクチャは、3×3の畳み込み層と2×2のプーリング層のみで非常に単純化されています。 小さいフィルターの積み重ねはより少ない変数のより大きいフィルターを模倣する。

ResNet(He et al., 2015)

  • ネットワークは確かに非常に深く、単純なアーキテクチャの152層です。
  • 残差ブロック:特定の層のいくつかの入力は、後でコンポーネントに二層を渡すことができます。 残差ブロックは、深いネットワークを訓練可能に保ち、最終的に動作させるために不可欠です。 残差ブロックがなければ,プレーンネットワークの学習損失は,消失勾配と爆発勾配のために層の数が増加するにつれて単調に減少しない。

残差ブロック<1 1 6 1><1 4 2 9><5 2 5 2> 4. ResNetの残差ブロックの図。 何らかの形で、残差ブロックの設計は、V4が人間の視覚野システムのV1から直接入力を取得することに触発されていると言うことができます。 (左の画像ソース:Wang et al。,2017)

評価指標: mAP

多くの物体認識および検出タスクで使用される一般的な評価指標は、”mAP”であり、”平均平均精度”の略です。 これは0から100までの数値で、値が高い方が優れています。

  • すべてのテスト画像からのすべての検出を組み合わせて、各クラスの精度リコール曲線(PR曲線)を描画します。”average precision”(AP)はPR曲線の下の領域です。
  • ターゲットオブジェクトが異なるクラスにあることを考えると、まずクラスごとにAPを別々に計算し、次にクラスを平均化します。
  • グラウンド-トゥルース-ボックスがあるしきい値(通常は0.5)より大きい”和集合上の交点”(IoU)を持つ場合、検出は真の陽性である。[email protected]″)

変形可能部品モデル

変形可能部品モデル(DPM)(Felzenszwalb et al.,2010)は、変形可能な部分の混合グラフィカルモデル(Markov random fields)を持つオブジェクトを認識します。 このモデルは、3つの主要なコンポーネントで構成されています:

  1. 粗いルートフィルターは、オブジェクト全体をほぼカバーする検出ウィンドウを定義します。 フィルターは、領域特徴ベクトルの重みを指定します。
  2. オブジェクトの小さな部分をカバーする複数の部分フィルタ。 部品フィルタは、ルートフィルタの2倍の分解能で学習されます。
  3. ルートに対するパートフィルタの位置をスコアリングするための空間モデル。

DPM

図1.1.1. 5. DPMモデルには、(a)ルートフィルター、(b)解像度の2倍の複数の部品フィルター、および(c)部品の位置と変形をスコアリングするためのモデルが含まれています。

オブジェクトを検出する品質は、フィルタのスコアから変形コストを差し引いた値で測定されます。 一致するスコア\(f\)は、素人の言葉では、次のようになります:

\\]

その中で,

  • \(
  • \(y\)は\(x\)の部分領域です。
  • \(\beta_\text{root}\)はルートフィルタです。
  • \(\beta_\text{part}\)は一部のフィルタです。
  • cost()は、ルートに対して理想的な位置から逸脱した部品のペナルティを測定します。基本的なスコアモデルは、フィルター\(\beta\)と領域特徴ベクトル\(\Phi(x)\):\(f(\beta,x)=\beta\cdot\Phi(x)\)の間の内積です。 特徴集合\(\Phi(x)\)はHOGまたは他の同様のアルゴリズムによって定義することができます。

    高得点のルート位置は、オブジェクトを含む可能性の高い領域を検出し、高得点の部分の位置は認識されたオブジェクト仮説を確認します。 この論文では,分類器をモデル化するために潜在SVMを採用した。

    DPMマッチング処理

    図。 6. DPMによる照合プロセス。 (画像ソース:Felzenszwalb et al。,2010)

    著者は後に、DPMモデルとCNNモデルは物体認識に対する二つの異なるアプローチではないと主張した。 代わりに、DPM推論アルゴリズムを展開し、各ステップを同等のCNN層にマッピングすることによって、DPMモデルをCNNとして定式化することができる。 (詳細はGirshick et al., 2015!)

    Overfeat

    Overfeatは、オブジェクトの検出、局在化、分類タスクをすべて一つの畳み込みニューラルネットワークに統合する先駆的なモデルです。 主なアイデアは、(i)スライディングウィンドウ方式で画像の複数のスケールの領域上の異なる位置で画像分類を行い、(ii)同じ畳み込み層の上に訓練されたリグレッサを用いて境界ボックスの位置を予測することである。

    オーバーフィートモデルアーキテクチャはAlexNetと非常によく似ています。 それは次のように訓練されています:

    オーバーフィートトレーニング

    7. 過熱モデルの訓練段階。 (画像ソース:リンク)

    1. 画像分類タスクでCNNモデル(AlexNetに似ています)を学習させます。
    2. 次に、最上位の分類子レイヤーを回帰ネットワークに置き換え、それを訓練して、各空間的な位置とスケールでオブジェクトの境界ボックスを予測します。 リグレッサはクラス固有であり、それぞれが1つのイメージクラスに対して生成されます。
      • 入力:分類と境界ボックスを持つ画像。
      • 出力:\((x_\text{left}、x_\text{right}、y_\text{top}、y_\text{bottom})\)、合計4つの値で、境界ボックスのエッジの座標を表します。
      • : リグレッサは、生成された境界ボックスと各学習例の基底真理値との間の\(l2\)ノルムを最小化するように学習されます。

    検出時に,

    1. 事前学習されたCNNモデルを使用して、各場所で分類を実行します。
    2. 分類子によって生成されたすべての分類された領域のオブジェクト境界ボックスを予測します。
    3. ローカライズからの十分な重複と分類子からの同じオブジェクトであることの十分な信頼度を持つ境界ボックスをマージします。

    :

    @article{weng2017detection2, title = "Object Detection for Dummies Part 2: CNN, DPM and Overfeat", author = "Weng, Lilian", journal = "lilianweng.github.io/lil-log", year = "2017", url = "http://lilianweng.github.io/lil-log/2017/12/15/object-recognition-for-dummies-part-2.html"}

    参照

    Vincent DumoulinとFrancesco Visin。 “深い学習のための畳み込み算術へのガイド。”arXiv preprint arXiv:1603.07285(2016).

    Haohan Wang,Bhiksha Raj,Eric P.Xing. “ディープラーニングの起源について。”arXiv preprint arXiv:1702.07800(2017).

    Pedro F.Felzenszwalb,Ross B.Girshick,David McAllester,Deva Ramanan. “識別的に訓練された部分ベースのモデルによるオブジェクト検出。”IEEE transactions on pattern analysis and machine intelligence32,no.9(2010):1627-1645.

    Ross B.Girshick,Forrest Iandola,Trevor Darrell,And Jitendra Malik. “変形可能な部品モデルは畳み込みニューラルネットワークです。”である。 IEEE Conf. コンピュータビジョンとパターン認識(CVPR)、pp.437-446。 2015.

    セルマネ、ピエール、デイヴィッド-エイゲン、シャン-チャン、ミカエル-マチュー、ロブ-ファーガス、ヤン-ルクン。 “OverFeat:畳み込みネットワークを用いた統合認識、局在化および検出”arXiv preprint arXiv:1312.6229(2013).

コメントを残す

メールアドレスが公開されることはありません。