Detectarea obiectelor pentru manechine Partea 2: CNN, PDM și supraalimentare

Partea 2 introduce mai multe modele clasice de arhitectură de lucru neuronale convoluționale pentru clasificarea imaginilor (AlexNet, VGG, ResNet), precum și DPM (model de piese deformabile) și modele de supraalimentare pentru recunoașterea obiectelor.

Partea 1 din seria” detectarea obiectelor pentru manechine ” a introdus: (1) Conceptul de vector de gradient de imagine și modul în care algoritmul HOG rezumă informațiile din toți vectorii de gradient dintr-o singură imagine; (2) modul în care algoritmul de segmentare a imaginii funcționează pentru a detecta regiunile care pot conține obiecte; (3) modul în care algoritmul de căutare selectivă rafinează rezultatele segmentării imaginii pentru o propunere de regiune mai bună.

în partea 2, suntem pe cale să aflăm mai multe despre arhitecturile clasice de rețea neuronală de convoluție pentru clasificarea imaginilor. Acestea pun bazele pentru progrese suplimentare în ceea ce privește modelele de învățare profundă pentru detectarea obiectelor. Du-te verifica Partea 3, dacă doriți să aflați mai multe despre R-CNN și modele conexe.

link-uri către toate postările din serie: .

CNN pentru clasificarea imaginilor

CNN, prescurtarea de la “rețea neuronală convoluțională”, este soluția ideală pentru problemele de vedere pe calculator din lumea învățării profunde. A fost, într-o oarecare măsură, inspirat de modul în care funcționează sistemul cortexului vizual uman.

operație de convoluție

recomand cu tărie acest ghid pentru aritmetica convoluției, care oferă o explicație curată și solidă cu tone de vizualizări și exemple. Aici să ne concentrăm pe convoluția bidimensională pe măsură ce lucrăm cu imagini în acest post.

pe scurt, operațiunea de convoluție glisează un nucleu predefinit (numit și “filtru”) deasupra hărții caracteristicilor de intrare (matricea pixelilor imaginii), înmulțind și adăugând valorile kernel-ului și caracteristicile de intrare parțiale pentru a genera ieșirea. Valorile formează o matrice de ieșire, ca de obicei, nucleul este mult mai mic decât imaginea de intrare.

Operație De Convoluție

Fig. 1. O ilustrare a aplicării unui nucleu pe harta caracteristicilor de intrare pentru a genera ieșirea. (Sursa imaginii: River Trail documentation)

Figura 2 prezintă două exemple reale de cum să convolve un nucleu 3×3 peste o matrice 5×5 2D de valori numerice pentru a genera o matrice 3×3. Controlând dimensiunea căptușelii și lungimea pasului, putem genera o matrice de ieșire de o anumită dimensiune.

Operație De ConvoluțieOperație De Convoluție

Fig. 2. Două exemple de operație de convoluție 2D: (sus) fără umplutură și pași 1×1; (jos) 1×1 bordură zerouri umplutură și pași 2×2. (Sursa imaginii: deeplearning.Net)

AlexNet (Krizhevsky și colab, 2012)

  • 5 straturi convoluție + 2 straturi MLP + 1 strat LR
  • utilizați tehnici de augmentare a datelor pentru a extinde setul de date de formare, cum ar fi traduceri de imagini, reflecții orizontale, și extractii de patch-uri.

exemplu de convoluție pperare

Fig. 3. Arhitectura lui AlexNet. (Sursa imaginii: link)

VGG (Simonyan și Zisserman, 2014)

  • rețeaua este considerată “foarte profundă” la momentul său; 19 straturi
  • arhitectura este extrem de simplificată, cu doar 3×3 straturi convoluționale și 2×2 straturi de punere în comun. Stivuirea filtrelor mici simulează un filtru mai mare cu mai puțini parametri.

ResNet (He și colab., 2015)

  • rețeaua este într-adevăr foarte profundă; 152 de straturi de arhitectură simplă.
  • bloc rezidual: unele intrări ale unui anumit strat pot fi transmise componentei două straturi mai târziu. Blocurile reziduale sunt esențiale pentru a menține o rețea profundă antrenabilă și, în cele din urmă, pentru a funcționa. Fără blocuri reziduale, pierderea de antrenament a unei rețele simple nu scade monoton pe măsură ce numărul de straturi crește din cauza degradărilor care dispar și explodează.

bloc rezidual

Fig. 4. O ilustrare a blocului rezidual al ResNet. Într-un fel, putem spune că designul blocurilor reziduale este inspirat de intrarea V4 direct de la V1 în sistemul cortexului vizual uman. (sursa imaginii din stânga: Wang și colab., 2017)

Valori De Evaluare: mAP

o valoare comună de evaluare utilizată în multe sarcini de recunoaștere și detectare a obiectelor este “mAP”, prescurtare pentru “mean average precision”. Este un număr de la 0 la 100; valoarea mai mare este mai bună.

  • combinați toate detectările din toate imaginile de testare pentru a desena o curbă de rechemare a preciziei (curba PR) pentru fiecare clasă; “precizia medie” (AP) este aria de sub curba PR.
  • având în vedere că obiectele țintă sunt în clase diferite, calculăm mai întâi AP separat pentru fiecare clasă și apoi media pe clase.
  • o detectare este un adevărat pozitiv dacă are “intersecție peste Uniune” (IoU) cu o cutie de adevăr la sol mai mare decât un anumit prag (de obicei 0,5; dacă da, metrica este “[email protected]”)

modelul pieselor deformabile

modelul pieselor deformabile (PDM) (Felzenszwalb și colab., 2010) recunoaște obiectele cu un model grafic de amestec (câmpuri aleatorii Markov) de piese deformabile. Modelul este format din trei componente majore:

  1. un filtru rădăcină grosieră definește o fereastră de detectare care acoperă aproximativ un întreg obiect. Un filtru specifică greutăți pentru un vector caracteristică Regiune.
  2. filtre de piese Multiple care acoperă părți mai mici ale obiectului. Filtrele de piese sunt învățate la o rezoluție de două ori a filtrului rădăcină.
  3. un model spațial pentru notarea locațiilor filtrelor de piese în raport cu rădăcina.

DPM

Fig. 5. Modelul PDM conține (a) un filtru rădăcină, (b) mai multe filtre de piese la o rezoluție dublă și (c) un model pentru notarea locației și deformării pieselor.

calitatea detectării unui obiect este măsurată prin scorul filtrelor minus costurile de deformare. Scorul de potrivire \(f\), în termeni laici, este:

\\]

în care,

  • \(x\) este o imagine cu o poziție și o scară specificate;
  • \(y\) este o subregiune a \(x\).
  • \(\beta_\text{root}\) este filtrul rădăcină.
  • \(\beta_\text{part}\) este un filtru de o parte.
  • cost() măsoară penalizarea părții care se abate de la locația sa ideală în raport cu rădăcina.

modelul de scor de bază este produsul punct între filtrul \(\beta\) și vectorul caracteristică Regiune \(\Phi(x)\): \(f(\beta, x) = \beta \cdot \Phi(x)\). Setul de caracteristici \(\Phi (x)\) poate fi definit de Hog sau alți algoritmi similari.

o locație rădăcină cu scor mare detectează o regiune cu șanse mari de a conține un obiect, în timp ce locațiile părților cu scoruri mari confirmă o ipoteză de obiect recunoscută. Lucrarea a adoptat SVM latent pentru a modela clasificatorul.

procesul de potrivire PDM

Fig. 6. Procesul de potrivire de către PDM. (Sursa imaginii: Felzenszwalb și colab., 2010)

autorul a susținut ulterior că modelele PDM și CNN nu sunt două abordări distincte ale recunoașterii obiectelor. În schimb, un model PDM poate fi formulat ca un CNN prin derularea algoritmului de inferență PDM și maparea fiecărui pas la un nivel CNN echivalent. (Verificați detaliile din Girshick și colab., 2015!)

supraalimentare

supraalimentare este un model pionier de integrare a sarcinilor de detectare, localizare și clasificare a obiectelor într-o singură rețea neuronală convoluțională. Ideea principală este de a (i) face clasificarea imaginii în locații diferite pe regiuni de scale multiple ale imaginii într-o fereastră glisantă și (ii) prezice locațiile cutiei de încadrare cu un regresor antrenat deasupra acelorași straturi de convoluție.

arhitectura modelului Overfeat este foarte asemănătoare cu AlexNet. Este instruit după cum urmează:

antrenament de supraalimentare

Fig. 7. Etapele de antrenament ale modelului Overfeat. (Sursa imaginii: link)

  1. antrenează un model CNN (similar cu AlexNet) pe sarcina de clasificare a imaginilor.
  2. apoi, înlocuim straturile Clasificatorului de top cu o rețea de regresie și o instruim pentru a prezice casetele de delimitare a obiectelor la fiecare locație spațială și scară. Regresorul este specific clasei, fiecare generat pentru o clasă de imagine.
    • intrare: imagini cu clasificare și cutie de încadrare.
    • ieșire: \((x_\text{left}, x_\text{right}, Y_\text{top}, Y_\text{bottom})\), 4 valori în total, reprezentând coordonatele marginilor casetei de delimitare.
    • pierdere: Regresorul este instruit pentru a minimiza\ (l2\) normă între caseta de încadrare generată și adevărul de la sol pentru fiecare exemplu de antrenament.

la momentul detectării,

  1. efectuați clasificarea în fiecare locație folosind modelul CNN pre-pregătit.
  2. preziceți casetele de delimitare a obiectelor pe toate regiunile clasificate generate de clasificator.
  3. Merge cutii de încadrare cu suprapunere suficientă de localizare și suficientă încredere de a fi același obiect din clasificator.

citat ca:

@article{weng2017detection2, title = "Object Detection for Dummies Part 2: CNN, DPM and Overfeat", author = "Weng, Lilian", journal = "lilianweng.github.io/lil-log", year = "2017", url = "http://lilianweng.github.io/lil-log/2017/12/15/object-recognition-for-dummies-part-2.html"}

referință

Vincent Dumoulin și Francesco Visin. “Un ghid pentru aritmetica convoluției pentru învățarea profundă.”arXiv preimprimare arXiv: 1603.07285 (2016).

Haohan Wang, Bhiksha Raj și Eric P. Xing. “Despre originea învățării profunde.”arXiv preimprimare arXiv:1702.07800 (2017).

Pedro F. Felzenszwalb, Ross B. Girshick, David McAllester și Deva Ramanan. “Detectarea obiectelor cu modele bazate pe părți instruite discriminatoriu.”Tranzacții IEEE privind analiza tiparelor și inteligența mașinilor 32, nr. 9 (2010): 1627-1645.

Ross B. Girshick, Forrest Iandola, Trevor Darrell și Jitendra Malik. “Modelele de piese deformabile sunt rețele neuronale convoluționale.”În Proc. IEEE Conf. despre viziunea computerizată și recunoașterea modelelor (CVPR), PP.437-446. 2015.

Sermanet, Pierre, David Eigen, Xiang Zhang, Michaels, Mathieu, Rob Fergus și Yann LeCun. “Supraalimentare:recunoaștere integrată, localizare și detectare folosind rețele convoluționale” arXiv preprint arXiv: 1312.6229 (2013).

Lasă un răspuns

Adresa ta de email nu va fi publicată.