Objektdeteksjon For Dummies Del 2: CNN, DPM og Overfeat

Del 2 introduserer flere klassiske convolutional neural work architecture design for bilde klassifisering (AlexNet, Vgg, ResNet), SAMT DPM (Deformerbare Deler Modell) og Overfeat modeller for objektgjenkjenning.

Del 1 av” Object Detection For Dummies ” – serien introdusert: (1) begrepet bildegradientvektor og hvordan HOG-algoritmen oppsummerer informasjonen på tvers av alle gradientvektorer i ett bilde; (2) hvordan bildesegmenteringsalgoritmen fungerer for å oppdage regioner som potensielt inneholder objekter; (3) Hvordan Den Selektive søkealgoritmen foredler resultatene av bildesegmentering for bedre regionforslag.

I Del 2 skal vi finne ut mer om de klassiske convolution-nevrale nettverksarkitekturene for bildeklassifisering. De legger grunnlaget for videre fremgang på de dype læringsmodellene for objektdeteksjon. Gå sjekk Del 3 hvis DU ønsker å lære mer OM R-CNN og relaterte modeller.

Lenker til alle innleggene i serien: .

CNN for Bildeklassifisering

CNN, kort for “Convolutional Neural Network”, er løsningen for datasynproblemer i den dype læringsverdenen. Det var til en viss grad inspirert av hvordan menneskets visuelle cortex-system fungerer.

Convolution Operation

jeg anbefaler sterkt denne veiledningen til convolution aritmetikk, som gir en ren og solid forklaring med tonnevis av visualiseringer og eksempler. Her la oss fokusere på todimensjonal konvolusjon som vi jobber med bilder i dette innlegget.

kort sagt, konvolusjonsoperasjon skyver en forhåndsdefinert kjerne (også kalt “filter”) på toppen av inndatafunksjonskartet (matrise av bildepiksler), multipliserer og legger til verdiene til kjernen og delvise inndatafunksjoner for å generere utgangen. Verdiene danner en utgangsmatrise, som vanligvis er kjernen mye mindre enn inngangsbildet.

 Konvolusjonsoperasjon

Fig. 1. En illustrasjon av å bruke en kjerne på input feature kartet for å generere utgangen. (Bildekilde: River Trail dokumentasjon)

Figur 2 viser to virkelige eksempler på hvordan å convolve en 3×3 kjerne over en 5×5 2d matrise av numeriske verdier for å generere en 3×3 matrise. Ved å kontrollere padding størrelse og skrittlengde, kan vi generere en utgang matrise av en viss størrelse.

 Convolution Operasjon  Convolution Operasjon

Fig. 2. To eksempler PÅ 2d convolution operasjon: (øverst) ingen polstring og 1×1 skritt; (nederst) 1×1 border nuller polstring og 2×2 skritt. (Bilde kilde: deeplearning.netto)

AlexNet (Krizhevsky et al, 2012)

  • 5 konvolusjonslag + 2 MLP-lag + 1 LR-lag
  • Bruk dataforstørrelsesteknikker for å utvide treningsdatasettet, for eksempel bildeoversettelser, horisontale refleksjoner og patchuttrekking.

Convolution pperation eksempel

Fig. 3. Arkitekturen Til AlexNet. (Bildekilde: lenke)

VGG (Simonyan Og Zisserman, 2014)

  • nettverket regnes som “veldig dypt” på sin tid; 19 lag
  • arkitekturen er ekstremt forenklet med bare 3×3 convolutional lag og 2×2 pooling lag. Stablingen av små filtre simulerer et større filter med færre parametere.

ResNet (Han et al., 2015)

  • nettverket er faktisk veldig dypt; 152 lag med enkel arkitektur.
  • Restblokk: Noen innspill av et bestemt lag kan sendes til komponenten to lag senere. Resterende blokker er avgjørende for å holde et dypt nettverk trenbart og til slutt jobbe. Uten gjenværende blokker reduseres treningstapet av et vanlig nettverk ikke monotont ettersom antall lag øker på grunn av forsvinnende og eksploderende gradienter.

Restblokk

Fig. 4. En illustrasjon av restblokken Av ResNet. På en eller annen måte kan vi si at utformingen av restblokker er inspirert Av At V4 får inngang direkte fra V1 i det menneskelige visuelle cortex-systemet. (venstre bildekilde: Wang et al., 2017)

Evalueringsmålinger: kart

en felles evalueringsmåling som brukes i mange objektgjenkjennings-og deteksjonsoppgaver er “kart”, kort for “gjennomsnittlig gjennomsnittlig presisjon”. Det er et tall fra 0 til 100; hoyere verdi er bedre.

  • Kombiner alle påvisninger fra alle testbilder for å tegne en presisjonskurve (PR-kurve) for hver klasse;” gjennomsnittlig presisjon ” (AP) er området under PR-kurven.
  • Gitt at målobjekter er i forskjellige klasser, beregner vi FØRST AP separat for hver klasse, og deretter gjennomsnittlig over klasser.
  • en deteksjon er en sann positiv hvis den har “intersection over union” (IoU) med en ground-truth box større enn noen terskel (vanligvis 0,5; i så fall er metriske “[email protected]”)

Deformerbare Deler Modell

Den Deformerbare Deler Modell (Dpm) (Felzenszwalb et al., 2010) gjenkjenner objekter med en blanding grafisk modell (markov tilfeldige felt) av deformerbare deler. Modellen består av tre hovedkomponenter:

  1. et grovt rotfilter definerer et gjenkjenningsvindu som omtrent dekker et helt objekt. Et filter angir vekter for en region-funksjonsvektor.
  2. Flere delfiltre som dekker mindre deler av objektet. Delefiltre læres ved to ganger oppløsning av rotfilteret.
  3. en romlig modell for scoring plasseringen av delfiltre i forhold til roten.

DPM

Fig. 5. DPM-modellen inneholder (a) et rotfilter, (b) flere delfiltre ved to ganger oppløsningen, og (c) en modell for å oppnå plassering og deformasjon av deler.

kvaliteten på å oppdage et objekt måles ved å score på filtre minus deformasjonskostnadene. Den matchende poengsummen \(f\), i lekmannens vilkår, er:

\\]

i hvilken,

  • \(x\) er et bilde med en spesifisert posisjon og skala;
  • \(y\) er et underområde av \(x\).
  • \(\beta_ \ text{root}\) er rotfilteret.
  • \(\beta_ \ text{part}\) er et delfilter.
  • kostnad () måler straffen for delen som avviker fra sin ideelle beliggenhet i forhold til roten.

grunnresultatmodellen er prikkproduktet mellom filteret \(\beta\) og regionens funksjonsvektor \(\Phi (x)\): \(f (\beta, x) = \ beta \ cdot \ Phi(x)\). Funksjonssettet \(\Phi (x)\) kan defineres AV HOG eller andre lignende algoritmer.

en rotplassering med høy score oppdager et område med høye sjanser til å inneholde et objekt, mens plasseringen av delene med høy score bekrefter en anerkjent objekthypotese. Papiret vedtatt latent SVM å modellere klassifikator.

 dpm målrettet prosess

Fig. 6. Målrettet prosess AV DPM. (Bildekilde: Felzenszwalb et al., 2010)

forfatteren hevdet senere AT dpm-og CNN-modeller ikke er to forskjellige tilnærminger til objektgjenkjenning. I stedet kan EN DPM-modell formuleres som EN CNN ved å rulle UT dpm-slutningsalgoritmen og kartlegge hvert trinn til et tilsvarende CNN-lag. (Sjekk detaljene I Girshick et al., 2015!)

Overfeat

Overfeat er en pioner modell for å integrere objektdeteksjon, lokalisering og klassifiseringsoppgaver alt i ett innviklet nevralt nettverk. Hovedideen er å (i) gjøre bildeklassifisering på forskjellige steder på regioner med flere skalaer av bildet i en glidende vindusmote, og (ii) forutsi grenseboksstedene med en regressor trent på toppen av de samme konvolusjonslagene.

den Overfeat modell arkitektur er svært lik AlexNet. Det er opplært som følger:

overfeat trening

Fig. 7. Treningsstadiene til overfeat-modellen. (Bilde kilde: link)

  1. Tren EN cnn modell (lik AlexNet) på bildet klassifisering oppgaven.
  2. deretter erstatter vi de øverste klassifiseringslagene med et regresjonsnettverk og trener det for å forutsi objektbegrensningsbokser på hver romlig plassering og skala. Regressoren er klassespesifikk, hver generert for en bildeklasse.
    • Inngang: Bilder med klassifisering og markeringsramme.
    • Utdata: \((x_\text{left}, x_\text{right}, y_\text{top}, y_\text{bottom})\), 4 verdier totalt, som representerer koordinatene til markeringsboksens kanter.
    • Tap: Regressoren er opplært for å minimere \(l2\) norm mellom generert markeringsramme og bakken sannhet for hvert treningseksempel.

på deteksjonstiden,

  1. Utfør klassifisering på hvert sted ved hjelp av pretrained CNN modell.
  2. Forutsi objektbegrensningsbokser på alle klassifiserte områder generert av klassifikatoren.
  3. Slå sammen avgrensningsbokser med tilstrekkelig overlapping fra lokalisering og tilstrekkelig tillit til å være det samme objektet fra klassifikatoren.

Sitert som:

@article{weng2017detection2, title = "Object Detection for Dummies Part 2: CNN, DPM and Overfeat", author = "Weng, Lilian", journal = "lilianweng.github.io/lil-log", year = "2017", url = "http://lilianweng.github.io/lil-log/2017/12/15/object-recognition-for-dummies-part-2.html"}

Referanse

Vincent Dumoulin og Francesco Visin. “En guide til convolution aritmetikk for dyp læring.”arXiv preprint arXiv: 1603.07285 (2016).

Haohan Wang, Bhiksha Raj og Eric P. Xing. “På Opprinnelsen Til Dyp Læring.”arXiv preprint arXiv: 1702.07800(2017).

Pedro F. Felzenszwalb, Ross B. Girshick, David McAllester og Deva Ramanan. “Objektdeteksjon med diskriminativt trente delbaserte modeller.”Ieee-transaksjoner på mønsteranalyse og maskinintelligens 32, nr. 9 (2010): 1627-1645.

Ross B. Girshick, Forrest Iandola, Trevor Darrell og Jitendra Malik. “Deformerbare delmodeller er innviklede nevrale nettverk.”I Proc. IEEE Conf. Om Datasyn og Mønstergjenkjenning (CVPR), s.437-446. 2015.

Sermanet, Pierre, David Eigen, Xiang Zhang, Michaë Mathieu, Rob Fergus og Yann LeCun. “OverFeat: Integrert Gjenkjenning, Lokalisering og Deteksjon ved Hjelp Av Convolutional Networks” arXiv preprint arXiv:1312.6229 (2013).

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.