인형에 대한 개체 감지 2 부:

2 부에서는 이미지 분류를 위한 몇 가지 고전적인 컨볼루션 신경 작업 아키텍처 설계와 객체 인식을 위한 변형 가능한 부품 모델 및 과식 모델을 소개합니다.

“인형에 대 한 개체 감지”시리즈의 1 부 소개:(1)이미지 그라데이션 벡터의 개념 및 방법 돼지 알고리즘 요약 한 이미지에서 모든 그라데이션 벡터에 걸쳐 정보; (2)이미지 분할 알고리즘이 잠재적으로 객체를 포함하는 영역을 감지하는 방법;(3)선택적 검색 알고리즘이 더 나은 영역 제안을 위해 이미지 분할의 결과를 구체화하는 방법.

2 부에서는 이미지 분류를 위한 고전적인 컨볼루션 신경망 아키텍처에 대해 자세히 알아보려고 합니다. 그들은 객체 탐지를위한 깊은 학습 모델에 대한 추가 진행을위한 토대를 마련. 자세한 내용을 보려면 파트 3 을 확인하십시오.

시리즈의 모든 게시물에 대한 링크: .

CNN 이미지 분류

현지에 대한 짧은”나선형 신경망”,이동하는 솔루션을 위한 컴퓨터 시각에서 문제가 깊은 학습 world. 그것은 인간의 시각 피질 시스템이 어떻게 작동하는지에 의해 어느 정도 영감을 받았습니다.

컨볼루션 연산

수많은 시각화 및 예제와 함께 깨끗하고 확실한 설명을 제공하는 컨볼루션 산술 가이드에 강력히 권장합니다. 여기 우리가이 게시물에 이미지와 함께 작업 할 때 2 차원 회선에 초점을 맞출 수 있습니다.

간단히 말해서,컨볼루션 연산은 미리 정의된 커널(“필터”라고도 함)을 입력 피처 맵(이미지 픽셀의 행렬)위에 슬라이드하여 출력을 생성하기 위해 커널 및 부분 입력 피처의 값을 곱하고 추가합니다. 값은 일반적으로 커널이 입력 이미지보다 훨씬 작기 때문에 출력 행렬을 형성합니다.

컨볼루션 동작

그림. 1. 출력을 생성하기 위해 입력 피처 맵에 커널을 적용하는 그림. (이미지 소스: 1429>

그림 2 에서는 3*3 행렬을 생성하기 위해 숫자 값의 5*5 2 차원 행렬을 통해 3*3 커널을 뒤엎는 방법에 대한 두 가지 실제 예를 보여 줍니다. 패딩 크기와 보폭을 제어함으로써 특정 크기의 출력 행렬을 생성 할 수 있습니다.

컨볼루션 연산컨볼루션 연산

그림. 2. 2 차원 회선 연산의 두 가지 예:(위)패딩 없음 및 1 보폭;(아래)1 테두리 0 패딩 및 2 보폭. (이미지 출처:딥 러닝.

알렉넷(크리제프스키 외, 2012)

  • 5 데이터 확대 기술을 사용하여 이미지 변환,수평 반사 및 패치 추출과 같은 학습 데이터 집합을 확장합니다.

컨볼루션 퍼페레이션 예

그림. 3. 알렉스 넷의 아키텍처. (이미지 출처:링크)

, 2014)

  • 네트워크는 그 당시”매우 깊은”것으로 간주됩니다; 19 레이어
  • 아키텍처는 3 배 3 컨볼 루션 레이어와 2 배 2 풀링 레이어로 매우 단순화됩니다. 작은 필터의 스택은 더 적은 매개 변수로 더 큰 필터를 시뮬레이션합니다.

레스 넷(그는 외., 2015)

  • 네트워크는 참으로 매우 깊다;간단한 아키텍처 152 층.
  • 잔여 블록:특정 레이어의 일부 입력은 나중에 두 레이어로 구성 요소로 전달 될 수 있습니다. 잔여 블록은 깊은 네트워크를 훈련 가능하게 유지하고 결국 작동하는 데 필수적입니다. 잔여 블록이 없으면 일반 네트워크의 훈련 손실은 사라지는 그라디언트 및 폭발하는 그라디언트로 인해 레이어 수가 증가함에 따라 단조롭게 감소하지 않습니다.

잔차 블록

도. 4. 레스 넷의 잔여 블록의 그림. 어떤 식 으로든,우리는 잔류 블록의 디자인이 인간의 시각 피질 시스템에서 1 에서 직접 입력을 얻는 4 에서 영감을 받았다고 말할 수 있습니다. (왼쪽 이미지 출처:왕 등.,2017)

평가 메트릭: 지도

많은 물체 인식 및 탐지 작업에 사용되는 일반적인 평가 메트릭은”지도”이며”평균 평균 정밀도”의 약자입니다. 0 에서 100 까지의 숫자이며 값이 높을수록 좋습니다.

  • 모든 테스트 이미지의 모든 탐지를 결합하여 각 클래스에 대한 정밀 리콜 곡선(홍보 곡선)을 그립니다.
  • 대상 객체가 서로 다른 클래스에 있다는 점을 감안할 때 먼저 각 클래스에 대해 개별적으로 계산 한 다음 클래스에 대한 평균을 계산합니다.
  • 어떤 임계 값보다 큰 접지 진실 상자(일반적으로 0.5,그렇다면 메트릭은”[email protected]″)

본 발명에 따른 변형가능한 부품 모델

,2010)변형 가능한 부품의 혼합 그래픽 모델(마르코프 랜덤 필드)이있는 객체를 인식합니다. 이 모델은 세 가지 주요 구성 요소로 구성됩니다:

  1. 거친 루트 필터는 전체 개체를 대략 덮는 검색 창을 정의합니다. 필터는 영역 피처 벡터에 대한 가중치를 지정합니다.
  2. 개체의 작은 부분을 덮는 여러 부분 필터. 부품 필터는 루트 필터의 두 배 해상도로 학습됩니다.
  3. 루트를 기준으로 부품 필터의 위치를 채점하는 공간 모델입니다.

DPM

그림. 5. (1)루트 필터,(2)해상도의 여러 부품 필터,(3)부품의 위치 및 변형 점수를 매기기 위한 모델이 포함되어 있습니다.

물체 감지의 품질은 필터 점수에서 변형 비용을 뺀 값으로 측정됩니다. 일치 점수\(에프\),평신도의 용어로,이다:

\\]

어느,

  • \(지정된 위치 및 배율을 가진 이미지입니다.
  • \(와이\)는\(엑스\)의 하위 영역입니다.
  • \(\베타_\텍스트{루트}\)는 루트 필터입니다.
  • \(\베타_\텍스트{파트}\)는 하나의 파트 필터입니다.
  • 비용()은 루트에 대한 이상적인 위치에서 벗어나는 부품의 벌금을 측정합니다.

기본 점수 모델은 필터\(\베타\)와 영역 특징 벡터\(\피(엑스)\)사이의 내적입니다. 기능 세트\(\피(엑스)\)돼지 또는 다른 유사한 알고리즘에 의해 정의 될 수있다.

점수가 높은 루트 위치는 객체를 포함 할 확률이 높은 영역을 감지하고 점수가 높은 부품의 위치는 인식 된 객체 가설을 확인합니다. 이 논문은 분류자를 모델링하기 위해 잠재 성 스브 밈을 채택했습니다.

도. 6. 일치 프로세스. (이미지 출처:펠젠츠발브 외. 2010)

저자는 훗날 대물인식과 대물인식에 대한 두 가지 별개의 접근법이 아니라고 주장했다. 그 대신,디피엠 모델은 디피엠 추론 알고리즘을 언롤링하고 각 단계를 동등한 씨엔엔 레이어에 매핑함으로써 씨엔엔으로 공식화될 수 있다. (기르 식 등의 세부 사항을 확인., 2015!)

과식

과식은 물체 감지,현지화 및 분류 작업을 모두 하나의 컨볼 루션 신경망으로 통합하는 선구자 모델입니다. 주요 아이디어는(1)슬라이딩 윈도우 방식으로 이미지의 여러 스케일의 영역에서 서로 다른 위치에서 이미지 분류를 수행하고,(2)동일한 컨볼 루션 레이어 위에 훈련 된 회귀기를 사용하여 경계 상자 위치를 예측하는 것입니다.

과식 모델 아키텍처는 알렉스넷과 매우 유사합니다. 그것은 다음과 같이 훈련됩니다:

과식 훈련

그림. 7. 과식 모델의 훈련 단계. (이미지 출처:링크)

  1. 이미지 분류 작업에서 현지 모델(알렉넷과 유사)을 학습합니다.
  2. 그런 다음 상단 분류자 레이어를 회귀 네트워크로 대체하고 각 공간 위치 및 스케일에서 객체 경계 상자를 예측하도록 교육합니다. 회귀 변수는 클래스 별이며 각각 하나의 이미지 클래스에 대해 생성됩니다.
    • 입력:분류 및 경계 상자가있는 이미지.
    • 출력:\((엑스_\텍스트{왼쪽},엑스_\텍스트{오른쪽},와이_\텍스트{상단},와이_\텍스트{하단})\),총 4 개의 값으로 경계 상자 가장자리의 좌표를 나타냅니다.
    • 손실: 회귀 변수는 최소화하기 위해 훈련\(엘 2\)생성 된 경계 상자와 각 훈련 예제에 대한 접지 진실 사이의 표준.

검출 시간에,

  1. 사전 훈련된 현지 모델을 사용하여 각 위치에서 분류를 수행합니다.
  2. 분류자에 의해 생성된 모든 분류된 영역에서 개체 경계 상자를 예측합니다.
  3. 지역화에서 충분한 겹침과 분류자에서 동일한 객체라는 충분한 확신을 가지고 경계 상자를 병합합니다.

인용:

@article{weng2017detection2, title = "Object Detection for Dummies Part 2: CNN, DPM and Overfeat", author = "Weng, Lilian", journal = "lilianweng.github.io/lil-log", year = "2017", url = "http://lilianweng.github.io/lil-log/2017/12/15/object-recognition-for-dummies-part-2.html"}

참고

빈센트 두물린과 프란체스코 비신. “깊은 학습을위한 회선 산술 가이드. 1603.07285(2016).

하오한 왕,빅샤 라지,에릭 피싱. “깊은 학습의 기원에. 1702.07800(2017).

페드로 에프 펠젠스발브,로스 비 기르식,데이비드 맥알스터,데바 라마난. “차별적으로 훈련 된 파트 기반 모델을 사용한 객체 감지.”패턴 분석 및 기계 인텔리전스에 대한 트랜잭션 32,제 9 호(2010):1627-1645.

로스 비 기르 식,포레스트 이안 돌라,트레버 대럴,지텐 드라 말릭. “변형 가능한 부품 모델은 컨볼 루션 신경망입니다.”프록에서. 아이에프 컴퓨터 비전 및 패턴 인식,437-446 쪽. 2015.

세르 마네,피에르,데이비드 아이겐,시앙 장,마이클스 마티유,롭 퍼거스,얀 레컨. “과식:컨볼 루션 네트워크를 이용한 통합 인식,현지화 및 탐지”.

답글 남기기

이메일 주소는 공개되지 않습니다.