본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Computer Vision

[2024-1] 백승우 - (DeepSORT) SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC

by BaekDaBang 2024. 5. 7.
 

Simple Online and Realtime Tracking with a Deep Association Metric

Simple Online and Realtime Tracking (SORT) is a pragmatic approach to multiple object tracking with a focus on simple, effective algorithms. In this paper, we integrate appearance information to improve the performance of SORT. Due to this extension we are

arxiv.org

0. Abstract

SORT은 간단하고 효과적인 알고리즘에 중점을 둔 MOT(Multi object tracking)에 대한 효과적인 접근 방식이다. 시각 정보 통합 덕분에 더 긴 기간의 오클루전(가려짐)에서도 객체를 추적할 수 있어, 아이덴티티 전환 횟수를 효과적으로 줄일 수 있다.

대규모 개인 재식별 데이터 세트에 대한 심층 연관성 메트릭을 학습하는 오프라인 사전 훈련 단계에서 계산 복잡성의 대부분을 처리한다. 온라인 적용 단계에서는 시각적 외관 공간에서 가장 가까운 이웃 쿼리를 사용하여 측정값-추적값 연관성을 설정한다. 실험 평가 결과, 확장 기능은 신원 전환 횟수를 45% 줄여 높은 프레임 속도에서 전반적으로 경쟁력 있는 성능을 달성하는 것으로 나타났다.

 

1. Introduction

Object detection의 발전으로 인해 MOT에서는 tracking-by-detection이 주요 패러다임이다. 이 패러다임에서 객체 궤적은 일반적으로 전체 비디오 배치를 한 번에 처리하는 글로벌 최적화 문제에서 발견된다. 그러나 일괄 처리로 인해 이러한 방법은 각 시간 단계에서 대상 ID를 사용할 수 있어야 하는 실시간 영상에는 적용되지 않는다.

 

SORT는 이미지 공간에서 칼만 필터링을 수행하고, 헝가리 방식과 바운딩 박스 중첩을 측정하는 연결 메트릭을 사용하여 프레임별 데이터 연결을 수행하는 훨씬 더 간단한 프레임워크이다. 이 간단한 접근 방식은 높은 프레임 속도에서 유리한 성능을 달성한다. 

더보기

Kalman Filter

예측과 측정을 점 대 점으로 고려할 때 생기는 문제를 해결하기 위해 칼만 필터에서는 예측을 할 때 가우시안 확률 분포를 이용한다. 칼만필터를 사용할 때 (x, y, h, vx, vy, vh) 사용한다. Bounding box를 알고 있으므로, box의 좌표, 가로, 세로 값과 각각 값들의 속도 또한 알 수 있다. 또 예측값과 실제 측정치를 통해 업데이트하며 다음 프레임 값과 다시 IOU 값을 측정하는 재귀 필터 형태이다.

더보기

Hungarian Algorithm

Kalman filter에서 이전 프레임에서 발견된 개체와 다음 프레임에서 발견된 개체가 동일하다는 것 판별 방법이다. 모든 작업을 수행하도록 에이전트를 할당할 수 있으며, 할당의 총비용이 최소화되도록 각 작업에 최대 한 개의 에이전트를 할당하고 각 에이전트에 최대 한 개의 작업을 할당하여 가능한 많은 작업을 수행하게 하는 방법(최적의 매칭을 찾는 알고리즘으로, 할당방법의 해결방법)이다.

추적 정밀도와 정확도 측면에서 전반적으로 우수한 성능을 달성하는 반면, SORT는 상대적으로 많은 수의 ID 스위치를 반환한다. 이는 사용된 연결 메트릭이 상태 추정 불확실성이 낮을 때만 정확하기 때문이다. 따라서 SORT는 일반적으로 정면 뷰 카메라 장면에서 나타나는 occlusion을 통한 추적에 결함이 있다. 유니티는 연관성 지표를 모션과 외관 정보를 결합한 보다 정확한 정보로 대체함으로써 이 문제를 극복한다. 특히 대규모 사람 재식별 데이터 세트에서 보행자를 구별하도록 훈련된 컨볼루션 신경망(CNN)을 적용한다. 이 네트워크의 통합을 통해 누락과 폐색에 대한 견고성을 높이는 동시에 시스템을 구현하기 쉽고 효율적이며 실시간 영상에 적용 가능한 상태로 유지한다.

 

2. Sort With Deep Association Metric

2.1 Track Handling and State Estimation

Track handling 및 Kalman filtering 프레임워크는 SORT와 대부분 동일하다. 여기서는 카메라가 보정되지 않았고 ego-motion 정보가 없는 매우 일반적인 tracking 시나리오를 가정한다. 이러한 상황은 필터링 프레임워크에 문제를 야기하지만, 최근 MOT(Multi object tracking) 벤치마크에서 가장 일반적으로 고려되는 설정이다. 따라서 DeepSORT는 바운딩 박스 중심 위치($u, v$), 화면비 $\gamma$, 높이 $h$ 및 이미지 좌표의 각 속도를 포함하는 8차원 상태 공간($u, v, \gamma , h, \dot{x}, \dot{y}, \dot{\gamma}, \dot{h}$)에서 정의된다. 등속 모션과 선형 관측 모델을 갖춘 표준 Kalman 필터를 사용하여 경계 좌표($u, v, \gamma, h$)를 물체 상태에 대한 직접 관측으로 판단한다.

 

각 트랙 $k$에 대해 마지막 측정 연결 성공 이후 프레임 수를 계산한다. 칼만 필터 예측 중에 프레임 수가 증가하며 track이 측정과 연결되면 0으로 재설정된다. 미리 정의된 최대 age $A_{max}$를 초과하는 track은 화면을 떠난 것으로 간주되어, track set에서 삭제된다. 기존 track에 연결할 수 없는 각 감지에 대해 새 track 가설이 시작된다. 이러한 새 track은 처음 3프레임 동안은 임시로 분류된다. 처음 3프레임 내에 측정에 성공적으로 연결되지 않은 트랙은 삭제된다.

 

2.2 Assignment Problem

예측된 Kalman 상태와 새로운 측정값 사이의 연관성을 해결하는 기존의 방법은 Hungarian 알고리즘을 사용했다. 모션 정보(움직임과 모습)를 통합하기 위해 예측된 Kalman 상태와 새로 도착한 측정값 사이의 (제곱) 마하라노비스 거리를 사용한다.

여기서 i 번째 track 분포를 측정 공간에 투영하는 것을 ($y_i, S_i$)로, j번째 바운딩 박스 검출을 $d_j$로 표시합니다. 마하라노비스 거리 감지가 평균 트랙 위치에서 얼마나 많은 표준 편차를 벗어났는지 측정하여 상태 추정 불확실성을 고려한다. 역 $X^2$ 분포에서 계산된 95% 신뢰 구간에서 Mahalanobis 거리의 임계값을 설정하여 가능성이 낮은 연관성을 제외할 수 있다. i번째 트랙과 j번째 탐지 사이의 연관성이 허용되는 경우 1로 평가되는 지표로 표시한다. 4차원 측정 공간의 경우, 해당 마하라노비스 임계값은 $t^{(1)}$ = 9.4877이다. 

마하라노비스 거리는 움직임의 불확실성이 낮을 때 적합한 연결 메트릭이지만, Kalman filtering framework에서 얻은 예측 상태 분포는 객체 위치에 대한 대략적인 추정치만 제공한다. 때문에, 설명되지 않은 카메라 움직임은 이미지 평면에 급격한 변화를 일으킬 수 있으므로 mahalanobis 거리는 occlusion을 통한 추적에 있어 정보가 부족한 지표가 될 수 있습니다. 따라서 할당 문제에 두 번째 지표를 통합한다. 각 bounding box 감지 $d_j$에 대해 $‖r_j‖$ = 1로 appearance descriptor $r_j$를 계산한다. 또한 각 트랙 $k$에 대해 마지막 $L_k$ = 100개의 연관된 appearance descriptor 중 $R_k = \{r_{k}^{(i)}\}_{k=1}^{L_k}$ 갤러리를 유지한다. 그런 다음 두 번째 메트릭은 appearence space에서 $i$번째 트랙과 $j$번째 감지 사이의 가장 작은 코사인 거리를 측정한다.

다시 말하지만, 이 메트릭에 따라 연관성을 허용할 수 있는지를 나타내는 이진 변수를 도입하고 별도의 학습 데이터 세트에서 이 지표에 적합한 임계값을 찾습니다. 실제로는 사전 학습된 CNN을 적용하여 바운딩 박스의 appearance descriptor를 계산한다. 

마하라노비스 거리는 단기 예측에 유용한 행동 기반의 물체 위치에 대한 정보를 제공한다. 반면에 코사인 거리는 행동의 변별력이 떨어지는 장기적인 폐색 후 신원을 복구하는 데 특히 유용한 외관 정보를 고려한다. 연관 문제를 구축하기 위해 가중합를 사용하여 두 방법을 결합한다.

각 방법의 결합은 하이퍼파라미터 λ를 통해 제어한다. 카메라 움직임이 많은 경우 λ = 0으로 설정한다.

 

2.3 Matching Cascade

물체가 더 오랜 시간 동안 가려지면 이후의 칼만 필터 예측은 물체 위치와 관련된 불확실성을 증가시킨다. 결과적으로 확률 질량이 상태 공간에 분산되고 관측 가능성은 피크가 낮아진다. 직관적으로 연결 메트릭은 측정값과 추적값 간의 거리를 늘려 이러한 확률 질량의 확산을 설명한다. 직관적으로 두 개의 트랙이 동일한 탐지를 놓고 경쟁하는 경우, 마하라노비스 거리는 예상 트랙 평균에 대한 모든 탐지의 표준 편차 거리를 효과적으로 줄이기 때문에 불확실성이 커지는 것을 선호한다. 이는 트랙 조각화 및 불안정한 트랙으로 이어질 수 있으므로 바람직하지 않은 동작이다. 따라서 더 자주 보이는 객체에 우선순위를 부여하는 matching cascade를 도입하여 연관 가능성에서 확률 확산 개념을 인코딩한다.

 

2.4 Deep Appearance Descriptor

Online tracking에 적용 전에 offline에서 잘 식별할 수 있게 학습해야 한다. 이를 위해 1,261명의 보행자에 대한 1,100,000개 이상의 이미지를 포함하는 대규모 사람 re-identification 데이터 세트로 훈련된 CNN을 사용하므로 사람 추적 맥락에서 deep metric 학습에 매우 적합하다. 

 

3. Experiments

 

Tracker의 성능은 MOT16에서 평가한다. Test seqence에 대한 평가는 λ = 0, $A_{max}$ = 30 프레임을 사용한다. Detection의 confidence score는 0.3으로 임계값을 설정했다. 

 

- Multi-object tracking accuracy (MOTA): 오탐, 오탐 및 신원 전환 측면에서 전체 추적 정확도를 요약한 수치
- Multi-object tracking precision (MOTP): 실측 위치와 보고된 위치 간의 바운딩 박스 중첩을 기준으로 한 전반적인 추적 정밀도 요약
- Mostly tracked (MT): 수명의 80% 이상 동안 동일한 레이블을 가진 실측 트랙의 백분율
- Mostly lost ((ML): 수명의 최대 20% 동안 추적된 실측 트랙의 백분율
- Identity switches (ID): 실측 트랙의 보고된 ID가 변경되는 횟수
- Fragmentation (FM): 탐지 누락으로 인해 트랙이 중단된 횟수

 

DeepSORT는 ID Switching을 성공적으로 줄였다. SORT와 비교했을 때 ID 스위치는 1423개에서 781개로 감소했으며, 약 45% 감소한 수치이다. 동시에 occlusion과 missing를 통해 object ID를 유지하기 때문에 track Fragmentation는 약간 증가한다. 또한 Mostly tracked object의 수는 크게 증가하고 Mostly lost object의 수는 감소했다. 전반적으로 appearence 정보의 통합으로 인해 더 긴 occlusion에도 ID를 잘 유지한다.

 

DeepSORT는 강력한 Online tracking framework로,  모든 online 방법 중 가장 적은 수의 ID 전환을 반환하면서도 경쟁력 있는 MOTA 점수, 추적 조각화 및 오탐률을 유지한다. 탐지에 더 큰 신뢰 임계값을 적용하면, 성능이 크게 향상될 수 있지만, 추적 결과를 육안으로 살펴보면 이러한 FP은 대부분 static scene geometry에서 산발적인 검출기 반응으로 인해 발생한다. 상대적으로 허용되는 최대 트랙 수명이 길기 때문에 이러한 FP는 물체 궤적에 더 일반적으로 결합된다. 동시에 트랙이 오경보 사이를 자주 이동하는 것은 관찰되지 않았다. DeepSORT는 물체 위치에서 비교적 안정적이고 고정된 트랙을 생성했다. 

 

4. Conclusion

저희는 사전 학습된 연관성 지표를 통해 외모 정보를 통합하는 SORT의 확장 기능을 선보였습니다. 이 확장 기능 덕분에 더 긴 기간의 오클루전까지 추적할 수 있게 되어 SORT는 최첨단 온라인 추적 알고리즘의 강력한 경쟁자가 되었습니다. 그럼에도 불구하고 이 알고리즘은 구현이 간단하고 실시간으로 실행됩니다.