도전2022

HOTA 지표를 사용하여 트래킹 성능을 평가하는 방법 본문

카테고리 없음

HOTA 지표를 사용하여 트래킹 성능을 평가하는 방법

hotdigi 2026. 6. 17. 16:27

https://autonomousvision.github.io/hota-metrics/

 

How to evaluate tracking with the HOTA metrics

A new family of metrics for evaluating Multi-Object Tracking.

autonomousvision.github.io

HOTA(Higher Order Tracking Accuracy)는 다중 객체 추적(MOT) 성능을 평가하기 위한 새로운 지표입니다. 이는 MOTA, IDF1, Track mAP와 같은 기존 지표의 여러 한계를 극복하도록 설계되었습니다.

이 짧은 블로그 게시물은 HOTA의 가장 중요한 측면들을 세 부분으로 나누어 개괄적으로 설명합니다.

  1. HOTA 지표를 계산하는 방법.
  2. HOTA 지표를 사용하여 트래커를 비교하는 방법.
  3. HOTA는 다른 추적 지표들과 비교했을 때 어떤 차이가 있나요?

HOTA에 대한 자세한 내용은 IJCV 2020 논문과 GitHub의 메트릭 코드에서 확인할 수 있습니다 .

파트 1: HOTA 지표 계산 방법.고유 링크

HOTA는 세 가지 IoU 점수 의 조합으로 생각할 수 있습니다 . 추적 성능 평가 작업을 세 가지 하위 작업(탐지, 연관, 위치 파악)으로 나누고, 각 작업에 대해 IoU(Intersection over Union, IoU) 공식(자카드 지수라고도 함)을 사용하여 점수를 계산합니다. 그런 다음 각 하위 작업에 대한 세 가지 IoU 점수를 결합하여 최종 HOTA 점수를 산출합니다.

아래에서는 이 세 가지 하위 작업 각각에 대한 IoU 점수가 어떻게 계산되는지 살펴보겠습니다.

현지화:고유 링크

위치 추정은 예측된 객체와 실제 객체 사이의 공간적 정렬 정도를 측정합니다 . 위치 추정 IoU(Loc-IoU)는 위치 추정 정확도를 측정하기 위해 많은 평가 지표에서 사용됩니다. 이는 두 객체의 겹치는 부분(교집합)과 두 객체가 모두 포함하는 전체 영역(합집합)의 비율로 계산됩니다. 아래 그림에서 이를 확인할 수 있습니다.

이 개념은 경계 상자에서 분할 마스크로 쉽게 확장됩니다. 보시다시피, Loc-IoU 점수가 증가할수록 예측된 객체와 실제 객체의 공간적 정렬이 더 잘 이루어지고 위치 파악 정확도가 향상됩니다.

전체 데이터 세트에서 예측값과 실제값 탐지값이 일치하는 모든 쌍에 대해 Loc-IoU를 평균하여 전반적인 위치 정확도(LocA)를 측정할 수 있습니다(이러한 일치 항목을 얻는 방법은 아래에 설명합니다).

발각:고유 링크

탐지(Detection)는 모든 예측 탐지 집합과 모든 실제 탐지 집합 간의 정렬 정도를 측정합니다 . 탐지 IoU(Det-IoU)는 탐지 정확도를 측정하는 데 일반적으로 사용됩니다. 여기서는 예측 탐지 집합과 실제 탐지 집합 간의 교차점을 정의해야 합니다. 이를 위해 위치 임계값(예: Loc-IoU > 0.5)을 정의하고, 이 임계값보다 큰 두 탐지가 교차한다고 판단합니다. 그러나 하나의 예측 탐지가 둘 이상의 실제 탐지와 겹칠 수 있으며(그 반대의 경우도 마찬가지), 이를 처리하기 위해 헝가리안 알고리즘을 사용하여 예측 탐지와 실제 탐지 간의 일대일 대응을 결정합니다. 이러한 대응 쌍을 참양성(True Positive, TP)이라고 하며, 두 탐지 집합의 교집합 으로 생각할 수 있습니다 . 대응하지 않는 예측 탐지를 거짓양성(False Positive, FP)이라고 하고, 대응하지 않는 실제 탐지를 거짓음성(False Negative, FN)이라고 합니다. 탐지 IoU는 다음과 같이 계산됩니다.

이것이 Loc-IoU와 근본적으로 동일한 구조를 가지고 있음을 알 수 있습니다. 이는 교차 영역(일치하는 영역 또는 TP)을 전체 영역(모든 탐지 영역의 합집합)으로 나눈 값입니다. Loc-IoU가 단일 예측 탐지 영역과 실제 탐지 영역 간의 정렬을 측정하는 반면, Det-IoU는 모든 예측 탐지 영역 집합과 모든 실제 탐지 영역 집합 간의 정렬을 측정합니다. 이러한 집합 기반 IoU 공식은 일반적으로 자카드 지수라고도 합니다.

전체 데이터 세트에 걸쳐 TP, FN 및 FP의 개수를 사용하여 Det-IoU를 계산함으로써 전반적인 탐지 정확도(DetA)를 측정할 수 있습니다.

협회:고유 링크

연관성은 추적기가 실제 트랙의 ID 연결 집합을 기반으로 시간 경과에 따른 탐지 결과를 동일한 ID로 얼마나 잘 연결하는지를 측정합니다 . 이는 예측 탐지 결과와 실제 탐지 결과를 매칭(위에서 설명한 헝가리안 매칭 방식 사용)하고, 예측 탐지 결과의 전체 트랙과 실제 탐지 결과의 전체 트랙 간의 정렬 정도를 측정함으로써 평가할 수 있습니다. 이 정렬 정도는 IoU(Inclusion of Unlimited) 공식으로 표현할 수 있습니다.

두 트랙 간의 교집합은 두 트랙 간의 참 양성 일치(True Positive Match) 수로 측정할 수 있으며, 이를 참 양성 연관(True Positive Association, TPA)이라고 합니다. 예측된 트랙에서 나머지 감지된 항목(다른 실제 트랙과 일치하거나 전혀 일치하지 않는 항목)은 거짓 양성 연관(False Positive Association, FPA)이고, 실제 트랙에서 나머지 감지된 항목은 거짓 음성 연관(False Negative Association, FNA)입니다. 연관 IoU(Association IoU, Ass-IoU)는 앞서 살펴본 것과 유사한 방식으로 계산할 수 있습니다.

이제 이 기능은 두 트랙 간의 정렬을 측정하여 일치하는 모든 탐지(TP) 쌍에 대해 해당 탐지의 연관성이 얼마나 좋은지를 나타내는 척도를 제공합니다.

TPA, FNA, FPA의 정의에 대한 시각적 예시는 아래에서 확인할 수 있습니다.

빨간색 사각형은 예측값과 실제 검출값의 일치하는 TP 쌍을 나타내며, 우리는 이 쌍에 대한 연관성 점수를 찾고자 합니다. 이러한 검출값 간의 시간적 연관성이 얼마나 잘 일치하는지 측정하기 위해, 두 트랙에서 일치하는 모든 검출값(녹색의 TPA)과 일치하지 않는 모든 검출값(노란색의 FPA 및 갈색의 FNA)을 찾습니다.

전체 데이터 세트에서 일치하는 모든 예측값과 실제값 쌍에 대한 Ass-IoU를 평균하여 전반적인 연관 정확도(AssA)를 측정할 수 있습니다.

서로 다른 세 가지 IoU 점수를 사용하여 HOTA 구축:고유 링크

당연히 추적 성공에는 위치 파악, 탐지, 연관 관계 설정의 세 가지 요소 모두 중요하므로, 이 모든 요소를 ​​측정하는 것이 중요합니다. 하지만 추적기의 전반적인 성능을 순위 매기는 데 사용할 수 있는 단일 지표가 필요한 경우가 많습니다. 이러한 지표가 바로 HOTA이며, 이는 위에서 정의한 세 가지 IoU 점수를 모두 결합한 것입니다.

앞서 DetA와 AssA는 특정 Loc-IoU 임계값(α)을 기반으로 하는 헝가리안 매칭을 사용하여 정의되었음을 참고하십시오. DetA와 AssA 점수는 모두 Loc-IoU 값에 의존하므로, 다양한 α 임계값 범위에 걸쳐 이러한 점수를 계산합니다. 각 임계값에 대해 최종 점수는 탐지 점수와 연관 점수의 기하 평균으로 계산합니다. 그런 다음 다양한 α 임계값에 대해 적분함으로써 최종 점수에 위치 정확도를 포함합니다.

탐지와 연관을 결합하는 데 기하평균을 사용하면 최종 점수에서 두 요소가 균등하게 가중치를 갖게 되며, 탐지 또는 연관 중 하나라도 0이 되면 점수도 0이 됩니다. 더 나아가, 이는 HOTA 점수를 탐지-연관성(Det-IoU) 공식으로 해석할 수 있게 하는데, 분자의 각 TP는 해당 TP에 대한 연관성-연관성(Association-IoU)으로 가중치를 받습니다. 예를 들어, 모든 탐지의 합집합에 대한 연관성-연관성 점수의 평균을 구할 수 있습니다.

파트 2: HOTA 지표를 사용하여 트래커를 비교하는 방법.고유 링크

HOTA 메트릭 제품군을 활용하면 이전에는 불가능했던 방식으로 다중 객체 추적 성능을 평가할 수 있습니다. 이제 추적기의 성능 뿐만 아니라 어떤 부분에서 뛰어난지 까지 파악할 수 있게 되었는데, 이는 애플리케이션에 적합한 추적기를 선택할 때나 기존 추적기를 개선할 방법을 연구할 때 추적기의 근본적인 동작 방식을 이해하는 데 매우 중요합니다.

예를 들어, (이 글을 작성하는 시점을 기준으로) 보행자 추적 부문 KITTI 순위표 에서 상위 20개 방법의 결과를 살펴보겠습니다 .

순위(빨간색 숫자)는 전체 HOTA 점수를 기준으로 정렬된 방법들의 순서를 나타냅니다. 이제 우리는 탐지(x축)와 연관(y축)이라는 두 가지 차원에서 각 방법들이 얼마나 잘 작동하는지 개별적으로 확인할 수 있으며, 배경의 곡선은 탐지 점수와 연관 점수가 모두 증가함에 따라 전체 HOTA 점수가 어떻게 증가하는지를 보여줍니다.

상위 3개 트래커는 전반적인 HOTA 점수가 매우 유사하지만(46.3%, 45.9%, 45.7%), 이 그래프에서 각 트래커의 성능 차이가 확연히 드러납니다 . 트래커 1은 연관(association) 성능이 가장 뛰어나고, 트래커 2는 객체 탐지(detection) 성능이 우수하며, 트래커 3은 연관과 객체 탐지 ​​성능 모두에서 중간 정도의 성능을 보입니다. 특정 애플리케이션에 적합한 트래커를 선택해야 한다면, 연관과 탐지 중 어느 것이 더 중요한지를 고려하여 가장 적합한 트래커를 고를 수 있습니다. 실제로 이 세 트래커는 모두 파레토 최적 전선(빨간색 점선) 상에 위치하며, 연관과 탐지 정확도 사이의 절충점을 고려했을 때 각각 최적의 선택이 될 수 있습니다. HOTA 지표를 활용하면 이제 리더보드 최상단에 단 하나의 최고 트래커만 있는 것이 아니라, 파레토 최적 전선 상에 다양한 절충점을 가진 여러 개의 최고 트래커가 존재한다는 것을 알 수 있습니다. (파레토 전선 그래프를 그리는 아이디어를 제공해 주신 Jack Valmadre와 Alex Bewley에게 감사드립니다.)

Tracker 2의 개발자가 자신의 추적기를 개선하고자 한다면, 이러한 결과는 Tracker 1의 연관 방식 연구를 통해 개선점을 찾을 수 있음을 시사합니다. 반대로 Tracker 1의 개발자는 Tracker 2(또는 Tracker 4)의 탐지 방식 연구를 통해 개선점을 찾을 수 있을 것입니다.

탐지와 연관 관계를 비교하는 것 이상으로 더 나아갈 수 있습니다. 둘 다 IoU(사용 편의성 지수) 공식을 기반으로 설계되었기 때문에, 재현율만 측정하는 구성 요소와 정밀도만 측정하는 구성 요소로 자연스럽게 분해할 수 있습니다. 이러한 분해를 수행하고 결과를 그래프로 나타내면 추적 결과에 대한 더 심층적인 통찰력을 얻을 수 있습니다.

위 그래프는 HOTA 점수 순으로 트래커 번호를 정렬한 것이므로, 동일한 번호는 위와 동일한 트래커를 나타냅니다. 탐지 재현율(DetRe)은 트래커가 모든 실제 객체를 얼마나 잘 찾아내는지 측정하는 반면, 탐지 정밀도(DetPr)는 트래커가 존재하지 않는 객체를 잘못 탐지하지 않는 정도를 측정합니다. 위 첫 번째 그래프에서 트래커 1과 트래커 3은 전반적으로 비슷한 탐지 정확도를 보이지만, 트래커 3은 일반적으로 더 많은 실제 객체를 찾아내는 반면(더 높은 재현율), 잘못된 탐지를 더 많이 예측하는 것을 알 수 있습니다(더 낮은 정밀도).

정밀도와 재현율은 일반적으로 객체 탐지 ​​성능을 평가하는 데 사용되지만, HOTA 메트릭을 사용하면 이러한 개념을 확장하여 객체 간의 연관성도 측정할 수 있습니다. 연관 재현율(AssRe)은 추적기가 동일한 객체를 여러 개의 짧은 트랙으로 분할하지 않는 정도를 측정합니다. 반면, 연관 정밀도(AssPr)는 추적기가 여러 객체를 하나의 트랙으로 병합하지 않는 정도를 측정합니다. 예를 들어, 추적기 15는 추적기 20보다 트랙을 여러 개의 작은 트랙으로 분할할 가능성이 더 높지만, 트랙을 병합하지 않는 데는 더 뛰어납니다. 탐지 정밀도와 재현율처럼, 추적기를 설계할 때 연관 정밀도와 재현율 사이에는 자연스러운 상충 관계가 존재합니다.

HOTA 지표는 이러한 네 가지 차원(누락된 감지, 추가 감지, 트랙 분할 및 트랙 병합) 모두에서 추적기 간의 의미 있는 분석 및 비교를 가능하게 하며, 이러한 모든 점수를 의미 있게 결합하여 추적기 순위를 매기는 전체 점수를 산출합니다.

마지막으로, HOTA는 위치 정확도 분석도 가능하게 합니다.

위의 첫 번째 그래프에서 HOTA(0) (가장 낮은 알파 임계값, 즉 알파=0.05에서의 HOTA로, 위치 정확도의 영향을 배제함)와 위치 정확도 LocA(0) (동일한 임계값에서의 LocA)를 비교합니다. HOTA(0)에서 Tracker 3이 Tracker 1보다 약간 더 나은 성능을 보이는 것을 알 수 있습니다. 예를 들어, 탐지 결과가 약간만 겹치더라도 일치하도록 허용했을 때, Tracker 3은 전반적으로 더 나은 탐지 및 연결 성능을 보입니다. 그러나 이러한 일치된 탐지 결과의 위치 정확도는 더 떨어지므로, 위치 정확도 임계값 범위를 고려하여 최종 HOTA 점수를 계산하면 Tracker 1이 더 높은 점수를 얻습니다. 이는 HOTA가 탐지 및 연결뿐만 아니라 위치 정확도까지 추적기의 동작을 분해하고 결합할 수 있음을 보여줍니다.

두 번째 그래프에서는 다양한 알파 임계값 범위에 걸쳐 상위 5개 트래커의 HOTA 점수를 비교합니다. 모든 트래커는 알파 임계값이 증가함에 따라 성능이 저하되지만, 저하되는 속도는 흥미롭고 트래커 간의 동작을 비교하는 데 유용합니다.

파트 3: HOTA는 다른 추적 지표와 어떻게 비교될까요?고유 링크

이전에는 다중 객체 추적을 평가하는 데 MOTA, IDF1, Track mAP라는 세 가지 주요 지표가 사용되었습니다. 여기서는 각 지표에 대한 자세한 설명은 생략하고, HOTA와 기존 지표들의 차이점을 보여주는 간단한 예시를 살펴보겠습니다.

이 예시에서는 100프레임 비디오의 모든 프레임에 존재하는 단일 정답 객체가 있습니다. 그런 다음 탐지 정확도는 점차 증가하고 연관 정확도는 점차 감소하는 세 가지 추적기(A, B, C)가 있습니다. 이 예시에서 예측된 모든 탐지는 TP(예: 정답 객체와 일치)를 의미합니다.

A, B, C 세 가지 트래커 중 어느 것이 더 좋을까요? 각 트래커는 매우 다르기 때문에 이 질문에 대한 명확한 답은 없습니다. 어떤 트래커는 객체 탐지에, 어떤 트래커는 연관 분석에 강점을 가지고 있어, 애플리케이션에 어떤 요소가 더 중요한지에 따라 선택이 달라집니다. 탐지와 연관 분석 모두 중요한 경우가 많기 때문에, HOTA는 전체 점수를 계산할 때 각 요소에 동일한 가중치를 부여하도록 설계되었습니다. 위 예시에서 이를 확인할 수 있습니다. 탐지 점수(DetA)가 증가하는 반면 연관 분석 점수(AssA)는 감소하여, 세 가지 요소의 합산 HOTA 점수는 동일하게 유지됩니다.

비교해 보면 MOTA 점수는 연관성을 무시하고 탐지를 측정하는 데 지나치게 편향되어 있음을 알 수 있습니다. 반대로 IDF1 점수는 탐지를 무시하고 연관성을 측정하는 데 지나치게 편향되어 있습니다. HOTA는 탐지와 연관성에 동일한 가중치를 부여하면서 DetA 및 AssA 하위 점수를 통해 각 구성 요소를 개별적으로 분석할 수 있도록 함으로써 이 두 극단 사이에서 완벽한 균형을 찾습니다.

마지막으로, 트랙 mAP 지표는 예시에서 가장 정보력이 떨어지는 지표입니다. 예측된 트랙이 실제 트랙과 50% 이상 겹쳐야만 점수로 계산되기 때문입니다. 따라서 예시의 세 트래커 모두 트랙 mAP 점수가 0으로, 마치 트래커가 전혀 실행되지 않은 것처럼 보입니다.

요약:고유 링크

이 짧은 블로그 게시물에서는 다중 객체 추적 성능을 평가하기 위한 새로운 지표인 HOTA 지표를 소개했습니다. HOTA는 객체 탐지, 객체 연결, 객체 위치 파악에 대한 세 가지 IoU 점수를 조합하여 계산됩니다. 또한, 다양한 HOTA 하위 지표를 사용하여 이러한 여러 측면에서 추적기를 평가하고 분석하는 방법과, 각 하위 지표를 재현율과 정밀도로 세분화하여 더욱 세밀한 분석을 수행하는 방법을 살펴보았습니다. 마지막으로, HOTA 지표가 기존의 다중 객체 추적 평가 지표와 어떻게 다른지 간략하게 비교하고, HOTA 지표를 사용하는 것이 더 나은 이유를 몇 가지 살펴보았습니다.

HOTA에 대한 자세한 내용은 IJCV 2020 논문 (특히 다양한 메트릭 간의 상세 비교 및 ​​분석)과 GitHub의 메트릭 코드를 참조하세요 . 이 코드를 사용하면 HOTA를 통해 자체 트래커를 평가할 수 있으며, 이 글에 제시된 모든 분석 및 그래프도 제공합니다. 다른 메트릭에 대한 코드도 제공되어 쉽게 비교할 수 있으며, 새로운 벤치마크와 메트릭을 추가하는 것도 간편합니다. HOTA 메트릭은 현재 여러 트래킹 벤치마크에 적용되고 있으며, 업데이트 사항 은 GitHub README를 확인하세요 .

@article{luiten2020IJCV,
  title={HOTA: A Higher Order Metric for Evaluating Multi-Object Tracking},
  author={Luiten, Jonathon and Osep, Aljosa and Dendorfer, Patrick and Torr, Philip and Geiger, Andreas and Leal-Taix{\'e}, Laura and Leibe, Bastian},
  journal={International Journal of Computer Vision},
  pages={1--31},
  year={2020},
  publisher={Springer}
}