본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Computer Vision

[2025-1] 박지원-SLEAP: A deep learning system for multi-animal pose tracking

by jellydell_y 2025. 2. 4.

Paper ) https://www.nature.com/articles/s41592-022-01426-1 

 

SLEAP는 다중 동물의 자세 추적을 위한 기계 학습 시스템으로,   정확성 속도(800 프레임/초의 처리 속도)를 보인다. 또한 SLEAP는 다양한 동물에 대한 데이터를 효과적으로 처리하며, 사용자 친화적인 인터페이스와 반복 가능한 구성 시스템을 갖췄기에 이를 통해 동물 행동 연구의 효율성과 신뢰성을 크게 향상시킬 수 있다. 특히 실시간으로 동물의 행동을 제어하는 데 유용하다. 


주요 기능

  • 다중 동물 자세 추적: SLEAP는 다중 동물의 자세 추적을 위한 시스템으로, 상호작용 레이블링, 교육, 추론 및 교정을 포함하는 전체 워크플로우의 필요를 충족
  • 높은 정확도: 파리의 경우 90% 데이터에서 <0.11mm, 생쥐의 경우 <3.3mm의 정확성을 보임
  • 빠른 훈련 속도: 사전 훈련 없이 4.4분 이내에 90%의 최고 정확도를 달성할 수 있음
  • 저지연 실시간 처리: 고해상도 다중 동물 데이터를 저지연(<3.5ms)으로 처리할 수 있어 실시간 처리에 적합

SLEAP의 성능 평가 및 비교

SLEAP는 DeepLabCut, DeepPoseKit, LEAP와 비교하여 유사하거나 개선된 정확도(mAP 점수 0.927 대 0.928)를 보이면서도, 예측 속도는 여러 배 더 빠른 2,194 FPS를 달성한다. 멀티 동물 데이터셋에서 최고 추론 속도 762 FPS(파리) 및 358 FPS(생쥐)를 기록하며, 해부학적 척도에서의 높은 정확도를 제공함. 

  • 파리: 95%의 추정값이 0.084 mm(신체 크기의 3.2%) 이내로 정확한 위치를 확인할 수 있음
  • 생쥐: 3.04 mm(신체 크기의 3.7%) 이내로 정확한 위치를 확인할 수 있음

다중 동물 포즈 추정 접근법

: 다중 신뢰도 맵과 부위 친화 필드(PAFs)를 사용하여 동물의 신체 부위 간의 공간적 관계를 나타내는 벡터 필드를 생성. 이때 두 가지 접근이 가능한데, 각 상향식 / 하향식 접근법이다.  

1) 상향식 접근법 : 동물 탐지-신체부위 탐지 - 연결점수 평가 - 최종 포즈 복원 순서로 이뤄짐.

  1. 동물 탐지: 먼저, 입력된 이미지에서 모든 동물을 탐지함. 이 단계에서는 신경망이 각 동물의 중심점을 찾는다. 
  2. 신체 부위 탐지: 각 동물의 신체 부위를 찾아 연결 점수를 평가하여 포즈를 복원. 이 과정에서 다중 부위 신뢰도 맵을 사용하여 개별 신체 부위의 좌표를 복원함. 
  3. 연결 점수 평가: 탐지된 신체 부위 간의 연결 점수를 평가하여, 각 동물의 신체 부위가 올바르게 연결되었는지를 확인.
  4. 최종 포즈 복원: 연결 점수를 기반으로 각 동물의 포즈를 최종적으로 복원함. 이 과정은 GPU 가속 연산을 통해 효율적으로 수행됨. 

2) 하향식 접근법 :  각 동물 중심의 서브 이미지를 생성하여 두 번째 신경망에 입력하고, 이 신경망은 해당 동물에 대한 신뢰도 맵을 예측하는 방식. 

  1. 동물 중심의 서브 이미지 생성: 각 동물의 중심점을 기반으로 서브 이미지를 생성. 서브 이미지는 각 동물에 대한 신뢰도 맵을 예측하기 위한 입력으로 사용되는 이미지를 의미함.
  2. 신뢰도 맵 예측: 두 번째 신경망이 서브 이미지에서 해당 동물의 신뢰도 맵을 예측. 이 단계에서는 다른 동물이 서브 이미지에 보이더라도 중심 동물에 대한 신뢰도 맵만을 예측하게 됨. 
  3. 부위 좌표 추정: 서브 이미지에서 신뢰도 맵을 통해 신체 부위의 좌표를 추정. 이 과정은 전역(global) 피크 찾기를 통해 이루어짐. 
  4. 최종 포즈 복원: 추정된 신체 부위 좌표를 바탕으로 각 동물의 포즈를 최종적으로 복원. 결론적으로 동물의 상대적 위치가 모델링됨. 

상향식 접근법은 동물이 적을 경우 느릴 수 있지만, 많은 동물이 있을 경우 효율적인 스케일링이 가능하다. 

하향식 접근법은 각 동물의 서브 이미지를 통해 더 정확한 신뢰도 맵을 생성할 수 있다. 


SLEAP의 다중 동물 포즈 추적 시스템

전체 개괄은 아래와 같다. 

 SLEAP 시스템은 위에서 알 수 있듯, 매우 모듈화된 설계를 갖추고 있다. 덕분에 SLEAP의 하위 구성 요소의 오류 원인을 쉽게 식별하고 데이터 수집 과정 및 실험 설계를 조정할 수 있다. SLEAP의 모듈 UNet 아키텍처는 특정 도메인에서는 정확성을 높이면서도 처리 속도를 최대 11배 개선한 성과를 보이는 데 도움을 주었다. 또한, SLEAP은 다양한 데이터셋과 함께 제공되며, 총 15,441개의 동물 인스턴스와 7,631장의 레이블이 있는 이미지를 포함하여 release되어 있고  다양한 신경망 아키텍처가 호환되고, 사용자 정의 학습 구성파일을 통해 실험 및 하이퍼파라미터 조정을 쉽게 수행할 수 있다.