본문 바로가기

개발자/Computer Vision

Object Detection -YOLO [복습]

반응형

YOLO (You Only Look Once)

  • 가장 빠른 객체 검출 알고리즘 중 하나
  • 256x256 사이즈의 이미지
  • GPU 사용 시, 초당 170프레임(170FPS, frames per second),
    이는 파이썬, 텐서플로 기반 프레임워크가 아닌 C++로 구현된 코드 기준
  • 작은 크기의 물체를 탐지하는데는 어려움

YOLO Backbone

    • 백본 모델(backbone model) 기반
    • 특징 추출기(Feature Extractor)라고도 불림
    • YOLO는 자체 맞춤 아키텍쳐 사용
    • 어떤 특징 추출기 아키텍쳐를 사용했는지에 따라 성능 달라짐

  • 마지막 계층은 크기가 𝑤××𝐷인 특징 볼륨 출력
  • 𝑤×는 그리드의 크기이고, 𝐷는 특징 볼륨 깊이

YOLO의 계층 출력

  • 마지막 계층 출력은 𝑤××𝑀 행렬
    • 𝑀=𝐵×(𝐶+5)
      • B : 그리드 셀당 경계 상자 개수
      • C : 클래스 개수
    • 클래스 개수에 5를 더한 이유는 해당 값 만큼의 숫자를 예측해야함
      • 𝑡𝑥, 𝑡𝑦는 경계상자의 중심 좌표를 계산
      • 𝑡𝑤, 𝑡는 경계상자의 너비와 높이를 계산
      • 𝑐는 객체가 경계 상자 안에 있다고 확신하는 신뢰도
      • 𝑝1,𝑝2,...,𝑝𝐶는 경계상자가 클래스 1, 2, ..., C의 객체를 포함할 확률
      •  

앵커 박스(Anchor Box)

  • YOLOv2에서 도입
  • 사전 정의된 상자(prior box)
  • 객체에 가장 근접한 앵커 박스를 맞추고 신경망을 사용해 앵커 박스의 크기를 조정하는 과정때문에 𝑡𝑥,𝑡𝑦,𝑡𝑤,𝑡이 필요

반응형