Ref. Open: Computer vision

레이블이 Computer vision인 게시물을 표시합니다. 모든 게시물 표시

2014년 9월 18일 목요일

R-CNN 설치와 실행

이제 Ubuntu 14.04LTS, MATLAB 2013b, caffe, cuda 6.0을 모두 설치하셔다면 R-CNN까지도 접해보시기를 추천합니다. 서두에 말씀드렸던 것처럼 CNN을 prototxt 파일을 수정함으로써 원하는 형태로 구성하고 학습할 수 있습니다.

github rcnn 페이지에서도 영문으로 가이드를 보실 수 있습니다.

특별히 설정을 바꾸거나 하지 않아도 readme.md에 설명된 대로만 따라가면 rcnn_demo를 실행할 수 있습니다.

다만, NVIDIA cuda가 장착되지 않은 그래픽 카드이거나 사양이 낮다면 다음 글을 참고하여 실행해보시기 바랍니다.

R-CNN: Regions with Convolutional Neural Network Features. 저사양의 그래픽 카드에서 GPU mode로 실행하기

실행된 화면은 다음과 같습니다.

재미있는 사진을 데모에 제시했습니다. 사람과 물고기 모양 자전거를 보여주면 어떻게 인식이 되는지.볼 수 있습니다. 가장 높은 스코어 순서로 사람, 자전거, 선글라스가 검출되었습니다.

2014년 9월 16일 화요일

R-CNN: Regions with Convolutional Neural Network Features. 저사양의 그래픽 카드에서 GPU mode로 실행하기

rcnn_demo()를 실행하는 경우 cuda memory가 충분하지 않은 사양의 그래픽 카드에서는 (<=1GB) 기본 설정으로 동작이 되지 않고 아래와 같은 에러 메시지를 출력할 수 있다.

Check failed: error == cudaSuccess (2 vs. 0) out of memory

Selective search를 통해서 얻어낸 후보군들에 대한 CNN을 통과하는 이미지의 갯수를 한 번에 256개로 설정해두었기 때문에 이것을 적절히 조절하면 저사양의 그래픽 카드에서도 실행할 수 있다.

$RCNN_ROOT/data/rcnn_models/ilsvrc2013/rcnn_model.mat

을 열어 CNN 멤버에 batch_size를 적절히 조절하고 같은 숫자를

$RCNN_ROOT/model-defs/rcnn_batch_256_output_fc7.prototxt

에서 input_dim: 256 으로 설정되어 있는 기본값을 바꾸어 주면 된다.

caffe 를 이용해 MNIST 필기체 인식 해보기

Handwritten digit recognition using caffe

$CAFFE_ROOT/examples/mnist에는 mnist dataset에 대한 learning과 test에 대한 데모가 준비 되어 있습니다.

cd $CAFFE_ROOT/data/mnist ./get_mnist.sh

cd $CAFFE_ROOT/examples/mnist ./create_mnist.sh

명령으로 mnist dataset을 받고

cd $CAFFE_ROOT/examples/mnist ./train_lenet.sh

을 수행하면 그림과 같이 학습이 진행되는 것을 확인할 수 있습니다.

lr은 learning rate이고 loss는 각 단계에서 발생된 loss function의 값입니다.

CNN에 대한 학습과정은 다음 링크에서 보다 시각화된 형태로 관찰할 수 있습니다.

ConvNetJS MNIST demo

마지막 output layer에서 activation되는 neuron을 관찰하면 입력된 숫자와 일치하는 것을 볼 수 있습니다.

놀라운 것은 이 모든 행동이 처음 네트워크를 구성해주는 것 말고는 모두 자동으로 이루어 진다는 것입니다. 컴퓨터 비전에서 특징점을 추출하거나 에지를 검출하는 필터를 디자인 하고자 할 때 gradient를 볼 수 있도록 하는 필터를 설계하게 되는데, CNN을 학습함으로 인해서 입력값들은 보다 잘 구분할 수 있도록 하는 필터의 값들은 스스로 학습하게 되는 것입니다.

R-CNN: Regions with Convolutional Neural Network Features. 설치와 실행

CVPR2014에 Rich feature hierarchies for accurate object detection and semantic segmentation이라는 제목으로 게재된 논문에 사용된 소스를 설치하고 실행한 결과에 대해서 게재하고자 합니다.

R-CNN은 Berkeley Vision and Learning Center(BVLC)에서 만든 caffe(An Open Source Convolutional Architecture for Fast Feature Embedding)를 기반으로 방대한 양의 영상 데이터 베이스로부터 학습한 CNN(Convolutional Neural Network)을 이용해서 물체에 대한 사진을 분류하고 인식하는 방법입니다.

IMAGENET 2014에서 ILSVRC14 Task 1b: Object detection with additional training data 부문에서 5번째에 랭크 되었습니다(ILSVRC14 결과). 올해 5월에만해도 다른 모든 방법들보다 우수할 것으로 자체적으로 판단하였습니다.

상위 몇개의 방법들은 CNN을 기본으로 하는 것이 유사하고 각 레이어의 크기와 형태를 정하는 방법들에 의해 성능이 결정되는 경우가 많아서 R-CNN을 분석해보는 것이 물체 인식을 위한 기계 학습에 적절하다고 생각됩니다. MATLAB과 python에 대한 매우 편리한 인터페이스를 지원하기 때문에 text파일로 정의되는 레이어의 크기와 형태를 수정하는 것만으로도 완전히 새로운 CNN을 구성할 수 있기 때문입니다.

다음 순서로 진행됩니다.

여기에서는 3, 4, 5에 대해서만 다룹니다.

caffe 설치와 실행

An Open Source Convolutional Architecture for Fast Feature Embedding

영어, git project, CUDA, Ubuntu에 대해서 익숙하시다면 곧 바로 caffe git hub페이지로 가셔도 좋습니다.

http://caffe.berkeleyvision.org/

https://github.com/BVLC/caffe

버전관리 툴을 사용하고 계신다면 git에 대해서 생소하지 않으실 겁니다. open source기반의 VCS는 CVS, Subversion을 거쳐 현재는 git이 대세로 굳어지는 것처럼 느껴집니다.

git에 대한 한국어 입문을 위한 페이지는 다음을 참조하시기 바랍니다.

git - 간편 안내서

여기에서는 우분투 14.04LTS에 Matlab 2013b가 설치된 환경을 가정합니다.

사전 설치가 필요한 것들

BLAS(ATLAS)

sudo apt-get install libatlas-base-dev

OpenCV
glog, gflags, protobuf, leveldb, snappy, hdf5, lmdb

sudo apt-get install libgflags-dev libgoogle-glog-dev liblmdb-dev protobuf-compiler

git clone 생성

git clone https://github.com/BVLC/caffe

명령으로 로컬 저장소에 복제본을 생성합니다.

export CAFFE_ROOT=$pwd

MATLAB wrapper 설정

CAFFE_ROOT의 Makefile.config에서 MATLAB_DIR을 현재 설치된 경로로 수정

compile

make all

make test

make runtest

정상적으로 cuda가 설치 되었다면 nvcc로 컴파일된 모듈에 대한 정상적인 테스트가 완료됩니다.

MATLAB wrapper 정상 동작 확인

MATLAB을 실행시키고 $CAFFE_ROOT/matlab/caffe 로 이동

matcaffe_init.m을 실행시키면 model과 prototxt파일이 없다고 나옵니다.

model은 학습을 통해서 얻은 가중치와 CNN필터의 값입니다. prototxt는 CNN이 어떻게 구성되어 있는지 description해주는 파일입니다.

$CAFFE_ROOT/examples/imagenet 으로 이동

get_caffe_reference_imagenet_model.sh 파일을 실행시켜 model 파일을 받아옵니다.

$CAFFE_ROOT/matlab/caffe/matcaffe_init과 matcaffe_demo를 실행시켜봅니다.

matcaffe_demo는 ILSVRC의 1000개의 물체에 대한 object classification demo 입니다.

2014년 9월 15일 월요일

ILSVRC(Large Scale Visual Recognition Challenge)

PASCAL VOC와 함께 물체 인식 분야에서 양대 산맥을 이루다가 PASCAL VOC가 막을 내리면서, 독보적인 국제대회로 자리 매김 했습니다.

물체 인식을 위한 DB를 공개하는 역할을 하는 IMAGENET의 영상을 이용해서 학습한 검출기, 분류기를 겨루는 국제대회입니다. 처음에는 물체 분류에 대해서만 국한되어서 진행되다가 최근에는 물체 분류, 검출, 검출 위치 추정까지 점점 난이도가 높아지고 있고 제출되는 결과도 우수해지고 있습니다.

물체 인식을 위한 DB는 Caltech 101, Caltech 256과 같이 적은 클래에 대한 것이 아니라 IMAGENET은 기본적으로 WordNet의 단어 분류에 따른 명사에 대한 물체 영상 DB구축을 목표로 하므로 매우 방대합니다. 현재 구축되어 있는 DB는 21841개의 물체 종류에 대해서 14,197,122(2014.9.16 기준)개의 영상을 보유하고 있습니다. 조회하는 것은 누구나 가능하지만 다운로드 하려면 협약된 비영리 단체에 한하여 가능합니다. (300GB이상입니다.)

2014년 9월 11일 목요일

The Image of the Absolute Conic

절대 원뿔 곡선의 사영

한글로 써보지 않은 용어들은 항상 어색합니다. '절대 원추 곡선의 사영' 역시 마음에 들지 않네요. IAC(Image of Absolute Conic)은 Geometry에서 무척 중요한 영역을 차지합니다. 한글로 쉽게 접근할 수 있는 문서는 없는 것 같아서 글을 적어봅니다. 개인적인 재 해석을 통해서 쓴 글들이니 감안하여 참고해 주시기 바랍니다.

1. Conic section(원추 곡선)

Geometry에는 conic section이라는 것이 있습니다. 그림처럼 두 개의 원뿔을 마주보게 놓은 형태인데, 이것의 단면을 어떻게 자르는가에 따라 2차 곡선이 만들어집니다. Parabola, Circle, ellipse, Hyperbola가 그것입니다.

"Conic sections with plane" by Pbroks13 - Own work. Licensed under CC BY 3.0 via Wikimedia Commons.

Projective geometry에서는 Conic section은 다음과 같이 정의됩니다.

$ax^2+bxy+cy^2+dx+ey+f=0$ - ①

Projective space, $\mathbf{P}^2$에서는 마지막 행에 비율에 관한 하나의 차원이 추가 되므로, $x, y$를 각각 $x_1/x_3, x_2/x_3$로 표현할 수 있습니다. 영상이라는 센서가 3차원 공간을 2차원 영상 평면에 투영 시키는 과정을 상기해보면 자연스럽습니다.

하나의 카메라로 바라본 영상은 내부 변수를 알기 전까지는 작은 물체가 바로 앞에 있는 것인지, 커다란 물체가 저 멀리 있는 것인지 판단할 수 없습니다. 그러한 모호성을 해결해주는 항이 $x_3$이라고 보시면 될 것 같습니다.

식 ①을 다시 써보면,

$ax_1^2+bx_1x_2+cx_2^2+dx_1x_3+ex_2x_3+fx_3^2=0$ - ②

식 ②와 같이 되고, Matrix form으로 만들어 보면

$\mathbf{x^TCx} = 0, \mathbf{C} = \left[\begin{array}{ccc}a & \frac{b}{2} & \frac{d}{2} \\ \frac{b}{2} & c &\frac{e}{2} \\ \frac{d}{2} & \frac{e}{2} & f \end{array}\right]$ - ③

식 ③과 같이 정리할 수 있습니다.

이제 본론으로 들어갈 준비가 다 되었습니다.

2. IAC(Image of Absolute Conic)

이제 AC(Absolute Conic)를 만날 시간입니다. AC는 무한대의 평면에 있는 conic입니다.

무한대의 평면에서 영상 좌표계로 투영된 AC와 IAC

우리 주변에서 찾을 수 있는 예를 들어보겠습니다. 자동차를 타고 달리면서 보름달을 보면 달의 위치는 변하지 않는 것처럼 보입니다. 차의 이동 거리(translation)보다 달의 위치가 절대적으로 멀리 있기 때문입니다. AC는 이보다 더 일반화된 개념입니다.

이런 불변 특성은 아주 중요한 역할을 합니다. 무한대의 점(vanishing points) 2개를 알고 있으면 무한대의 직선(vanishing line)을 얻을 수 있고 무한대의 직선 2개가 이루는 평면이 무한대의 평면(plane at infinity)이기 때문에 영상에서 변하지 않는 특성을 가지는 무언가를 얻어낼 수 있다는 것을 암시하기 때문입니다. 잘 아시는 것처럼 무한대의 점은 평행한 두 직선이 만나는 점에서 얻을 수 있습니다.

projective geometry에서 어떻게 활용되는지 보겠습니다. 직관적으로 움직임에 영향을 받지 않는 요소가 무엇인지 생각해보면 카메라 내부 변수(카메라 캘리브레이션)인 것을 떠올려 볼 수 있습니다.

무한대의 평면은 projective geometry에서 다음과 같이 정의됩니다.

$\mathbf{\pi}_{\infty} = {(0, 0, 0, 1)}^T$

그러면 무한대의 평면의 점 $\mathbf{X_{\infty}}$을 이미지 평면에 투영된 점, $\mathbf{x}$로 변환하는 projection matrix $\mathbf{P}$와 다음의 관계가 성립됩니다.

$ \mathbf{x} = \mathbf{PX_{\infty}} $

여기서 카메라 projection matrix는 카메라 외부 변수 $\mathbf{R, t}$와 내부 변수 $\mathbf{K}$로 나누어 쓸 수 있으므로 다음과 같이 쓸 수 있습니다.

$ \mathbf{PX_{\infty}} = \mathbf{KR[I|-\tilde{C}]}\left[\begin{array}{c}\mathbf{d} \\ 0 \end{array}\right] = \mathbf{KRd} $

여기까지 도출하고 나면 무한대의 평면과 이미지 평면의 관계는 homography인데 $\mathbf{KR}$과만 관계 있다는 것을 알 수 있습니다. 그런데 duality property로 부터 dual conic과의 관계를 이용하면 무한대 평면의 AC의 투영인 IAC는 $\mathbf{K}$하고만 관계가 있다는 것을 얻어낼 수 있습니다. 결국 IAC는 다음과 같이 정리됩니다.

$ \omega = \mathbf{(KR)^{-T}}\mathbf{I}\mathbf{(KR)}^{-1}=\mathbf{K^{-T}}\mathbf{RR}^{-1}\mathbf{K}^{-1}=(\mathbf{KK^T})^{-1} $.

AC와 IAC의 실제 형상을 자꾸 떠올리는 것은 별로 의미가 없습니다. circular points와 같이 실제 하지 않는 가상의 것이기 때문입니다.

2014년 9월 2일 화요일

해시계의 원리와 컴퓨터 비전 응용 #2

Computer vision applications and the principle of the sundial #2

해시계(Sundial) - 해시계의 원리와 컴퓨터 비전 응용 #1

컴퓨터 비전 응용

해시계는 태양의 위치(혹은 태양의 위치로부터 얻어진 그림자)를 통해 시간을 측정하는 장치 입니다. 그러면 거꾸로 시간으로부터 태양의 위치를 혹은 지구상의 위치를 결정할 수 있지 않을까요?

해시계의 원리를 분석해 보면 답이 보입니다. 시간을 알기 위해서는 지구상의 위치를 알아야만 합니다. 적도에서 태양의 위치와 극지방에서 태양의 위치는 같은 시간에도 완전히 다르기 때문입니다. 시간을 알기 위해서 알아야 하는 요소는

위도, 경도

진북 방향

입니다.

'앙부일구'로 시간을 측정할 때 진북 방향으로 향하게 두고, 그림자의 방향과 길이를 보면 절기와 시간을 알 수 있습니다. 우리나라의 서울은 자북과 진북의 차이, 자편각이 서쪽으로 약 7.57도 발생하니 이것을 보정해주고, 동경(도쿄)과 같은 시간대를 사용하는 GMT+9이므로 실제 서울의 동경 127도 보다 빠른 시간대를 사용하기 때문에 이것까지 보정해주면 태양시를 우리가 현재 사용하는 시간으로 구할 수 있습니다.

그러면 거꾸로 시간이 주어지면 어떨까요?

날짜, 시간

진북 방향

이 주어지면 위도, 경도를 알 수 있지 않을까요? 세상은 참 넓고 사람은 많습니다. 그런 생각을 한 사람이 있었습니다.

Junejo, Imran N., and Hassan Foroosh. "GPS coordinates estimation and camera calibration from solar shadows." Computer Vision and Image Understanding 114.9 (2010): 991-1003.

인기 있는 연구 분야는 아니어서 인용은 많이 되지 않았지만 생각을 실제로 구현한 것은 충분히 훌륭한 일이라고 생각합니다.

두 개의 지면에서 수직한 물체기 있는 경우 두 물체가 그리는 포물선의 중심을 연장한 지점이 만나는 곳이 정남향이 됩니다. 현재 그림자의 위치와 물체의 끝점을 연장한 곳에는 태양이 있을 겁니다. 기존의 방대한 데이터로부터 우리는 어떤 시점에 태양이 위치해야 하는 곳을 알고 있기 때문에 그것에서 위치를 결정할 수 있습니다. 년중 단 두 번의 모호함이 있는데 춘분과 추분입니다. 태양의 8자 궤도가 만나는 점입니다.

2014년 9월 1일 월요일

해시계의 원리와 컴퓨터 비전 응용 #1

Computer vision applications and the principle of the sundial #1

해시계(Sundial)

잘 알고 계시는 것처럼 태양의 위치를 통해서 시간을 알기 위한 장치입니다. 과학 시간에 배우던 내용들이 기억이 잘 나지 않지만 자세히 알고 보면 천체의 운동을 오랜 옛날 어떻게 그렇게 정확하게 알고 있었는지 신기하기만 합니다.

"Louxor obelisk Paris dsc00780". Licensed under CC BY-SA 3.0 via Wikimedia Commons.

해시계의 기원은 고고학의 기록으로 기원전 3500년경 오벨리스크(obelisks)로 알려져 있습니다. 태양신을 숭배하던 기원전을 생각하면 하나의 커다란 돌기둥으로 만들어 놓은 오벨리스크는 권위를 상징하는 것이었을 거라고 추측됩니다. 오랜 시간의 역사처럼 해시계의 종류와 형태는 변화무쌍합니다. 지면에 수직인 형태뿐 만 아니라 반지 형태, 목동의 시계로 불리는 원기둥 형태, 최근엔 디지털 해시계도 등장했습니다. 지금은 세슘 원자 시계처럼 엄청난 정확도를 가진 것이 출현했지만 17세기만 해도 기계식 시계보다 해시계가 정확했다고 합니다.

http://www.qwerty.co.za/sundials/types/poledial.html

고대의 사람들은 아마도 그림자의 길이로 시간을 측정했을 것으로 생각됩니다. 그러나 조금만 생각해보면 지면에 수직으로 세워진 해시계는 정확한 시간을 측정할 수가 없습니다. 계절에 따라서 그림자의 길이와 방향이 달라지기 때문입니다. 거기에 우리의 지구는 정확한 구도 아니고 타원체도 아닌 형태를 띄고 있고, 지구의 공전 궤도 또한 타원 운동이기 때문에 년 중 태양을 기준으로 한 하루의 길이는 모두 다릅니다. 아래 그래프에서 보는 것처럼 하루가 24시간에서 몇 분 정도 긴 날도 있고 짧은 날도 있습니다.

"Equation of time" by Equation_of_time.png: User:Drini derivative work: Zazou (talk) - Equation_of_time.png. Licensed under CC BY-SA 3.0 via Wikimedia Commons.

이러한 차이는 'Analemma'라고 하는 아름다운 8자형 고리를 만듭니다. 일 년 동안 같은 자리에서 같은 시간에 찍은 태양의 위치를 연결하면 아래 그림처럼 형성됩니다.

"Analemma fishburn" by Jfishburn - photo taken in 1998-1999 of analemma from office window of Bell Labs, Murray Hill, NJ.. Via Wikipedia.

"Qzss-45-0.09" by Tubas - {Systems Tool Kit (STK) - Analytical Graphics Inc www.agi.com}. Licensed under CC BY-SA 3.0 via Wikimedia Commons.

이 8자형 고리를 이용한 지면에 수직으로 세워진 형태의 해시계를 'Analemmatic sundial'이라고 부릅니다. 따로 정확한 시침(Gnomon)이 필요 없이 사람이 서서 재는 형태의 것들도 있습니다.

"Zonnewijzerherkenrode" by Willy Leenders - Own work. Licensed under Public domain via Wikimedia Commons.

우리나라의 솥모양의 해시계 '앙부일구'는 이러한 천체 운동의 원리가 정확히 반영되어 있습니다. '앙부일구'에서 시침은 우리나라의 위도만큼 지면과 각을 이루고 있습니다. 그렇기 때문에 그림자의 길이가 계절과 관계없이 같은 방향을 가리킵니다. 반원구에 단면이 포물선 모양이라는 것은 태양의 그림자가 바닥에 그리는 궤적을 관찰하여 얻은 것이라고 생각해보면 선조들의 지혜를 엿볼 수 있습니다.