2014년 9월 16일 화요일

R-CNN: Regions with Convolutional Neural Network Features. 저사양의 그래픽 카드에서 GPU mode로 실행하기

R-CNN: Regions with Convolutional Neural Network Features. 저사양의 그래픽 카드에서 GPU mode로 실행하기

 rcnn_demo()를 실행하는 경우 cuda memory가 충분하지 않은 사양의 그래픽 카드에서는 (<=1GB) 기본 설정으로 동작이 되지 않고 아래와 같은 에러 메시지를 출력할 수 있다.

Check failed: error == cudaSuccess (2 vs. 0) out of memory

 Selective search를 통해서 얻어낸 후보군들에 대한 CNN을 통과하는 이미지의 갯수를 한 번에 256개로 설정해두었기 때문에 이것을 적절히 조절하면 저사양의 그래픽 카드에서도 실행할 수 있다.


$RCNN_ROOT/data/rcnn_models/ilsvrc2013/rcnn_model.mat

을 열어 CNN 멤버에 batch_size를 적절히 조절하고 같은 숫자를


$RCNN_ROOT/model-defs/rcnn_batch_256_output_fc7.prototxt


에서 input_dim: 256 으로 설정되어 있는 기본값을 바꾸어 주면 된다.

caffe 를 이용해 MNIST 필기체 인식 해보기

caffe 를 이용해 MNIST 필기체 인식 해보기

Handwritten digit recognition using caffe

$CAFFE_ROOT/examples/mnist에는 mnist dataset에 대한 learning과 test에 대한 데모가 준비 되어 있습니다.

cd $CAFFE_ROOT/data/mnist ./get_mnist.sh
cd $CAFFE_ROOT/examples/mnist ./create_mnist.sh

명령으로 mnist dataset을 받고

cd $CAFFE_ROOT/examples/mnist ./train_lenet.sh

을 수행하면 그림과 같이 학습이 진행되는 것을 확인할 수 있습니다.
lr은 learning rate이고 loss는 각 단계에서 발생된 loss function의 값입니다.


CNN에 대한 학습과정은 다음 링크에서 보다 시각화된 형태로 관찰할 수 있습니다.


마지막 output layer에서 activation되는 neuron을 관찰하면 입력된 숫자와 일치하는 것을 볼 수 있습니다.

 놀라운 것은 이 모든 행동이 처음 네트워크를 구성해주는 것 말고는 모두 자동으로 이루어 진다는 것입니다. 컴퓨터 비전에서 특징점을 추출하거나 에지를 검출하는 필터를 디자인 하고자 할 때 gradient를 볼 수 있도록 하는 필터를 설계하게 되는데, CNN을 학습함으로 인해서 입력값들은 보다 잘 구분할 수 있도록 하는 필터의 값들은 스스로 학습하게 되는 것입니다.

R-CNN: Regions with Convolutional Neural Network Features. 설치와 실행

R-CNN: Regions with Convolutional Neural Network Features. 설치와 실행

CVPR2014에 Rich feature hierarchies for accurate object detection and semantic segmentation이라는 제목으로 게재된 논문에 사용된 소스를 설치하고 실행한 결과에 대해서 게재하고자 합니다.
 R-CNN은 Berkeley Vision and Learning Center(BVLC)에서 만든 caffe(An Open Source Convolutional Architecture for Fast Feature Embedding)를 기반으로 방대한 양의 영상 데이터 베이스로부터 학습한 CNN(Convolutional Neural Network)을 이용해서 물체에 대한 사진을 분류하고 인식하는 방법입니다.

 IMAGENET 2014에서 ILSVRC14 Task 1b: Object detection with additional training data 부문에서 5번째에 랭크 되었습니다(ILSVRC14 결과). 올해 5월에만해도 다른 모든 방법들보다 우수할 것으로 자체적으로 판단하였습니다.

  상위 몇개의 방법들은 CNN을 기본으로 하는 것이 유사하고 각 레이어의 크기와 형태를 정하는 방법들에 의해 성능이 결정되는 경우가 많아서 R-CNN을 분석해보는 것이 물체 인식을 위한 기계 학습에 적절하다고 생각됩니다. MATLAB과 python에 대한 매우 편리한 인터페이스를 지원하기 때문에 text파일로 정의되는 레이어의 크기와 형태를 수정하는 것만으로도 완전히 새로운 CNN을 구성할 수 있기 때문입니다.

 다음 순서로 진행됩니다.
  1. 우분투 14.04 설치
  2. MATLAB 2013b 설치
  3. 우분투 14.04LTS에서 cuda 6.0 설치
  4. caffe 설치 및 실행
  5. R-CNN 설치 및 실행
 여기에서는 3, 4, 5에 대해서만 다룹니다.

caffe 설치와 실행

caffe 설치와 실행

An Open Source Convolutional Architecture for Fast Feature Embedding

 영어, git project, CUDA, Ubuntu에 대해서 익숙하시다면 곧 바로 caffe git hub페이지로 가셔도 좋습니다.


 버전관리 툴을 사용하고 계신다면 git에 대해서 생소하지 않으실 겁니다. open source기반의 VCS는 CVS, Subversion을 거쳐 현재는 git이 대세로 굳어지는 것처럼 느껴집니다.

 git에 대한 한국어 입문을 위한 페이지는 다음을 참조하시기 바랍니다.


 여기에서는 우분투 14.04LTS에 Matlab 2013b가 설치된 환경을 가정합니다.

 사전 설치가 필요한 것들
  • BLAS(ATLAS)
    • sudo apt-get install libatlas-base-dev
  • OpenCV
  • glog, gflags, protobuf, leveldb, snappy, hdf5, lmdb
    • sudo apt-get install libgflags-dev libgoogle-glog-dev liblmdb-dev protobuf-compiler
  1. git clone 생성

    명령으로 로컬 저장소에 복제본을 생성합니다.
    export CAFFE_ROOT=$pwd
  1. MATLAB wrapper 설정

    CAFFE_ROOTMakefile.config에서 MATLAB_DIR을 현재 설치된 경로로 수정
  1. compile

    make all
    make test
    make runtest
정상적으로 cuda가 설치 되었다면 nvcc로 컴파일된 모듈에 대한 정상적인 테스트가 완료됩니다.

  1. MATLAB wrapper 정상 동작 확인

MATLAB을 실행시키고 $CAFFE_ROOT/matlab/caffe 로 이동
matcaffe_init.m을 실행시키면 modelprototxt파일이 없다고 나옵니다.
model은 학습을 통해서 얻은 가중치와 CNN필터의 값입니다. prototxtCNN이 어떻게 구성되어 있는지 description해주는 파일입니다.
$CAFFE_ROOT/examples/imagenet 으로 이동
get_caffe_reference_imagenet_model.sh 파일을 실행시켜 model 파일을 받아옵니다.
$CAFFE_ROOT/matlab/caffe/matcaffe_initmatcaffe_demo를 실행시켜봅니다.
matcaffe_demoILSVRC1000개의 물체에 대한 object classification demo 입니다.


2014년 9월 15일 월요일

ILSVRC(Large Scale Visual Recognition Challenge)

ILSVRC(Large Scale Visual Recognition Challenge)

 PASCAL VOC와 함께 물체 인식 분야에서 양대 산맥을 이루다가 PASCAL VOC가 막을 내리면서, 독보적인 국제대회로 자리 매김 했습니다.

 물체 인식을 위한 DB를 공개하는 역할을 하는 IMAGENET의 영상을 이용해서 학습한 검출기, 분류기를 겨루는 국제대회입니다. 처음에는 물체 분류에 대해서만 국한되어서 진행되다가 최근에는 물체 분류, 검출, 검출 위치 추정까지 점점 난이도가 높아지고 있고 제출되는 결과도 우수해지고 있습니다.

 물체 인식을 위한 DB는 Caltech 101, Caltech 256과 같이 적은 클래에 대한 것이 아니라 IMAGENET은 기본적으로 WordNet의 단어 분류에 따른 명사에 대한 물체 영상 DB구축을 목표로 하므로 매우 방대합니다. 현재 구축되어 있는 DB는 21841개의 물체 종류에 대해서 14,197,122(2014.9.16 기준)개의 영상을 보유하고 있습니다. 조회하는 것은 누구나 가능하지만 다운로드 하려면 협약된 비영리 단체에 한하여 가능합니다. (300GB이상입니다.)



2014년 9월 11일 목요일

Dyson360eye

Dyson360eye

다이슨 로봇청소기


 세계적인 진공청소기 업체인 다이슨에서 360도 카메라를 장착한 청소기를 출시했다고 합니다. 9월 4일이 일본에서 제품 발표회를 한 것 같은데 벌써 며칠 지났습니다. 16년간 2800만 파운드를 들여서 개발했다고 하는데, 정말 성능이 궁금하네요.

 집에서 청소 로봇을 하나 들여 쓰고 있는데, 엔지니어 입장에서 봐도 답답한 구석이 있었습니다. 일반 가정주부의 눈에는 매일 같은 곳에 처박혀 있는 모습을 보면 한심해 보일만도 합니다. 데모 동영상에서 가구의 코너를 검출하고 추적하는 모습이 나오는데, 실제로 visual slam을 적용한 것으로는 첫 번째 상용화 제품이라고 할 수 있을 것 같습니다. 기존에 삼성, LG에서도 천정 카메라를 이용해서 위치 인식을 하는 제품이 있었지만, 사용해본 결과로는 정말 위치 인식을 하고 있는 것이 맞는지 의심스러운 적이 많았습니다. 실제 가정에서 사용하려면 다양한 가구에 따라 끼임이나 바퀴의 들림처럼 오도메트리가 매우 부정확해질 수 있는 경우에 대처가 있어야 할 것인데 기존의 제품은 그런 정도의 성능이 보장되지는 않는 것 같아 보였습니다.

 Dyson360eye를 가지게 된다면 kidnap으로 부터 복귀하는지 테스트해봐야겠습니다. 재미있을 것 같습니다. 몇 달 간 청소한 집을 오늘 다시 하는데, 잠시 다른 방으로 옮겨 놓는다고 헤매고 있으면 16년 동안 개발한 것 치고는 조금 부족할지도 모르겠다는 생각이 듭니다.

The Image of the Absolute Conic


The Image of the Absolute Conic

절대 원뿔 곡선의 사영

 한글로 써보지 않은 용어들은 항상 어색합니다. '절대 원추 곡선의 사영' 역시 마음에 들지 않네요. IAC(Image of Absolute Conic)은 Geometry에서 무척 중요한 영역을 차지합니다. 한글로 쉽게 접근할 수 있는 문서는 없는 것 같아서 글을 적어봅니다. 개인적인 재 해석을 통해서 쓴 글들이니 감안하여 참고해 주시기 바랍니다.


1.     Conic section(원추 곡선)
Geometry에는 conic section이라는 것이 있습니다. 그림처럼 두 개의 원뿔을 마주보게 놓은 형태인데, 이것의 단면을 어떻게 자르는가에 따라 2차 곡선이 만들어집니다. Parabola, Circle, ellipse, Hyperbola가 그것입니다.
Conic sections with plane.svg
"Conic sections with plane" by Pbroks13 - Own work. Licensed under CC BY 3.0 via Wikimedia Commons.
 Projective geometry에서는 Conic section은 다음과 같이 정의됩니다.

\(ax^2+bxy+cy^2+dx+ey+f=0\) - ①

 Projective space, \(\mathbf{P}^2\)에서는 마지막 행에 비율에 관한 하나의 차원이 추가 되므로, \(x, y\)를 각각 \(x_1/x_3, x_2/x_3\)로 표현할 수 있습니다. 영상이라는 센서가 3차원 공간을 2차원 영상 평면에 투영 시키는 과정을 상기해보면 자연스럽습니다.

 하나의 카메라로 바라본 영상은 내부 변수를 알기 전까지는 작은 물체가 바로 앞에 있는 것인지, 커다란 물체가 저 멀리 있는 것인지 판단할 수 없습니다. 그러한 모호성을 해결해주는 항이 \(x_3\)이라고 보시면 될 것 같습니다.

 식 ①을 다시 써보면,

\(ax_1^2+bx_1x_2+cx_2^2+dx_1x_3+ex_2x_3+fx_3^2=0\) - ②

 식 ②와 같이 되고, Matrix form으로 만들어 보면

\(\mathbf{x^TCx} = 0, \mathbf{C} = \left[\begin{array}{ccc}a & \frac{b}{2} & \frac{d}{2} \\ \frac{b}{2} & c &\frac{e}{2} \\ \frac{d}{2} & \frac{e}{2} & f \end{array}\right]\) - ③

 식 ③과 같이 정리할 수 있습니다.

 이제 본론으로 들어갈 준비가 다 되었습니다.

2.     IAC(Image of Absolute Conic)
이제 AC(Absolute Conic)를 만날 시간입니다. AC는 무한대의 평면에 있는 conic입니다.
무한대의 평면에서 영상 좌표계로 투영된 AC와 IAC
우리 주변에서 찾을 수 있는 예를 들어보겠습니다. 자동차를 타고 달리면서 보름달을 보면 달의 위치는 변하지 않는 것처럼 보입니다. 차의 이동 거리(translation)보다 달의 위치가 절대적으로 멀리 있기 때문입니다. AC는 이보다 더 일반화된 개념입니다.

 이런 불변 특성은 아주 중요한 역할을 합니다. 무한대의 점(vanishing points) 2개를 알고 있으면 무한대의 직선(vanishing line)을 얻을 수 있고 무한대의 직선 2개가 이루는 평면이 무한대의 평면(plane at infinity)이기 때문에 영상에서 변하지 않는 특성을 가지는 무언가를 얻어낼 수 있다는 것을 암시하기 때문입니다. 잘 아시는 것처럼 무한대의 점은 평행한 두 직선이 만나는 점에서 얻을 수 있습니다.

 projective geometry에서 어떻게 활용되는지 보겠습니다. 직관적으로 움직임에 영향을 받지 않는 요소가 무엇인지 생각해보면 카메라 내부 변수(카메라 캘리브레이션)인 것을 떠올려 볼 수 있습니다.

 무한대의 평면은 projective geometry에서 다음과 같이 정의됩니다.

\(\mathbf{\pi}_{\infty} = {(0, 0, 0, 1)}^T\)

 그러면 무한대의 평면의 점 \(\mathbf{X_{\infty}}\)을 이미지 평면에 투영된 점, \(\mathbf{x}\)로 변환하는 projection matrix \(\mathbf{P}\)와 다음의 관계가 성립됩니다.

\( \mathbf{x} = \mathbf{PX_{\infty}} \)

 여기서 카메라 projection matrix는 카메라 외부 변수 \(\mathbf{R, t}\)와 내부 변수 \(\mathbf{K}\)로 나누어 쓸 수 있으므로 다음과 같이 쓸 수 있습니다.

\( \mathbf{PX_{\infty}} = \mathbf{KR[I|-\tilde{C}]}\left[\begin{array}{c}\mathbf{d} \\ 0 \end{array}\right] = \mathbf{KRd} \)

 여기까지 도출하고 나면 무한대의 평면과 이미지 평면의 관계는 homography인데 \(\mathbf{KR}\)과만 관계 있다는 것을 알 수 있습니다. 그런데 duality property로 부터 dual conic과의 관계를 이용하면 무한대 평면의 AC의 투영인 IAC는 \(\mathbf{K}\)하고만 관계가 있다는 것을 얻어낼 수 있습니다. 결국 IAC는 다음과 같이 정리됩니다.

\( \omega = \mathbf{(KR)^{-T}}\mathbf{I}\mathbf{(KR)}^{-1}=\mathbf{K^{-T}}\mathbf{RR}^{-1}\mathbf{K}^{-1}=(\mathbf{KK^T})^{-1} \).

 AC와 IAC의 실제 형상을 자꾸 떠올리는 것은 별로 의미가 없습니다. circular points와 같이 실제 하지 않는 가상의 것이기 때문입니다.