영상처리(컴퓨터비전) 기술은 우리와 얼마나 가까워지고 있는가

안녕하세요. Image Processing팀 한주현입니다.

최근 기술 트렌드에 있어서 영상처리 관련 기술은 ‘핫한’ 트렌드 중 하나입니다. 물론 영상처리 및 컴퓨터비전 기술이 각광받기 시작한 것은 상당히 오래 전부터 입니다만, 최근들어 왜 ‘핫한지’ 이번 포스팅을 통해 알아보겠습니다.

영상처리 및 컴퓨터 비전 기술은 잡힐 듯 잡히지 않는 기술입니다. 눈에 보이는 영상을 데이터로 삼아 처리하는 기술이여서 쉬운 것 같아도, 우리가 필요로 하는 정보만 추출 및 가공해서 좋은 결과로 나오게 하기까지 여간 어려운 일이 아닙니다. 그래서인지 그동안 영상 관련 기술을 응용한 사례는 일반적인 분야보다 특수한 분야에서 많이 찾아볼 수 있습니다. 이는 X-ray, CT, MRI 등 의료 영상, 위성 및 항공 사진, 현미경 영상 등 과학 ,우주 및 군사용 영상, CCTV 등 교통영상과 같이 제한된 환경에서 취득된 영상을 처리하는 것이 비교적 쉽기 때문입니다.

그런데 카메라가 내장된 스마트폰이 보편화되면서 상황은 달라집니다. 지금은 많은 이들이 언제든지 영상을 촬영할 수 있고, 좋은 성능의 스마트폰을 통해 영상들을 가공 및 처리가 가능하며, 연결된 네트워크로 공유를 할 수 있습니다. 이제는 특수한 환경이 아닌 일상생활에서 일반 사용자들도 영상처리 기술이 응용된 서비스를 이용할 수 있는 날이 도래하고 있습니다. 바코드, QR코드를 찍어서 연계된 상품 및 정보를 얻는 UX는 보편적인 기술이 되었고, 이제 사용자들은 그냥 상품, 건물, 풍경, 얼굴 등 이미지만 촬영하면 그와 관련된 정보를 받기를 원하고 있습니다.

하지만 앞에서 언급한 바와 같이 영상처리 기술은 조건이 제한될 수록 수월하지만 일반적인 이미지들을 모두 가능케 하기엔 고려해야 될 조건들이 상당히 많습니다. 그래서 iPhone이 인류에게 온 지 약 7년이 지났지만 우리는 QR코드에서 크게 벗어난 보편적인 영상처리 응용 서비스를 아직 만나지 못 하고 있습니다. 그럼 우리는 계속 QR코드와 바코드만 찍어야 할까요?

Beyond QR Code

Uber는 신개념 교통 서비스로 많은 이목을 끌고 있지만, 저희가 Uber를 주목하는 이유는 바로 결제에 있어 신용카드 번호 인식 기술을 사용한다는 점입니다. Uber에서 사용하는 인식기는 card.io의 신용카드 번호 OCR(Optical Character Recognition) 기술입니다.

동영상 1. card.io – http://youtu.be/7lg0nMH4NFk

card.io는 카메라를 통해 들어오는 영상에서 신용카드 영역을 찾고 영역 내 16자리 숫자를 찾아냅니다. 이를 통해 사용자는 카드 결제를 할 때마다 일일이 카드 번호를 입력하지 않아도 카드를 카메라로 찍기만 하면 자동으로 번호가 입력되는 편리함을 가질 수가 있습니다. 얼마전 Apple은 WWDC 2014에서 앞으로 출시될 iOS 8의 Safari에 신용카드 번호 인식기가 내장된다고 발표했습니다. 여기에 사용되는 인식기로는 Jumio의 OCR 기술입니다.

동영상 2. Jumio – http://youtu.be/VpRGwAUTXA4

신용카드 번호도 인식 되고, 신분증에 있는 글자도 인식 되는데 내 얼굴은 어떨까요? 별도의 카드가 없더라도 내 얼굴만 확인되자 출입이 가능하거나 결제가 이뤄진다면 상당히 편할텐데요. 그런 점에서 얼굴 인식 기술도 상당히 많이 발전되고 있습니다. 얼굴 인식 기술은 저희 팀 장언동 매니저님께서 자세한 내용을 포스팅 해주셨습니다. 장 매니저님의 포스팅 시점까지만 해도 사실 얼굴 인식 기술은 인식률을 높이기 위해 많은 노력들이 있었으나 드라마틱한 상승률을 기대하긴 힘들었습니다.

Recognize, Like The Human Eye

지난 3월. Facebook은 놀라운 얼굴 인식 연구 결과를 발표했습니다. Deepface라고 불리는 이 프로젝트는 상당히 높은 97.25%의 인식률의 얼굴 인식기를 개발했습니다. 일반적인 사람의 눈이 97.5%의 인식률이라고 하니 Deepface는 거의 사람과 비슷한 성능을 갖고 있는 것입니다. Facebook은 현재 얼굴 감지 기능 통해 사용자가 업로드한 사진에서 어디에 얼굴이 있는지 알려주고 사용자에게 누구인지 태그를 달게끔 유도하고 있습니다. 그러나 멀지 않은 미래엔 사진을 업로드하면 사진 내 얼굴 위치에 자동으로 누구인지 태그가 달릴 것 입니다.

Deepface는 어떻게 놀라운 인식률을 만들 수 있었을까요? 바로 그 답은 딥 러닝(Deep Learning)에 있습니다. 딥 러닝은 기계 학습(Machine Learning)에 일종으로 사람의 사고 방식을 재현한 방법입니다. 기존 기계 학습의 경우 성능을 높이기 위해 사람이 수동으로 데이터의 각종 특징들을 설계한 후 학습시켰다면, 딥 러닝은 데이터로부터 자동적으로 계층적인 특징들을 학습하고 분류, 인식까지 통합하여 수행합니다. (아마도 딥 러닝과 관련하여 자세한 내용을 조만간에 포스팅할 분이 나타나실 겁니다.)

사진 1. DeepFace: 얼굴 인식을 위해 딥 러닝을 이용

Google은 2012년 딥 러닝을 이용하여 유튜브 내 천만개 이상의 동영상에서 고양이를 인식하는 연구 결과를 발표했습니다. 흥미로운 점은 학습 전 고양이의 이미지를 전혀 알려주지 않은 ‘비지도학습’을 통해 나온 결과라는 점입니다. 이 후 올해 초 Google은 DeepMind 회사를 인수했습니다. DeepMind는 시뮬레이션, 전자상거래, 게임 등 일반적인 용도로 사용이 가능한 인공 지능 기술 개발 회사로 앞으로 구글의 음성 인식, 개인화 서비스, 인식 관련 서비스에 사용될 예정입니다.

딥 러닝의 활용이 활발해지면서 이미지 인식 기술도 발전 가능성이 높아졌지만 이제 막 걸음마를 뗐을 뿐 아직 딥 러닝이 이용된 이미지 인식 기술의 응용 서비스는 당분간 더 기다려야 합니다. 지금 당장 이미지 인식을 이용한 서비스를 이용하고 싶다면 CamFind를 주목하세요.

동영상 3. CamFind – http://youtu.be/M3VQkuu3uUM

처음에 CamFind를 접했을 때는 충격에 사로잡혔습니다. 어떠한 제품이든 무슨 품목이며, 어떤 색이고, 무늬는 어떻고, 과일이 잘 익었는지도 알려주니까요.(사원증을 촬영했더니 SK planet identification card이라는 결과가 나오는데 무섭기까지 했습니다.)  대체 어떻게 했을까요? CamFind의 핵심 기술은 사람입니다. 사람이 이미지를 보고 결과를 대답하는 기술(?)이었습니다. 그렇습니다. 아직 컴퓨터가 영상을 보고 무엇인지 판단하는 일은 사람보다 뒤쳐집니다. 그렇기에 이미지 인식 분야에서 모두가 딥 러닝에 주목하고 있습니다.

Amazon Fire Phone

2014년 6월 18일. Amazon은 자체적으로 개발한 스마트폰 Fire Phone을 선보였습니다. Amazon은 그동안 Kindle을 통해 전자책 시장에서 큰 성공을 거두었고, 전자책을 넘어 다양한 멀티미디어 콘텐츠를 수급하기 위해 Fire Tablet, Fire TV를 잇따라 선보였습니다.

그런데 이번 Fire Phone은 콘텐츠 플레이어 기능과 함께 Amazon의 커머스 역량을 더 집중시킨 기기로 볼 수 있습니다. 더 자세히 소개할 Firefly, Dynamic Perspective 기능 등은 이번 Fire Phone에 새로이 탑재되어 스마트폰을 통한 상품 검색과 상품 보기 등에 더 신경 쓴 모습입니다.

동영상 4. Amazon CEO Jeff Bezos 의 Fire Phone 소개 영상 – http://youtu.be/w95kwXy_MOY

Amazon Fire Phone의 기본 특징은 다음과 같습니다.

  • Hardware
    • 2.2 GHz quad-core Snapdragon 800 processor combined with 2GB of RAM
    • 4.7″ HD display
    • LTE 4 bands of GSM
    • 5 bands of UMTS for better voice coverage
    • 802.11ac support WiFi channel bonding
    • NFC, Bluetooth support
    • 13MP camera(f/2.0 lens) with optical image stabilization
    • 4개의 초저전력 특수 적외선 카메라 – 컴퓨터비전 알고리즘 실시간 처리 가능
  • Fire OS 3.5
    • Android OS 기반으로 Android app 개발과 동일한 개발 과정 후 Amazon Appstore 등록에 필요한 설정만 진행
    • 현재(7/9) 등록된 Fire Phone Apps는 약 185,500개
  • Amazon Prime
    • 유료 멤버십 서비스로 물품 구매 시 2일 내 무료 배송
    • 영화, TV 프로그램, 음악, 전자책 등 콘텐츠를 무료 제공
    • Fire Phone 사용자에게 1년간 무료로 제공
  • Mayday
    • 기존 Amazon Kindle 에서 사용되던 tech advisor 서비스
    • 365일 24시간 서비스이며, 화상통화를 통한 Q&A, 사용자 화면 공유 및 advisor의 drawing을 통한 안내 등을 통해 기기의 사용법, Amazon 서비스의 도움을 받을 수 있음

Amazon Fire Phone의 새로운 도전 – Firefly, Dynamic Perspective

Firefly는 이미지, 텍스트, 사운드 인식을 통한 상품 검색, 연락처 저장 및 통화, 이메일 보내기, 웹사이트 방문 등의 기능을 담고 있습니다. Amazon은 이러한 인식 기능을 개발하기 위해 수년동안 많은 노력을 해왔다고 알려져 있었습니다. 이를 바탕으로 Firefly는 상당량의 데이터를 기반으로 검색이 가능하고, 인식 성능이 좋아 보입니다.

  • 이미지 인식
    • QR코드, 바코드 뿐만 아니라 7천만개의 일반 상품 이미지(가정용품, 책, DVD, CD, 비디오 게임 커버 이미지 등)를 인식할 수 있습니다.
  • 텍스트 인식
    • 전화 번호, 웹 주소, 이메일 주소 등의 문자를 인식합니다.
    • Semantic Boosting – 인식된 문자가 유효한 문자인지 판별합니다.

      촬영된 이미지에서 문자열에 섬광(glare)으로 인해 ‘3’인지 ‘8’인지 판별하기 힘들 경우, 지역번호 206 내 국번 703이 없다면 708로 판별합니다.
    • 이미지 내 문자는 OCR를 통한 디지털 텍스트로 전환 및 저장하면 저장 용량을 대폭 줄일 수가 있습니다.
  • 사운드 인식
    • 3,500만개의 음악을 인식가능하며 인식을 후 음원 구매 및 iHeartRadioStubHub 등의 연계 서비스를 제공합니다.
    • 240,000개 이상의 영화 및 TV 프로그램, 160개의 실시간 TV 채널을 사운드 인식을 통해 검색이 가능합니다.

Firefly는 현재 출시된 인식 서비스 중 가장 광범위한 인식기를 담고 있습니다. Amazon은 이 인식기를 위해 다양한 기술들을 사용했다고 발표했습니다. Adaptive local contrast enhancement, Adaptive noise reduction, Glare detection, Shadow removal, Underline removal, Two phase MSER scanning, Orientation normalization, Multiframe combination, Multiple OCR engines, Page layout analysis, Truncation filtering, Multiframe super-resolution, Confidence filtering, Hybrid 2-pass scanning, Adaptive scaling, Automatic cropping, Flexible orientation, Accumulated signed gradient patch operation 등. 이 중에는 사운드 인식을 위한 기술도 있지만 이미지 인식을 위해 이러한 기술들을 총망라하여 일반적인 상황에서 사용이 가능한 좋은 인식기를 출시한 점에 놀라움을 금치 않을 수가 없습니다.

이뿐만 아니라 SDK를 공개하여 바코드, 책, 날짜(일정), 연락처(명함), 이메일, GeoLocation, 음악, 전화번호, 상품, QR코드, SMS, 비디오, 웹 주소 별로 서드파티 앱에서 필요한 인식기만 사용이 가능합니다. – API Document

Dynamic Perspective는 사용자의 얼굴 움직임을 추적하여 이에 대응하는 콘텐츠의 입체적인 시각을 제공하는 기술로 3D 디스플레이 없이도 입체감을 느낄 수 있고, 모션 제스쳐를 이용한 네비게이션을 이용할 수 있습니다. 입체감을 느끼도록 하는 시도는 이전에 대표적으로 Apple의 iOS7에서 선보인 시차를 이용한 홈 화면의 깊이감 제공 기술이 있습니다. 이 때는 기기의 motion sensor(accelerometer, gyroscope, compass sensor 등)를 이용했지만, 사용자가 보는 각도, 거리를 알 수 없어 제한적이었습니다. 이에 Amazon은 Fire phone 전면에 4대의 카메라를 추가하여 사용자가 현재 어느 지점, 어느 각도, 어느 거리에서 보고 있는지를 계산하고 그에 해당하는 콘텐츠를 입체적으로 나타낼 수 있도록 했습니다. 사용된 카메라의 특징은 다음과 같습니다.

  • 초저전력
  • 어두운 곳에서도 얼굴을 추적할 수 있는 적외선 카메라
  • 120도의 와이드 화면 촬영
  • 2대의 카메라를 통한 디바이스와 사용자간의 거리 계산
  • 사용자의 사용 환경에 따라 모두 포괄할 수 있도록 4대의 카메라 사용
  • Global shutter 방식을 사용하여 10배 빠른 영상 캡쳐

그런데 말입니다. 사람들의 얼굴은 너무나도 다양합니다. 안경도 씁니다. 모자도 씁니다. 헤어 스타일도 천차만별입니다. 피부색도 다릅니다. 그래서 얼굴을 감지하는 기술은 환경 조건에 따라 감지율이 들쭉날쭉 합니다. 그러면 Amazon은 안정적인 얼굴 추적을 위해 어떻게 해결했을까요?

  • 안경을 쓰거나 머리 위로 올린 얼굴, 수염 난 얼굴, 모자 쓴 얼굴, 머리 숱이 많거나 아예 없는 얼굴, 눈썹이 연한 얼굴 등의 가지각색의 얼굴을 감지하기 위해 수 많은 데이터를 수집
  • 헤어 스타일, 조명 변화, 위치 변화, Fire phone의 위치 및 회전 변화 등의 다양한 조건에서 실험하여 감지율을 높임
  • 얼굴의 눈, 입 위치로 감지
  • 얼굴이 프린팅된 객체들로 인해 감지의 오류가 생기는 경우 측정되는 Z-depth와 얼굴의 크기를 통해 실제 얼굴을 감지
  • 다수의 얼굴이 화면에 있을 경우에도 한 사람만 감지하도록 함

Dynamic Perspective 역시 SDK를 공개하여 게임을 비롯한 다양한 서드파티 앱에서 얼굴 추적 기술을 사용할 수 있도록 했습니다.

동영상 5. Amazon Fire Phone 주요 기능 – http://youtu.be/Bs9LIxbEayo

Amazon Fire Phone은 여타 출시된 스마트폰에 비하면 조금 낯선 기기 입니다. 그것은 아마도 Amazon만의 가치를 더 부여했기 때문입니다. Amazon은 세계 제일의 온라인 쇼핑 플랫폼을 보유하고 있고, 그들은 모바일을 통한 연결고리를 위해 Fire Phone을 출시하였습니다. 혹자는 이 스마트폰에 대해 “아날로그 정보를 어떻게 input으로 받아 디지털 정보로 연결하고 이 디지털 정보를 어떻게 아날로그 정보로 output 하는지를 잘 보여주는 기기”라는 평을 합니다. 그렇습니다. 그들은 이러한 input/output을 위해 영상처리 기술을 대폭 채택하여 그들만의 멋진 스마트폰을 선보였습니다.

X, Y, Z. 3 Dimension

Amazon의 Dynamic Perspective가 나오게 된 것은 사용자들이 좀 더 상품을 입체적으로 보고 싶어하기 때문일 것입니다. 평면적인 이미지를 넘어 3차원으로 상품을 살펴볼 수 있다면 굳이 오프라인 매장을 가지 않아도 구매를 결정하는 데 많은 도움을 줄 수 있습니다. 이러한 입체적인 시각을 제공하는 기술도 근래 많이 나타나고 있습니다.

 
동영상 6. Seene – http://youtu.be/nXF1qRFCbII

Seene은 사물의 상하좌우를 촬영하여 이를 3D 형태로 변환해줍니다. 사용자는 모바일 기기를 움직이면서 사물의 입체적 형태를 볼 수 있습니다. 4장의 이미지만으로도 입체적으로 볼 수 있는데 더 많은 영상이 있다면 어떻게 될까요?

 
동영상 7. 123D catch – http://youtu.be/OxsmnDKO7D0

Autodesk 123D Catch는 스마트폰만으로 수 십장의 이미지를 촬영하여 모델링 작업이 가능한 3D 객체로 만들어줍니다. 사용자는 이를 다양한 형체로 변환할 수 있을 뿐만 아니라, 3D 프린터로 출력할 수도 있습니다.

이처럼 여러 영상을 통해 3D로 변환하는 기술을 3D 복원(3D Reconstruction)이라고 하며, 3D 복원을 위해 물리적 형상 정보를 3D 데이터로 획득 및 변환 하는 기술을 3D 스캐닝(3D Scanning)이라고 합니다. 3D 복원으로 사물을 3D 형태로 변환도 하지만, 3D 공간을 만들 수도 있습니다. Microsoft Photosynth는 어떠한 장소에서 촬영된 사진을 바탕으로 3D 공간을 구성합니다. 이를 통해 사용자는 그 장소를 가지 않아도 다양한 위치에서 여러 시야로 구경할 수가 있습니다. Google Maps 또한 유명 지역을 여러 장의 사진을 통해 Photo Sphere라는 형태로 볼 수 있습니다.

Apple과 Google은 최근 3D 스캐닝 기술에 많은 관심과 투자를 하고 있습니다. Apple은 2013년 11월 3D 센싱 전문 회사인 PrimeSense을 인수하면서 언젠가 iPhone, iPad에 3D 스캐닝 기능이 탑재될 것을 예상하게 합니다. Google은 Project Tango를 통해 Apple보다 한발 더 앞서 3D 스캐닝이 가능한 모바일 디바이스를 선보였습니다.

 
동영상 8. Google Tango – http://youtu.be/Qe10ExwzCqk

Project Tango에서 선보인 디바이스에는 일반적인 카메라 뿐만 아니라 모션 트래킹 카메라, 깊이 센서, 컴퓨터 비전 알고리즘 처리를 전문으로하는 2개의 프로세서 등이 탑재되어 실시간으로 현재의 공간을 3D 스캐닝합니다. 이미 호텔업계 및 부동산업계를 비롯한 다양한 파트너사들이 참여하여 3D 스캐닝 기능을 이용한 사업들을 펼쳐나가고 있습니다.

동영상 9. Paracosm 협업 – http://youtu.be/EjsaBRsvMTM

이러한 3D 스캐닝 기능이 탑재된 스마트 디바이스가 보편화되고, 입체적 시각 제공 기술이 더 발전 된다면, 우리는 손 안의 화면에서 다양한 시각으로 풍경을 보고, 게임을 즐기고, 제품을 더 자세히 살펴볼 수 있을 것입니다.

다양한 사례를 통해 살펴봤듯이 영상 처리 및 컴퓨터 비전 기술의 응용은 기술 트렌드의 최대 화두입니다. 특히 커머스 비즈니스의 핵심 포인트인 상품을 잘 보이게, 잘 찾게 하기 위해 영상 처리 기술이 도입되어 입체적인 시각 제공, 이미지를 통한 상품 검색 등 소비자에게 더 친화적인 서비스를 만들고 있습니다. SK플래닛 또한 커머스 서비스에서 더 유익한 환경을 제공할 수 있도록 Image Processing팀에서는 소비자에게 더 다양한 상품 및 오프라인 상점의 모습을 보여줄 수 있는 기술과 판매자에게는 상품 판매 및 고객 관리의 편의성을 높일 수 있는 기술을 개발 중에 있습니다.

감사합니다.

한주현 Image Processing팀

SK플래닛 Image Processing Team에서 영상기반 UX 기술, 3D Vision 기술 개발 업무를 담당하고 있습니다.

공유하기