뇌의 시각 처리와 딥 러닝

뇌의 시각 처리와 딥 러닝

시각 정보가 뇌와 인공지능에 미치는 영향은?

  시각, 청각, 미각, 후각, 촉각의 모든 감각이 다 중요하지만, 그중에서도 시각의 역할은 압도적이다. 아무것도 듣거나 맛볼 수 없는 하루와, 아무것도 볼 수 없는 하루를 상상해보면 시각은 중요성이 분명해진다. 볼 수 없으면 아침에 일어나서 샤워하러 갈 수도, 핸드폰을 확인할 수도, 지금 이 글을 읽을 수도 없다.

뇌 속의 시각 회로

  뇌 속의 넓은 영역이 시각 정보를 처리하는 데 쓰인다 (아래 그림). 눈의 망막을 통해 들어온 정보는 먼저 감각 정보의 정거장이라고 불리는 시상(thalamus)으로 전해진다. 시각 정보의 대부분은 시상 속의 외측슬상핵(lateral geniculate nucleus)으로 전해지고 나머지는 시상 속의 위둔덕(superior colliculus)으로 전해지는데, 두 경로의 역할이 다르다.

  위둔덕으로 전해지는 시각 정보는 무엇을 보았는지 정확하게 확인하기 전에 일단 대응할 수 있도록 처리된다. 예컨대 어둠침침한 산길에서 길다란 검은 물체가 보이면 뱀인 줄 알고 화들짝 놀라서 물러설 수 있다. 검은 물체가 진짜로 뱀이었다면 일단 뒤로 물러나는 행동은 뱀한테 물리는 위기를 모면하게 해 준다.

Story image


  그렇게 물러섰다가도, 검은 물체가 움직이지 않으면 뱀이 맞는지 확인해보게 된다. 이렇게 우리 눈에 보인 대상이 구체적으로 무엇(what)이고, 어디에(where) 있는지 확인하는 과정은 외측슬상핵을 거치는 경로에서 일어난다. 외측슬상핵으로 들어간 시각 정보는 뒤통수의 후두엽으로 전해진다. 후두엽에서는 공간 주파수, 선의 방향, 색깔에 대한 기본적인 분석이 이뤄진다. 분석된 정보는 뇌의 양옆 측두엽에 있는 무엇(what) 경로와, 뇌 위쪽 두정엽에 있는 어디(where) 경로로 보내진다. 
 
  어디(where) 경로에서는 대상이 어디에 있는지, 어떻게 움직이고 있는지, 대상들의 상대적인 위치는 어떤지 등 위치에 대한 정보가 처리된다. 다가오는 자동차를 보고 피해서 걸어갈 수 있는 것은 어디(where) 경로 덕분이다. 무엇(what) 경로에서는 대상의 구체적인 모양과 크기가 어떤지, 색깔과 질감이 어떤지 등 세부적인 시각 특성이 파악된다. 우리가 동그란 바탕에 눈, 코, 입을 가진 비슷한 얼굴들을 다른 사람으로 알아볼 수 있는 것도 무엇(what) 경로 덕분이다. 
 

뇌와 딥 러닝의 사물 인식

  살면서 만난 수천 수만의 얼굴 중에서 우리는 어떻게 고등학교 동창의 얼굴, 단골 가게 주인의 얼굴, 거래처 직원의 얼굴을 알아볼 수 있는 걸까? 특정한 얼굴, 예컨대 거래처 직원의 얼굴을 볼 때마다 활성화되는 신경 세포라도 있는 걸까? 
 
  2017년에 발표된 따끈따끈한 최신 논문에 따르면 얼굴 인식에 기여하는 신경 세포들은 개별 얼굴이 아닌, 얼굴을 구성하는 특징(feature)들의 조합에 반응한다. 예컨대 아래 그림처럼 갸름한 얼굴, 동그란 눈, 오똑한 코 같은 특징들이 있으면, 동그란 눈과 오똑한 코에 반응하는 신경 세포 D, 갸름한 얼굴과 동그란 눈과 오똑한 코에 반응하는 신경 세포 E 등이 있는 것이다. 
  

Story image


  뇌와 딥 러닝에서 얼굴을 인식하는 과정을 개념적으로 설명하기 위한 그림. 위 신경 네트워크에서 동그라미 A-G는 각각 하나의 신경 세포를 나타낸다. 뇌 속에서 실제로 얼굴을 인식하기 위해 사용되는 특징은 갸름한 얼굴과 동그란 눈 등이 아닐 수 있다. 초록색 숫자들은 특징들의 조합(D-G)에서 각 특징(A-C)이 차지하는 비중(weight)을 나타낸다.

  뇌의 이러한 얼굴 인식 방식은 딥 러닝(deep learning)의 사물 인식 방식과 대단히 유사하다. 딥 러닝에서는 이전 단계의 특징들(예: 위 그림에서 신경 세포 A, B, C)이 자주 조합되는 방식(예: 위 그림에서 신경 세포 D, E, F, G)을 추출해서 이전 단계 보다 더 추상적이고 복합적인 특징을 나타낸다. 예컨대 신경 세포 D-G가 나타내는 내용은 신경 세포 A-C가 나타내는 내용보다 추상적이고 복합적이다. 이런 과정을 반복해서 뇌와 딥 러닝은 2차원 이미지로부터 얼굴, 티셔츠, 악세사리 등의 사물을 인식해 낸다. 이처럼 복잡한 정보 처리가 필요하기 때문에 눈에 보인 것이 뭔지 알아차리는 데는 약 1/20초가 소요된다.

시각 정보가 마음에 미치는 영향

  시각 자극은 이처럼 넓은 뇌 영역에서 복잡한 과정을 거쳐 처리되며, 풍성한 메시지와 이미지를 전달한다. 예컨대 한방 화장품의 용기 디자인은 전통적인 느낌, 동양적인 이미지, 고풍스러움, 아름다움을 전달한다 (아래 그림). 히피 스타일은 구속받지 않는 자유, 소탈함, 평화, 즐거움 등의 이미지를 전한다. 외모에 신경 쓰지 않는 이들조차 자신의 스타일을 통해 외모에 무관심함을 드러낸다. 이처럼 시각 자극은 보는 사람들에게 반드시 어떤 이미지를 전달한다.

시각 정보는 풍성한 메시지와 이미지를 전달한다. 한방 화장품의 용기 디자인(좌)과 히피 스타일(우).
시각 정보는 풍성한 메시지와 이미지를 전달한다. 한방 화장품의 용기 디자인(좌)과 히피 스타일(우).

 

  문제는 시각 자극의 효과가 워낙 미묘하고 풍성해서 내가 원하는 이미지를 정확하게 전달하기 어렵다는 것이다. 딥 러닝은 이 지점에서 도움을 줄 수 있다. 눈앞의 시각 자극이 풍성한 이미지를 불러일으키는 것은, 수십 년의 인생 동안 뇌 신경망에 축적된 경험, 정서, 오감 중에서 눈앞의 자극과 연관된 것들을 일깨우기 때문이다. 딥 러닝을 활용하려면 이 순서를 조금 바꾸면 된다. 딥 러닝에 다양한 정보를 입력해서 학습시키고, 전달하고 싶은 이미지를 정한 뒤, 이 이미지와 연결된 시각 정보를 딥 러닝에서 골라낸다. 골라낸 시각 정보는 디자인이나 스타일링을 위한 모티프가 될 수 있다. 
 
  좋은 디자인과 스타일링은 미적으로 아름다울 뿐만 아니라 원하는 이미지를 효과적으로 전달해야 한다. 뇌의 시각 처리와 닮은 점이 많은 딥러닝은 디자인과 스타일링도 센스 있게 도와주지 않을까? 

글 : 송민령(뇌과학자)

본 글을 작성해 주신 송민령 뇌과학자님은 카이스트에서 학부 과정을 마친 뒤, 미국 애리조나대학에서 신경과학 전공, 수학 부전공으로 석사 학위를 받았고, 현재 카이스트 바이오 및 뇌공학과 박사 과정에 다니고 있습니다. 《경향신문》에 “송민령의 뇌과학 이야기”, 한겨레 《사이언스온》에 “송민령의 뇌과학: 인공지능과 우리”를 연재하고 계시며 저서로는 <송민령의 뇌과학 연구소>가 있습니다.

출처
[1] Bear MF et al. Neuroscience: Exploring the Brain. Lippincott Williams and Wilkins (2006)
[2] RC O‘Reilly & Y Munakata. Computational explorations in cognitive neuroscience. MIT Press (2000).
[3] Chang L & Tsao DY (2017) The Code for Facial Identity in the Primate Brain. Cell 169:1013–1028.

AI Insights
OMNIOUS blog 소개

AI 스타트업 옴니어스는 2015년 KAIST에서 딥러닝 기술을 연구하던 공동 창업자들에 의해 설립되었습니다. 인공지능과 패션 분야의 전문가들이 모여 그동안 수치화, 문자화하기 힘들던 패션의 감성을 AI로 풀어냅니다. 업계를 선두하는 고객사와 함께 패션 비즈니스의 디지털 전환을 빠르게 실현시키는 것이 옴니어스의 미션입니다.

OMNIOUS blog
서울특별시 강남구 도산대로 38길 14, 2층(논현동, 타이텍스빌딩)