자세히 보기

By Kim Jin Cheol

김진철의 How-to-Big Data | 빅데이터의 미래 (11)

뉴스
2020.09.2832분

지난 글에서는 정부가 1조 94억 원의 대규모 예산을 투입해서 앞으로 10년간 개발한다고 하는 PIM 방식의 인공지능 반도체 기술이 어떤 것인지

대규모 그래프 연산과 텐서 연산에 효과적인 아키텍처로서 채택된 “프로세서-인-메모리(Processor-In-Memory)” 아키텍처는 실제 연산을 수행하는 프로세서 코어들을 하나의 프로세서에 가능한 한 많이 집적하면서도, 딥러닝 같은 기계 학습 알고리즘의 학습(training)과 추론(inference)을 수행할 때 대용량 데이터들이 프로세서 코어 사이에서 원활하게 교환될 수 있도록 메모리 타일 위에 프로세서 코어를 배치한다.

이렇게 배치된 이 프로세서-메모리 타일 간에 격자 형태로 고대역폭 데이터 교환 패브릭을 배치하여 어떤 프로세서 코어 사이에도 프로세서 코어 간 대칭적으로 데이터 교환이 가능하게끔 만든 아키텍처이다.
 


이 PIM 방식의 인공지능 프로세서로 최근 가장 유망하게 떠오르고 있는 두 가지의 인공지능 프로세서 제품을 살펴보았다. 그래프코어(Graphcore)사의 IPU(Intelligence Processing Unit; IPU)는 그래프 형태로 기술된 연산을 병렬로 처리하기에 최적화된 아키텍처를 가지고 있으며, 인공지능뿐만 아닌 그래프 빅데이터의 처리에도 적합한 아키텍처를 가지고 있다.

그래프코어사의 IPU와 이를 탑재하는 서버인 델(Dell)의 DSS8440 서버, 포플라(Poplar) 그래프 컴퓨팅 소프트웨어 스택이 한데 어우러져 인공지능과 빅데이터 연산에 최적화된 솔루션을 제공할 수 있도록 기술이 구성되어 있다고 소개했다.

그래프코어(Graphcore)사의 IPU와 함께 세리브라 시스템즈(Cerebra Systems)사의 “웨이퍼 스케일 엔진(Wafer-Scale Engine)”에 대해서도 살펴보았다. 이 “웨이퍼 스케일 엔진(Wafer-Scale Engine)”은 극단적으로 소형화되어가는 최근 반도체 프로세서 개발의 경향과는 정반대로, 하나의 프로세서의 크기를 극단적으로 키워, 반도체 공정의 기반이 되는 실리콘 웨이퍼 하나를 통째로 활용해서 가능하면 하나의 프로세서에 많은 프로세서 코어를 집적하려고 시도한 독특한 제품이다.

세리브라 시스템즈(Cerebra Systems)사의 “웨이퍼 스케일 엔진(Wafer-Scale Engine)”은 하나의 프로세서에 40만 개의 프로세서 코어를 집적하여 한 프로세서가 처리할 수 있는 연산의 크기를 극단적으로 키워 인공지능에 필요한 연산 성능을 확보하려 하였다.

현재 반도체 기술의 수준을 고려했을 때, 이렇게 웨이퍼 하나를 통째로 활용해서 프로세서 코어 집적도가 높은 초병렬(hyper-parallel) 프로세서를 만드는 것은, 반도체 회로의 높은 복잡도와 계산의 안정성을 확보하기 위한 신뢰성 확보가 복잡도에 비례해서 지수적으로 증가하기 때문에 기술적으로 매우 어렵다.

이런 기술적인 어려움이 세리브라 시스템즈(Cerebra Systems)사의 “웨이퍼 스케일 엔진(Wafer-Scale Engine)”이 시장에서 독보적인 위치를 차지할 수 있게끔 하는 기술 장벽으로서 역할을 한다고 소개한 바 있다.

인공지능 기술이 예전보다 산업계에 더 많이 확산됐고, 텐서플로우(TensorFlow)와 파이토치(PyTorch)와 같은 딥러닝 소프트웨어 기술들 때문에 딥러닝 기반 인공지능 기술을 활용하는 것이 예전보다 많이 민주화가 되어 쉬워졌다고는 하지만, 아직까지는 인공지능 기술을 제대로 활용해서 실제 비즈니스 현장에서 쓸모 있는 상품과 서비스로 연결시키기 위해서는 여전히 높은 수준의 전문 지식과 경험이 필요하다.

인공지능 분야의 주요 학회로 꼽히는 ACL, CVPR, KDD, AAAI, IJCAI, ICLR, ICML, NeuRIPS(구 NIPS)와 같은 학술회의에 참석하여 최근 학계의 인공지능 연구 동향을 열심히 배우려는 일반 소프트웨어 엔지니어들과 회사들이 크게 늘어난 것은 구글과 페이스북과 같은 인터넷 서비스 회사들이 인공지능 관련 상품을 내어놓으면서 이들 학회에 연구 결과를 적극적으로 공유하고 후원하게 된 것이 큰 계기가 되었다. 이렇게 학계와 산업계가 학술회의와 같은 장소에서 서로 만나 적극적으로 아이디어를 교환하고 협력하는 것은 바람직한 일이지만, 반대로 인공지능 기술의 현재 위치를 보여주는 것이라고 할 수 있다.

정보기술 산업계에서 학술회의 참가와 논문 기여 붐이 인 것은 필자 경험으로는 이번 인공지능 붐이 처음이 아닐까 싶다. 물론, 앞으로 시장을 선도할 정보 기술들은 먼저 학계에서 선행 연구되고, 이 선행 연구된 것들이 실제 선행 연구를 한 연구팀 멤버들이나 대학, 연구소 연구팀들로부터 기술 이전을 받은 회사가 상용화를 하면서 산업계에 들어오게 되기 때문에, 학술회의에서 논의되고 있는 내용이 정보기술 산업과 전혀 동떨어져 있지는 않다. 그래도 학술회의 내용이 산업계에서 주목을 받으면서 동시에 논의되는 경우는 흔한 경우는 아니다.

이런 측면에서 요즘 인공지능 기술에 대한 관심의 상당 부분이 주요 인공지능 학술회의에 연구 결과를 공유하고 논문 기여를 하는 것으로 나타나는 것은 필자에게는 좀 이례적인 것으로 보인다.

구글, 페이스북과 같이 인공지능 기술을 실제로 사업화하여 활용하고 있는 주요 회사들이 인공지능 기술에 대한 돌파구와 새로운 정보를 이런 학술회의에서 찾는다는 것은 시사하는 바가 크다. 그중에서 필자가 독자분들에게 좀 더 강조하고자 하는 점은, 바로 인공지능 기술이 상용화가 될 만큼 충분히 무르익지 않았기 때문에 이런 현상이 나타난다는 점이다.

또 하나 더 염두에 두어야 할 것은, 구글과 페이스북과 같은 기업들이 인공지능 학술회의를 후원하고 이를 통해 연구 결과를 공유하는 것은 이런 학술회의들을 열린 기술혁신의 플랫폼(open innovation platform)으로 활용하기 때문이다.

필자의 개인적인 견해로는, 구글과 페이스북 같은 기업들이 인공지능 학술회의에 많은 논문을 기여하고 연구 내용을 공유하는 것은, 우선 자신들의 인공지능 기술력을 홍보하고 과시하는 측면도 있고, 가뜩이나 시장에 부족한 인공지능 인재들을 찾아내고 영입하기 위한 도구로서 이런 학술회의를 활용하기 때문이다.

이런 다소 실질적이고 진부한 이유와 함께 구글과 페이스북 같은 회사들이 인공지능 학술회의에 적극적으로 참여하는 중요한 이유는, 근본적으로 인공지능 기술이 시장에서 의미 있는 상품으로 바로 연결될 만큼 성숙되지 않았고, 인공지능 기술의 상용화를 위해 우리가 아직 더 알아야 할 것들이 많기 때문이기도 하다.

전 세계의 재능 있는 인공지능 연구자들을 쓸어 담다시피 영입하는 이들 회사가 이미 영입한 인공지능 연구자들의 수를 생각해보면 지금까지 그 어떤 회사나 연구 조직보다도 많을 것으로 추정된다.

이렇게 많은 수의 인공지능 연구자와 전문가들을 모았음에도 이들 기업이 여전히 인공지능 전문 인력이 모자란다라고 생각하는 것은, 기업이 빠른 시장의 변화에서 살아남을 만큼 신속하게 상품으로서 의미 있는 기술을 만들기 위해 겪어야 할 시행착오와 기술적인 난관이 아직도 많기 때문에, 이런 장애물을 뚫기 위해 필요한 시간을 최대한 줄이려는 시도로도 해석할 수 있다.

이런 이유와 함께, 이미 자신들이 영입한 인공지능 전문가들로도 인공지능 기술의 상용화에 필요한 모든 문제를 해결할 수 없기 때문에, 이런 학술 커뮤니티에서 활동하는 연구자들을 통해 자신들이 해결하지 못하는 문제들을 해결할 수 있는 플랫폼으로 이런 학술회의들을 활용하고 있는 것으로 해석할 수 있다. 

이런 관점에서 다른 분야와는 다르게 인공지능 기술의 미성숙성 때문에 아직까지 인공지능 및 뇌과학, 인지 과학 분야의 학술적인 결과물들이 앞으로 나타날 인공지능 기술의 미래에 많은 영향을 미치고 있다는 사실 또한 독자 여러분들이 염두에 두고 인공지능 기술의 사업화 및 활용을 고민했으면 한다.

최근 딥러닝 기술의 미래에 대해서, 딥러닝의 세계적인 전문가이자 기계 학습 분야의 석학인 요슈아 벤지오(Joshua Bengio) 몬트리얼 대학 교수가 지난 2019년 12월 NeurIPS에서 강연한 기조연설 내용을 바탕으로 인공지능 기술이 어떤 모습으로 변화해갈지 같이 생각해보자.

지난 2019년 12월 8일부터 14일까지 캐나다 밴쿠버에서 열린 NeurIPS(Neural Information Processing Systems(신경 정보 처리 시스템 학술회의); 구 NIPS)는 인공지능 학술회의 중에서도 이론적인 연구와 실용적인 연구 발표가 균형을 이룬 수준 높은 학회로 정평이 나 있다.

학술회의 이름에서 알 수 있듯이, 원래 NeuRIPS는 신경망 및 이론 신경 과학, 인지과학 분야의 전문적인 이론과 연구 결과를 공유하고 논의하던 자리로 시작했던 학술회의이다. 현재 딥러닝으로 알려진 신경망 알고리즘의 중요한 이론적인 배경과 아이디어들이 모두 이 NeurIPS를 통해서 발표되고 알려졌다.

CVPR은 아이디어가 분명하고 실제 응용에 초점을 맞춘 연구 성과를 높게 평가하기 때문에 산업계에서도 논문을 많이 투고해 왔지만, NeurIPS와 ICML, ICLR과 같은 학술회의는 인공지능 관련 학술회의 중에서도 원래 매우 전문적이고 이론적인 면을 다루는 학술회의였다.

최근 구글, 페이스북과 같이 인공지능 기술을 주도하는 회사들의 후원과 영향력 때문에 NeurIPS와 ICML과 같은 학술회의도 CVPR와 유사한 트렌드의 논문이 많아지기는 했지만, 원래 학술회의의 색깔은 크게 달라지지 않았다.

NeurIPS의 이런 배경 때문에, 인공지능 분야 중에서 딥러닝과 신경망 관련 분야의 연구 성과에 대해서는 NeurIPS가 독보적인 권위를 자랑하고 있다. 이런 이유로, 딥러닝 분야의 권위자인 요슈아 벤지오 교수 같은 석학이 NeurIPS 학술회의의 기조연설에서 얘기한 내용은 앞으로의 딥러닝 기술 발전에 대한 중요한 통찰과 트렌드를 담고 있어 우리가 꼭 참고해야 할 필요가 있다.

2019년 12월 11일 수요일 오후에 포즈너 강연(Posner Lecture)으로 발표된 요슈아 벤지오 교수의 기조 강연은 우리 인간의 인지 과정에 대한 간단한 소개로부터 시작한다. 행동경제학 분야의 석학으로 사람들의 판단과 의사 결정이 경제에 미치는 영향을 연구하여 2002년 노벨 경제학상을 수상한 심리학자인 대니얼 카네만 교수는, 행동경제학에 관한 대중 서적으로 유명해진 책 “생각에 관한 생각”에서 사람의 인지 과정을 두 가지로 나누어 설명한다. 
 


소위 “시스템 1” 인지 과정은 무의식적이고(unconscious) 직관적으로(intuitive) 일어난다. 즉, 의식적인 생각이 없이 일어나는 과정이다. 예를 들면 무언가를 보고 사물을 인지하거나, 길을 걷다가 자동차나 사람을 보고 피하거나 하는 것같이 본능적으로 일어나는 인지 과정이다.

이런 인지 과정의 특징은 우리가 의식할 틈도 없이 빠르게 일어나며, 언어를 사용하거나 언어로 표현되지 않고 습관적이고 자동적으로 이루어진다는 것이다. 현재 딥러닝이 많이 응용되고 있는 인지 과정은 바로 이 시스템 1 인지 과정에 해당하는 것들이다.

이와는 반대로, 우리가 인간만이 가진 고급 인지 기능이라고 불리는 것들을 “시스템 2” 인지 과정이라고 분류하였다. 예를 들면 지도에서 여행할 목적지를 보고 목적지들을 어떻게 방문하여 여행할지 계획을 세우거나, 앞에 앉아 있는 사람과 하나의 주제에 대해서 깊이 있는 대화를 나누거나, 여러 편의 보고서를 읽고 특정한 결론을 추론해내거나 하는 등의 인지 과정이다. 

이런 인지 과정들의 특징은 앞의 “시스템 1” 인지 과정에 비해서 느리게 일어나며, 논리적이고, 순차적으로 일어나는 과정이라는 것이다. 이에 더해서 “시스템 2” 인지 과정은 우리가 의식적으로 노력을 기울여야 할 수 있는 인지 작용이다. 습관적이고 자동적으로 이루어지는 “시스템 1 인지 과정”과 가장 큰 차이점이 바로 이 의식적인 노력을 기울이느냐 아니냐의 차이이다.

“시스템 2” 인지 과정은 아직 딥러닝이 잘하지 못하는 일이고, 사실 지난 신경망 연구에서 꽤 많은 사람이 “시스템 2” 인지 과정에 해당하는 일들을 신경망에 어떻게 학습시킬 수 있을지 알아내기 위해 시도를 했지만 눈에 띌 만한 성과는 없었다는 점을 생각할 필요가 있다. 

여기서 우리가 주목해야 할 점은, 우리가 IT 전문 미디어가 아닌 일반 언론에서 일반 대중들이 “인공지능”이라는 말을 접했을 때 “인공지능”이 하리라고 떠올리는 일들이 바로 “시스템 2” 인지 과정에 해당하는 것들이라는 것이다. 여기에는 여러 가지 이유가 있을 텐데, “시스템 2” 인지 과정에 해당하는 것들이 인간이 다른 동물들과 다른 고등한 정신 과정을 가진 것을 보여주는 특성이라고 생각하기 때문일 것이다.

이런 이유로 심리학과 컴퓨터 과학, 인공지능 분야에서 가장 먼저 연구가 시작된 분야도 요즘 우리가 딥러닝을 통해 많이 활용하는 “시스템 1” 형태의 인지 프로세스가 아니라, 자연어 이해와 관련된 심볼 처리와 계산 언어학과 관련된 내용이었다. 우리가 언어를 어떻게 다루는지, 그리고 언어를 다룰 때 사용하는 심볼을 다루고 조작하는 방법을 알면 우리의 사고 과정과 지능을 이해할 수 있으리라는 가정에 많은 인공지능 연구자들과 인지 과학자들이 언어 기능에 대한 연구에 매달렸다.

이런 이유로 언어에 대한 이해가 많이 높아지기는 했지만, 오히려 우리 인간의 지능에서 단순한 언어 심볼 처리 이상의 복잡한 기제가 작동하고 있고, 더 조사하고 알아내어야 할 것이 많다는 점만 부각되었다.

사람들이 딥러닝에 열광하는 이유는 바로 초기 인공지능 연구 과정에서 많이 연구되었던 인간의 자연어 심볼 처리와 조작 과정의 상당히 많은 부분이 딥러닝으로 구현 가능하며, 예전의 휴리스틱한 알고리즘 방식으로 풀었던 자연어 심볼 처리와 조작과정에서 미처 완전하게 해결되지 못했던 문제들이 오히려 딥러닝 기반의 알고리즘을 통해서 더 사람에 가깝게 컴퓨터가 처리할 수 있게 되었다는 것이다.

이런 자연어 심볼 처리와 조작과정에 관한 기술중의 대표적인 것이 기계 번역(Machine Translation)이다. 기계 번역 기술은 최근 딥러닝 기술, 특히 재귀 신경망(Recurrent Neural Network; RNN)과 Word2Vec과 같은 단어와 자연어 말뭉치(corpus)의 심볼들을 추상화된 벡터 표현으로 바꾸어 주는 “상태 공간 내재(embedding)” 딥러닝 모델을 사용하면서 그 성능이나 정확도에서 크게 발전을 이루게 되었다. 이런 이유 때문에 많은 사람이 과거 인공지능 기술들이 해결하지 못했던 것들을 딥러닝이 해결해줄 것이라는 희망을 품게 되어 자연어 처리 분야에서 특히 관심을 많이 가지게 된 것이다.

딥러닝 모델이 과거 자연어 처리 모델과 이론이 해결하지 못했던 것들을 최근 많이 해결하는 것처럼 보이기는 하나, 소위 인간의 고등 정신 과정, 즉 “시스템 2” 인지 과정들을 아직 구현하지 못하고 있기 때문에 사실은 완전히 해결된 것은 아니다. 이 점에 대해서는 요슈아 벤지오 교수의 강연 내용을 더 소개하면서 나중에 더 자세히 언급하기로 한다.
 


요슈아 벤지오 교수의 강연은 “시스템 1” 인지 과정을 주로 모델링해온 딥러닝 모델이 최근 “시스템 2” 인지 과정을 모델링하는 방향으로 조금씩 변화하는 경향을 보여주며, 이와 관련된 요슈아 벤지오 교수 연구팀의 최근 연구성과와 요슈아 벤지오 교수 본인의 견해를 소개한다.

요슈아 벤지오 교수의 견해와 연구 성과가 정답은 아닐 수 있다. 그렇지만, 나중에 필자가 언급하듯이 요슈아 벤지오 교수의 발표가 인공지능 기술의 미래에 대한 중요한 시사점을 담고 있고, 요슈아 벤지오 교수 본인이 딥러닝 기반 인공지능 분야의 트렌드를 이끄는 선도적인 연구자이기 때문에 인공지능 기술의 미래에 관해 그의 의견을 들어보는 것은 충분히 의미 있는 일이다.

요슈아 벤지오 교수는 앞으로 딥러닝 기반 인공지능 기술 연구는 세 가지 문제를 중요하게 다루는 연구가 될 것이라 설명하면서, 자신의 연구팀이 이런 문제에 관해 최근에 수행한 결과를 소개한다. 

첫 번째로, 통계적 기계 학습의 이론 체계에 의존해서 체계화된 현재의 확률 분포 안에서의 일반화와 지식 전파(transfer)가 “확률 분포 없는 일반화(out-of-distribution generalization)와 지식 전파(knowledge transfer)”로 확장될 수 있도록 딥러닝 모델을 개선하는 것이다.

두 번째로, 앞서 자세하게 소개한 저수준(low level)의 “시스템 1” 인지 과정을 모델링하고 구현하는 과거 딥러닝 모델을 고수준의 추상적인 표상(representation)을 담고, 인지회로의 합성성(compositionality)를 반영하며, 인과성(causality)를 학습할 수 있는 딥러닝 모델로 개선하는 것이다. 

세 번째로, “행위자 관점(agent perspective)”에서의 학습 전략과 지능을 구현하여 실제 사람이 주변 상황에 대한 정보를 어떻게 받아들이고 활용하는지를 딥러닝 모델의 신경회로 수준에서 구현해서, 사람과 같은 수준의 인공지능을 구현하는데 유용한 중요한 통찰을 얻는 것이다.

위 세 가지 측면은 서로 다른 것처럼 보이지만, 사실은 서로 긴밀하게 연결되어 있다. 먼저, “확률 분포 없는 일반화(out-of-distribution generalization)”는 기계 학습 분야, 특히 통계적 기계 학습 분야의 오래된 가정을 넘어서려는 시도다.

이 가정은 바로 기계 학습에 쓰이는 학습 및 테스트 데이터 각 샘플이, “시간에 따라 변하지 않는 같은 확률 분포에서 나온 데이터이며, 각 데이터는 확률적으로 서로 독립되어 있다는 가정(Independent and identically distribution data; 이하 IID)”이다.

이런 가정은 현재까지 기계 학습 문제를 다소 단순화하면서, 지금까지의 컴퓨터 기술을 이용해 기계 학습 기술을 발전시킬 수 있도록 하는데 크게 기여한 중요한 가정이지만, 실제 인간과 같은 자율 행위자(agent)가 실세계 속에서 다양한 환경을 움직이면서 세상에 대한 정보와 전략을 학습할 때에는 주변 환경이 시시각각 변하기 때문에 사실은 맞지 않는 가정이다[4].

우리가 현재 사용하는 딥러닝 모델의 학습 과정에는, 학습된 딥러닝 모델이 실제 추론을 하면서 문제를 해결하는 상황이 딥러닝 모델이 학습한 분포를 따른다는 가정과 학습 및 테스트 데이터를 생성한 실제 세상에 대한 확률 분포가 시간에 따라 변하지 않는다는, 소위 IID 가정이 내재되어 있다.

이 IID 가정이 없었더라면 딥러닝을 비롯한 통계적 기계 학습 모델과 기술을 현재와 같이 발전시키기가 쉽지 않았을 것이다. IID 가정 때문에 기계 학습 문제가 단순화될 수 있었고, 기계 학습의 원리가 실세계에 대한 확률 분포를 추정하는 과정이라는 중요한 통찰을 밝혀낼 수 있었다.

문제는, 이렇게 인간의 학습 문제를 단순화해서 학습 과정에 대한 많은 중요한 통찰을 얻었지만, 이런 기계 학습 문제를 기술로 반영한 기계가 여전히 사람의 지능을 따라잡고 있지 못하고 있다는 것이다. 이것이 바로, IID라는 가정이 가지는 근본적인 한계와 오류 때문에 현재 딥러닝을 비롯한 기계 학습 기술이 가지게 된 가장 근본적인 한계이다. 보통 딥러닝 기술을 사용하는 사람들은 이 근본적인 가정 때문에 생기는 기술의 한계에 대해서 잘 생각하지 않는다.

요슈아 벤지오 교수는, 기계 학습 분야의 석학답게, 기계 학습 이론 발전의 중요한 초석이 되었던 이 IID 가정을 근본적으로 개선하고, 이를 통해서 딥러닝 모델이 인간의 인지 과정을 보다 더 잘 반영할 수 있도록 개선될 수 있는 방법을 연구하고 있다.

IID 가정은 “시스템 1” 수준의 인지 과정과 같은 저수준의, 특정한 작업(task)에 전문적으로 특화된 딥러닝 모델을 만드는 데에는 잘 맞는 경우가 많다. “시스템 2” 수준의 고수준 인지 과정은, “시스템 1” 수준의 저수준 인지 과정에서 온 다양한 정보가 통합되어 “시스템 1” 인지 과정보다 상위 수준에서 일어나기 때문에, “시스템 2” 수준의 고수준 인지 과정을 구현하는 딥러닝 모델에는 맞지 않을 것으로 예상된다.

이 IID 가정을 극복하려는 것이 “확률 분포 바깥(out-of-distribution; 이하 OOD)의 일반화”이며, 이 OOD 일반화는 시간에 따라 변하는 확률 분포에서 오는 데이터를 이용한 기계 학습 모델의 학습도 포함한다. 이런 OOD 일반화가 일어나는 것은 우리 두뇌의 정보처리 용량이 이 세상의 모든 정보를 담을 수 없을 정도로 제한되어 있기 때문이다. 또한, 우리 육체와 두뇌가 유한하고 공간적으로 한정된(localized) 객체이기 때문에 생겨나는 문제이기도 하다.

이처럼 OOD 일반화를 위해서는 우리 육체와 두뇌의 한계 때문에 우리 두뇌가 채용하고 있는 학습 전략과 방법에 대한 연구가 필요할 수밖에 없는데, 바로 이 때문에 “행위자 관점(agent perspective)”에서의 학습 전략에 대한 연구가 필요한 것이다.

“행위자 관점(agent perspective)”에서 보았을 때, 학습 및 지식 전파, 탐색 전략이 필요한 이유는 일종의 정보 압축과 선택의 관점에서 이해할 수 있다. 앞서 언급했듯이, 우리 인간의 두뇌가 가진 정보처리 용량은 이 세상의 모든 정보를 인지하고 담아두기에는 크게 제한되어 있기 때문에, 인간의 생존에 꼭 필요하고 중요한 사건과 정보만을 빠르게 인지하고 기억, 처리할 수 있도록 우리의 두뇌가 발전해왔을 것으로 인지과학자들은 보고 있다. 

이를 위해서, 저수준의 “시스템 1” 인지 과정에서는 생존에 필요한 사건과 정보를 빠르게 걸러내는 필터링과 관련된 기능들이 발달했을 것이고, 이렇게 필터링된 정보들을 종합하고 맥락을 이해하며, 기억하기 좋게 심볼화, 압축, 조직화하는 과정에서 “시스템 2” 인지 과정을 위한 신경회로들이 발달하게 됐을 것이다.

인간이 감각기관과 “시스템 1” 인지 과정에서 인지된 사건들 사이의 “인과관계(causal relationship)”를 인지하는 것도 이런 맥락에서 이해가 된다. 사건과 정보의 “인과관계(causal relationship)”를 인지하는 것은 우리 두뇌가 가진 신경망이 가장 잘하는 연산 중의 하나인 “연상기억(association memory)” 회로를 이용해서 신경망을 효과적으로 이용해 정보를 저장하는 방법의 하나일 수 있다.

그뿐만 아니라, “인과관계(causal relationship)” 인지는 많은 고등 인지, 사고 과정의 기본으로, “인과관계(causal relationship)” 인지, 추론을 통해서 추상적인 사고와 고급 인지 과정을 위한 신경회로들이 발달하게 되었을 것으로 보고 있다.

“인과관계(causal relationship)” 인지는 우리 두뇌 신경회로와 인지 과정의 “합성성(compositionality)”과도 크게 연관이 있다. 인과관계를 인지하는 과정은, 서로 다른 자극이나 정보가 서로 관련이 있거나 맥락을 가진 전후 관계가 있다는 것을 감지하여 서로 연관을 짓는 과정인데, 이 과정에서 다양한 인지 과정과 인지, 추론 전략들이 복합적으로 작용하게 되기 때문이다. 

또한 이렇게 인지 과정의 “합성성(compositionality)”이 가능하도록 우리의 신경회로가 발달했다는 사실에서 우리 두뇌 신경 회로에서 “상위 수준의 의미론적 표상(high-level semantic representation)”이 어떤 목적을 위해 어떤 방식으로 만들어지는지에 대한 정보와 단서를 얻을 수 있다. 

이렇게 우리 인간이 가진 신경 회로에서 “합성성(compositionality)”을 가지는 “상위 수준의 의미론적 표상(high-level semantic representation)”이 어떤 식으로 조직되고 만들어지는지 우리의 이해가 더 깊어진다면, 우리가 딥러닝 모델을 이용해 “시스템 2” 인지 과정을 어떻게 디자인하고 구현할 수 있을지에 대해서도 좀 더 구체적인 생각을 할 수 있게 된다. 

앞서 다소 길게 설명했듯이, 요슈아 벤지오 교수가 언급한 문제들인 “확률 분포 바깥(out-of-distribution; 이하 OOD) 일반화”, “행위자 관점(agent perspective)”에서의 학습, 인지 과정, “인지 과정의 합성성(compositionality)” 문제들은 이렇게 서로 연관되어 있다. 이들 문제를 딥러닝 관점에서 좀 더 구체적으로 이해하고, 이를 딥러닝 모델로 어떻게 만들 수 있는지 이해하는 것은 현재 딥러닝 기술의 한계를 극복하는 데 꼭 필요하다. 

이렇게 “시스템 2” 인지 과정을 구현할 수 있는 딥러닝 모델을 만들기 위해 우리가 꼭 이해해야 하는 주제가 있는데, 바로 “의식(consciousness)”이다. 요슈아 벤지오 교수가 강연에서 언급했듯이, 이 “의식(consciousness)”은 심리학, 신경과학, 인지과학의 역사를 통해서 다양한 가설들과 이론들이 제시되었지만 과학적으로 구체적인 해답은 얻지 못한 주제여서, 많은 과학자들, 특히, 물리학이나 컴퓨터 과학과 같은 엄밀과학, 수리과학 관점에서 인공지능과 인지과학을 연구하는 과학자들에게는 미신과 같이 치부되는 “금기어(taboo)”였다.

우리가 “의식(consciousness)”라는 말을 인지과학과 심리학, 의학, 신경과학 분야에서 많이 사용하기는 하지만, 정말 “의식(consciousness)”이 뭔지, 왜 필요한지, 어떻게 작동하는지에 대한 정보는 거의 가진 것이 없었다.

최근 딥러닝을 비롯한 수학적 모델을 통해 인지 과정을 모델링하려고 시도하는 물리학자, 컴퓨터과학자, 계산 신경과학자(computational neuroscientist), 수리 심리학자(mathematical psychologist), 수학자, 인지과학자(cognitive scientist)들과 함께, “커넥토믹스 (Connectomics)”와 뇌영상(brain imaging) 과학자들, 실험신경과학자들과 생물심리학자들의 실험을 바탕으로 해서 “의식(consciousness)”에 관한 계산학적 작동 방식에 대한 이해가 조금씩 넓어지고 있는 상황이다.

이 “의식(consciousness)”은, 앞서 설명했던 “행위자 관점(agent perspective)”에서 제한된 계산 용량을 가진 우리 두뇌의 하드웨어를 이용해 우리 주변의 세상을 이해하고 학습하는 과정에서, 우리 두뇌가 제한된 하드웨어의 자원을 신속한 인지와 반응이 필요한 자극과 반응에 집중하고 조직시켜, 방대한 주변 환경에 대한 정보를 선별적으로 신속하게 처리하여 생존에 유리하도록 하기 위해 발달한 회로의 하나일 것으로 생각되고 있다.

이 “의식(consciousness)”의 작동 과정에서 중요한 요소 중의 하나가 바로 “주의(attention)”이다. “주의(attention)”란 다름이 아니라, 감각기관에서 입력되는 자극 중에서 “행위자(agent)”가 현재 목적으로 삼고 있는 행동이나 반응과 관련이 많은 특정한 자극이나 정보에 두뇌의 자원을 집중 시켜 선별적으로 수용해서 사용하는 것이다.

딥러닝에서도 “주의(attention)” 메커니즘을 사용해서 딥러닝 모델의 인식률이나 학습 성능을 더 높이는데, 심리학에서 말하는 “주의(attention)”와 비슷한 의미와 용도로 사용되고 있다. 사실은 심리학에서의 “수용장(receptive field)”과 “주의(attention)” 개념을 딥러닝에서 빌려와서 이를 신경망 연산으로 구현해서 활용하고 있다.

딥러닝에서 “주의(attention)”는 신경망의 출력층(output layer)과 이에 가까운 상위층(layer) 노드(node)의 값을 계산할 때, 입력층(input layer)에 들어온 입력 벡터값 전부를 사용해서 계산하는 것이 아니라, 신경망이 추론하여 출력하려고 하는 값과 관련이 높다고 생각되는 입력 벡터값에 대한 가중치를 높여 출력값 연산에 더 많이 활용하는 방식으로 구현된다. 

원래 딥러닝에서의 “주의(attention)” 모델은 기계 번역 연구자들이 기계 번역의 정확도를 높이는 보정 방법으로 개발한 것이지만, 최근에는 영상 인지 및 컴퓨터 비전을 위한 신경망 모델에서도 개념을 차용해서 쓰고 있다. 신경망이 추론, 예측하여 출력하려는 값과 관련이 높다고 생각되는 입력값을 좀 더 주의해서(attentively) 출력값 계산에 활용하기 때문에 신경망 인지 결과의 정확도를 높이는 데 효과적이라는 기술적인 이유로 많이 쓰고 있다.


딥러닝의 심층신경망 모델에서도 “주의(attention)”를 이용하게 되면 같은 작업에 대해 심층신경망의 동일하게 제한된 계산 자원을 활용해서 기계 번역이나 영상 주석(captioning) 작업의 정확도를 더 높일 수 있다. 딥러닝의 예를 통해 생각해볼 수 있는 것과 같이, 이는 제한된 자원을 더 효과적으로 사용해서 “행위자(agent)”의 목적을 달성할 수 있게끔 하는 우리 두뇌의 자원 활용 전략이라고 생각할 수 있다.

다시 원래 “의식(consciousness)”에 관한 얘기로 돌아가면, 요슈아 벤지오 교수의 설명은 이 “의식(consciousness)”의 작동 과정에서 “주의(attention)”가 중요한 역할을 하고, “주의(attention)”가 “의식(consciousness)”을 소프트웨어로 구현하는데 필요한 중요한 출발점이 될 수 있다는 것이다. “주의(attention)”에 대한 연구와 딥러닝에서의 적용 과정에서 얻은 통찰을 바탕으로, 지금까지 다소 모호하고 미신과 같이 막연하게 그 존재를 믿었던 “의식(consciousness)”을 좀 더 구체적으로 컴퓨터에 구현할 수 있게 되었다는 것이다.

현재까지 축적된 실험 결과를 통해 많은 지지를 받고 있는 우리 두뇌에서의 “의식(consciousness)”에 대한 이론인 “전역 작업공간 이론(Global Workspace Theory)”은 계산 모델로도 구현해서 실험할 수 있을 정도의 “의식(consciousness)”에 관한 다소 구체적인 계산학적 모델과 설명을 제공한다.

최근 인지 신경과학(cognitive neuroscience) 분야의 “의식(consciousness)”에 관한 연구는 이 “전역 작업공간 이론(Global Workspace Theory)”이 어느 정도로 타당하고 한계가 있는지 검증하는 실험과 연구가 많이 이루어지고 있다고 한다[28-46]. 
 


그렇다면, 딥러닝이 “시스템 2” 인지 과정을 모델링하고 소프트웨어로 구현할 수 있도록 하기 위해서는, “시스템 2” 인지 과정에 중요한 “의식(consciousness)”의 작용을 계산학적인 방법으로 모방하는 방법이 현재의 기계 학습 이론 체계에서 수용가능한 방법으로 제안되어야 한다. 이렇게 “시스템 2” 인지 과정을 딥러닝 모델에 반영하여 넣기 위한 방법으로 요슈아 벤지오 교수는 “의식 선험 상태(consciousness prior)”라는 개념을 도입했다.

이 “의식 선험 상태(consciousness prior)”는 앞서 설명한 “의식(consciousness)” 작용을 딥러닝 모델에 넣기 위해 도입한 확률 분포로, 벤지오 교수는 이 “의식 선험 상태(consciousness prior)”가 “희박한 인자 그래프(sparse factor graph)” 형태의 확률 분포가 될 것이라고 가정하였다(그림 5, [26]).

“전역 작업공간 이론(Global Workspace Theory; GWT)”에서 설명하는 것과 같이, 많은 두뇌의 신경 회로 중에서 “의식(consciousness)”의 “주의(attention)”를 받는 신경회로는 극히 소수일 것이고, 다른 신경회로들은 이 “주의(attention)”를 받는 신경회로가 적절하게 기능을 수행할 수 있도록 돕거나 필요한 정보를 제공하도록 하기 위해 “의식(consciousness)” 아래에 묻혀 있게 될 것이다[28-38]. “전역 작업공간 이론(Global Workspace Theory; GWT)”에서 가설로서 내세우는 이런 계산학적인 작동 방식을 실제 딥러닝 모델로 구현하는 방법으로서 “희박한 인자 그래프(sparse factor graph)”와 같은 확률 모델을 도입하는 것이다.
 


“전역 작업공간 이론(Global Workspace Theory; GWT)”에서 가정하는 “의식(Consciousness)” 모델을 딥러닝 방식으로 모델링한 위 “희박한 인자 그래프(sparse factor graph)” 형태의 “의식 선험 상태(consciousness prior)”를 한 딥러닝 모델의 신경회로 모듈 중 하나라고 생각하면, 이를 이용해서 “메타 학습(meta-learning)”과 같은 “시스템 2” 수준의 인지 기능을 딥러닝으로 모델링하는 것도 가능해진다. 

“메타-학습(meta-learning)”은 쉽게 얘기하자면 “학습하는 방법을 배우는 학습(learning to learn)”이라고 생각할 수 있다. 다시 얘기하자면, 우리 인간이 진화하는 과정에서 변화하는 환경과 상황에서 생존확률이 더 높아지게끔 진화하면서, 좀 더 효과적으로 주위 환경에 대해 배우고 생존 방식을 습득하는 다양한 전략을 평가하고 선택하여 더 빠르고 쉽게 학습할 수 있게 하는 신경회로를 발달시키는 과정을 “메타 학습(meta-learning)”이라고 볼 수 있다. 
 


딥러닝에서 “메타 학습(meta-learning)”은 서로 다른 스케일의 연산 시간을 통해 연산을 수행하는 두 시간층의 딥러닝 모델로 구현될 수 있다. 구체적으로 얘기하자면, 특정한 작업을 잘 수행하는 가중치 매트릭스와 바이어스와 같은 학습 파라미터를 추정하는 현재 우리가 사용하고 있는 딥러닝 모델과, 여러 가지의 학습 파라미터와 모델 중에서 시간이 흐르면서 그 당시 상황에 더 잘 맞거나 효과적인 모델과 학습 파라미터 세트를 선택하게 하는, 앞서 말한 딥러닝 모델보다 좀 더 긴 시간 스케일에서 동작하는 딥러닝 모델을 같이 써서 딥러닝 모델을 만들게 되면, 입력값을 통해 인지된 주변 상황에 더 잘 맞는 모델이나 학습 파라미터 세트를 선택해서 다른 환경, 상황에서 다른 모델과 학습 파라미터 세트를 적용할 수 있는 딥러닝 모델을 만들 수 있는 것이다[2, 17-19].

이렇게 딥러닝 모델로 구현된 “의식 선험 상태(consciousness prior)” 모델과 “메타 학습(meta-learning)” 모델을 이용하게 되면, OOD 일반화와 빠른 지식 전파와 같은 고급 인지 과정을 딥러닝에 모델링하는 것도 가능해진다는 것이다(그림 6, [16-26]).

이렇게 “의식 선험 상태(consciousness prior)” 모델과 “메타 학습(meta-learning)” 모델을 통해서 딥러닝 모델이 학습한 여러 인지 과정과 회로들이 서로 합성되어 새로운 인지 과정을 만들어낼 수 있는 인지회로의 “합성성(compositionality)”을 구현할 수 있는 딥러닝 모델로서 요슈아 벤지오 교수는 “재귀 독립 메커니즘(Recurrent Independent Mechanisms; RIM)”을 제안했다[16, 26]. 

요슈아 벤지오 교수가 딥러닝 모델의 인지회로 “합성성(compositionality)”을 구현하기 위한 방법으로 제안한 “재귀 독립 메커니즘(Recurrent Independent Mechanism)”은, 앞서 설명한 “희박 인자 그래프(sparse factor graph)” 모델을 이용해 정보를 표현하고, 이렇게 “희박 인자 그래프(sparse factor graph)”로 표현되어 “의식(consciousness)” 모델이 반영된 신경망 모델에 다시 재귀 신경망 모델을 넣어 순차적으로 입력되는 입력 벡터들로 표현되는 데이터에 대한 동력학적인 특징을 RIM 신경망 모델이 배울 수 있도록 하였다.
 


이렇게 RIM 모듈 여러 개를 이용하여, RIM 모듈이 담당하는 각 계층별로 신경망이 모델링하는 인지회로를 선택, 또는 합성할 수 있도록 심층신경망 모델을 합성하게 되면, 우리가 원하는 인지회로의 “합성성(compositionality)”을 가지는 딥러닝 모델을 만들 수 있다는 것이다. 이렇게 RIM 모듈을 이용해 만든 딥러닝 모델을 이용해, 순차적 MNIST 숫자 인식 문제에서 다른 모델에 비해 인식 정확도가 크게 향상되는 것을 확인할 수 있었다[26].

필자의 글이 일반 매체에 기고되는 이유로 기고 내용의 정확성을 기하기 위해, 되도록 가감 없이 요슈아 벤지오 교수 강연 내용의 핵심을 최대한 쉽게 전달하려고 노력했다. 하지만, 일반 독자분들이 읽고 이해하기에는 다소 어려운 용어와 개념, 딥러닝에 전문적인 내용이 나와 이해하기 어려우실 것 같아, 필자가 요슈아 벤지오 교수 강연 내용을 이렇게 자세히 소개한 이유와 독자분들이 이번 글을 읽고 꼭 기억해 두어야 할 사항을 중심으로 정리하면서 이번 글을 마무리하고자 한다.

첫 번째로, 지금 우리가 알고 다루는 딥러닝 기술만으로는 인공지능을 완성할 수 없다. 현재 딥러닝을 포함한 인공지능 기술은 지극히 세부적이고 아주 전문화된 특정한 작업만을 인지하고 자동화할 수 있을 뿐이다.

딥러닝이 과거 딥러닝 기술이 아닌 심볼 조작(manipulation) 패러다임 기반의 인공지능 기술과 고전적인 알고리즘으로 해결하지 못하던 “시스템 1” 인지 과정 일부를 성공적으로 모델링하는 데 성공했고, 이런 “시스템 1” 인지 과정을 딥러닝을 통해 자동화하는 기술로 새로운 상품과 서비스의 돌파구가 열린 것은 사실이다.

그렇지만, 현재 딥러닝 기술은 “시스템 1” 인지 과정을 특정한 태스크에 전문적으로 수행하는 수준의 기술이지, 결코 인간과 같은 “자율성(autonomy)”과 “전인성(Integrity)”을 갖춘 기술로 나아갈 수 있는 수준이 아니다.

물론 이 “시스템 1” 딥러닝 기술로 해결할 수 있는 문제들을 꾸준히 찾아내고, 이를 이용한 새로운 상품이나 서비스의 혁신을 이루어 내는 것도 중요한 일이다. 이를 위해서도 아직 연구해야 할 것이 많으며, 현재 가장 최신의 딥러닝 모델들도 지속적으로 성능과 정확도가 향상되어 가는 중이다.

다만, 이런 딥러닝 기술들의 효과와 유용성을 지나치게 과장하여 인간과 같은 자율성과 전인성을 갖춘 인공지능을 금방이라도 만들 수 있는 것처럼 홍보하고 생각하는 것은 지양되어야 할 필요가 있다.

딥러닝을 비롯한 기계 학습 기술의 유용성이 새로이 발견되고 있고, 산업적인 기반과 응용도 활발해지고 있는 추세이기 때문에 예전과 같은 “인공지능의 겨울”은 심각하게 오지 않을 것으로 생각된다. 그렇지만, 딥러닝을 비롯한 기계 학습, 인공지능 기술의 효용에 대한 지나친 과장과 몰이해에 따른 기대는 진지하게 인공지능 기술 연구와 상업화에 임하는 연구자들과 회사들을 어렵게 할 수 있으니 자제되어야 한다.

두 번째로, 딥러닝 기술 연구의 방향도, 현재 일반 기술 매체에서 많이 다루는 객체 인식과 같은 하위 수준의 “시스템 1” 인지 과정의 정확도와 성능을 높이는 것보다는, 최신 뇌과학과 인지과학의 성과를 반영해서 인간의 고등 정신 과정을 모델링할 수 있는 딥러닝 모델을 탐색하고 찾아가는 방향으로 서서히 선회하고 있다.

인공지능 분야의 전문가들이 종종 딥러닝 거품에 대해 토로하듯이, 필자도 언론과 미디어에서 딥러닝 기반 인공지능 기술에 대해 지나친 장밋빛 기대를 과장되게 얘기하는 것에 대해 많이 불편하다. 다행히도 최근 알파고로 시작된 딥러닝 붐은 조금씩 차분하게 정리되어 가면서 실질적인 기술 발전이 이루어지는 방향으로 발전되는 것 같아 안심되지만, 여전히 인공지능 기술에 대한 과장된 기대와 홍보는 남아 있는 것 같다.

딥러닝 기술로 할 수 있는 것이 많은 것은 사실이지만, 아직 딥러닝 기술과 딥러닝의 뿌리가 된 뇌과학, 심리학적 가설과 실험 결과들의 연구조사를 통해서 우리 두뇌의 작동 방식에 대한 이해를 더 깊게 할 필요가 있다. 앞으로 딥러닝 분야의 새로운 혁신과 돌파구는 바로 이런 뇌과학, 심리학, 인지과학의 새로운 연구성과를 기반으로 해서 나타날 가능성이 높다.

이번 요슈아 벤지오 교수의 기조 강연 내용이 이런 가능성을 명료하게 보여준다. 이번 기조 강연에서 보여준 요슈아 벤지오 교수의 연구 내용은, 물론 본인의 전문 분야인 딥러닝 모델의 새로운 연구 방향을 창출하고 확장하는 측면에서 이루어진 측면도 있지만, 기본적으로 우리 두뇌의 정보 처리 방식에 대한 깊은 호기심과 지식에 대한 열망에서 시작된 연구라고 볼 수 있다.

필자가 왜 이런 얘기를 하는가 하면, 요슈아 벤지오 교수도 강연에서 언급했듯이 강연의 주된 내용으로 다루어진 “의식(consciousness)”에 관한 내용은 한동안 과학자들 사이에서 미신이나 허상과 같은 존재로 터부시되어 연구를 하는 것 자체를 부정적으로 생각했던 주제였다.

그렇지만 요슈아 벤지오 교수는 이 주제를 정면으로 다루어서 딥러닝 모델에서 “의식(consciousness)”에 관한 심리학, 인지과학 모델인 “전역 작업공간 이론(Global Workspace Theory)”을 계산학적으로 구현할 방법을 고민하고 이를 통해서 새로운 딥러닝 아키텍처를 제안하였다는 점을 주의 깊게 볼 필요가 있다.

요즘 필자를 불편하게 하는 것 중의 하나는, 텐서플로우나 파이토치등의 딥러닝 소프트웨어 프레임워크를 인공지능 기술로 내세워서 이런 소프트웨어 프레임워크만 잘 다루면 인공지능 기술을 만들 수 있다고 홍보하는 것이다. 또한, 이런 경향에 맞추어 정부에서 인공지능 엔지니어들을 대량으로 양성하겠다고 계획을 발표하는 것이다.

이전 글에서도 언급했지만, 텐서플로우와 파이토치와 같은 딥러닝 소프트웨어 프레임워크는 딥러닝 모델을 쉽게 만들고 테스트, 배포할 수 있도록 돕는 도구 기술이다. 이들 기술을 능숙하게 다룰 수 있다면 딥러닝을 이용한 인공지능 기술을 만들고 활용하는 데 많은 도움이 되겠지만, 그 자체로 인공지능 전문가가 되는 것은 아니다. 구글과 페이스북에서 텐서플로우와 파이토치를 만들어 배포하는 것은 딥러닝 기술 개발을 쉽게 하여 자사의 클라우드 서비스와 SNS 서비스의 활용을 높이려는 전략적인 측면도 있다.

인공지능 기술의 대중화와 인력 양성은 필자도 절실하게 바라는 바다. 하지만 인공지능 기술 발전을 저해하고, 정작 길러진 인력들이 시장에 적응하는데 혼란을 줄 수 있는 방식이 아닐지 신중하게 숙고하여 접근했으면 한다.

인공지능 기술이 성숙하기 위해서 아직 우리가 알아야 할 것들이 많기 때문에, 반드시 물리학, 수학, 컴퓨터 과학, 뇌과학, 심리학, 인지과학과 같은 기초 학문의 발전이 같이 수반되어야 한다. 엔지니어들의 대량 양성과 함께, 이에 맞게 인공지능 기술의 기초를 닦을 수 있는 전문 인력을 어떻게 양성할 것인지도 진지하게 고민이 되었으면 한다.

이번 요슈아 벤지오 교수의 강연에서 본 것과 같이 딥러닝 기술도 앞으로 인지과학, 뇌과학, 심리학의 연구 성과에서 새로운 돌파구와 혁신의 아이디어를 얻게 될 것이다. 딥러닝 분야의 대가가 천명한 것과 같이, 최근 딥러닝 연구의 방향이 “시스템 1” 인지 과정을 모델링, 응용하는 것에서 “시스템 2” 인지 과정을 모델링, 응용하는 것으로 서서히 전환되고 있으니, 딥러닝 기술을 응용한 상품과 서비스를 만드는 소프트웨어 엔지니어나 회사들도 이런 경향을 참고하는 것이 좋을 것 같다. 

세 번째로, BERT 및 GPT-3와 같은 언어 모델이 본격적으로 상용화되기 시작하면서, 현재 딥러닝 모델과 학습에 사용하는 데이터의 크기만 무조건 키우면 인공지능을 만들 수 있을 거라고 생각하는 경향이 심해졌는데, 결코 그렇지 않다. “자율성(autonomy)”을 기초로 진정한 비즈니스 모델 혁신을 만들 수 있는 인간 수준의 인공지능을 만들기 위해서는 아직도 연구하고 찾아내야 할 것들이 많다.

딥러닝 모델도 “시스템 2” 인지 과정을 모델링하고 소프트웨어로 구현할 수 있게 하는 수학적 모델과 방법이 더 많이 연구되어야 한다. “시스템 2” 인지 과정을 모델링할 수 있는 새로운 딥러닝 모델과, 기존의 딥러닝 모델을 문제에 맞게 적절하게 사용하여 사이버 물리 시스템 인공지능의 아키텍처를 설계하고, 이에 맞는 학습 전략과 알고리즘을 만들어 내는 일이 앞으로의 인공지능 연구의 큰 흐름이 될 것이다.

이번에 필자가 소개한 요슈아 벤지오 교수 강연 초반에, 요슈아 벤지오 교수는 최근 BERT 및 GPT-3와 같은 언어 모델 딥러닝 기술 동향으로 대표되는 최근 인공지능 기술 트렌드에 대해서, 마치 우리 두뇌 내부가 여물고 적절하게 성장하기도 전에 크기만 키우고 데이터만 부어 넣으면 인공지능이 만들어 질거라고 생각하는 것 같다고 비판하는 말을 가볍게 한 적이 있다.

최근 일부 언론에서 GPT-3가 사람과 비슷하게 대답하고 성능이 좋아진 것을 두고 사람과 같은 인공지능이 곧 출현하는 것이 아니냐는 식의 보도를 한 적이 있는데[48, 50-52], 이는 정말 대중을 잘못 이해시킬 수 있는 말이다. 현재 GPT-3 모델에는 앞서 언급한 것과 같은 “시스템 2” 인지 과정을 모델링하거나 구현하는 부분이 없다. 

현재 GPT-3 모델은 GPT-3 모델이 학습한 데이터상에서, 현재 주어진 입력에 대해서 다음에 나타날 확률이 가장 높은 대답을 계산하여 내놓는 것에 불과하고, 이 과정을 많은 데이터와 딥러닝 특유의 많은 수의 학습 파라미터를 통해서 보다 정밀하게 다듬었을 분이다.

어떻게 만들었건 사람과 유사한 대답을 하면 인공지능으로 볼 수 있는 것 아니냐고 반문하실 분들도 있을 것이다. 이 질문에 대답하기 위해서는 튜링 테스트와 인지과학, 현상학과 같이 다양한 분야에 대한 얘기를 같이해야 해서 이 글에서 자세히 언급하지는 않겠다. 어찌 되었건, GPT-3와 같은 거대 언어 모델이 내어놓는 답은 인간과 같은 대화와 소통을 하는 것이 아니라, 주어진 입력에 대해 과거 학습한 대화 언어 데이터에서 답변으로 나올 확률이 가능 높은 답변을 조작(manipulate)해서 만든다고 보는 것이 정확하다[49].

BERT, GPT-3와 같은 언어 모델의 등장이 시사하는 바는 앞으로 발전하는 컴퓨팅 기술과 인공지능 소프트웨어 기술의 발전으로, 인공지능이 점점 더 복잡한 작업을 처리하면서 인간의 작업과 일을 좀 더 지능적으로 돕게 될 거라는 전망이다. 인간의 일자리를 단시간 내에 대체한다는 식의 극단적인 관점으로 인공지능 기술을 바라본다면 인공지능 기술이 줄 수 있는 큰 기회를 놓치게 되고 말 것이다.

텐서플로우, 파이토치 경쟁으로 시작된 딥러닝 및 기계 학습 소프트웨어 기술의 발전은 인공지능 소프트웨어 엔지니어링 기술과 체계의 발전으로 이어져 점점 더 복잡한 아키텍처를 가지는 인공지능 모델의 출현과 활용을 가능하게 할 것이다.

이런 경향이 서비스와 상품, 인프라의 지능화 수준을 높이면서, 첨단 기계 지능의 향상과, 이런 기계 지능 향상에 쓰이는 인공지능 및 관련 기술의 실제 산업 현장의 배치 및 활용 사이에 생기는 시간차 때문에 나타나는 비즈니스 기회로 인공지능 및 지능형 서비스, 인프라와 관련된 많은 일자리와 산업 발전의 기회가 생길 수 있는 것에 우리 모두의 관심을 더 집중했으면 한다.

인공지능 소프트웨어가 복잡해지면서, 인공지능 기술의 경쟁은 앞으로 단순한 알고리즘의 경쟁이 아니라, 비즈니스에 사용할 인공지능 모델 디자인과 엔지니어링이 주요 경쟁력이 되는 시대가 다가오고 있다. 현재의 BERT와 GPT-3 모델은 벌써 이런 경향이 나타나고 있음을 강하게 뒷받침하고 있다.

이로 인해서 사이버 물리 시스템을 이용한 상품과 서비스 디자인에 필요한 인공지능 시스템을 적절한 시간내에 높은 품질로 만들어낼 수 있는 인공지능 디자인과 엔지니어링 역량이 앞으로 주요 기업의 중요한 역량의 하나로 자리 잡을 것이다. 이런 경향 때문에, 인공지능 시스템을 요구사항에 맞춰 신속하고 높은 품질로 설계, 구축할 수 있는 인공지능 시스템 아키텍트의 필요성도 점점 더 높아지게 될 것이다.

이렇게 인공지능 기술의 발전과, 이로 인해 사이버 물리 시스템으로 통칭되는 지능형 시스템의 발전이 주는 비즈니스 기회에 주목하고 대비하자. 하지만, 지나친 장및빛 전망과 인공지능 기술의 성숙도를 고려하지 않은 낙관론은 경계하자. 

필자가 이번 글에서 요슈아 벤지오 교수의 기조 강연 내용을 소개하면서 언급했듯이, 아직 기계가 사람과 같은 자율성과 전인성을 갖추기에는 우리가 우리의 두뇌에 대해 모르는 것이 너무 많다. 현재 우리가 가진 인공지능 기술이라는 도구의 한계를 명확하게 알고 사용한다면 인공지능 기술은 우리의 비즈니스에 많은 기회를 안겨줄 것이다. 

[참고문헌]
[1] 김진철, “LHC에서 배우는 빅데이터와 machine learning 활용 방안”, 2016년 9월 28일, A CIO Conversation for Technology Leadership – Breakfast Roundtable 발표 자료
[2] Yoshua Bengio, “From System 1 Deep Learning to System 2 Deep Learning”, NeurIPS 2019, Posner Lecture, Wednesday, December 11, 2019. (https://slideslive.com/38922304/from-system-1-deep-learning-to-system-2-deep-learning)
[3] Martin Arjovsky, Léon Bottou, Ishaan Gulrajani, David Lopez-Paz, Invariant Risk Minimization, arXiv:1907.02893, 2019. (https://arxiv.org/abs/1907.02893)
[4] Leon Bottou, “Learning Representations Using Causal Invariance”, International Conference on Learning Representations (ICLR) 2019, Invited Talk, 2019.
[5] Razvan Pascanu, Caglar Gulcehre, Kyunghyun Cho, Yoshua Bengio, “How to Construct Deep Recurrent Neural Networks”, Proceedings of the International Conference on Learning Representations (ICLR) 2014, arXiv:1312.6026, 2014. (https://arxiv.org/abs/1312.6026)
[6] Guido F. Montufar, Razvan Pascanu, Kyunghyun Cho, Yoshua Bengio, “On the Number of Linear Regions of Deep Neural Networks”, Proceedings of the Neural Information Processing Systems (NeurIPS) 2014, 2014. (https://papers.nips.cc/paper/5422-on-the-number-of-linear-regions-of-deep-neural-networks)
[7] Honglak Lee, Roger B Grosse, Rajesh  Ranganath, Andrew Y. Ng, “Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations”, Proceedings of the 26th Annual International Conference on Machine Learning (ICML 2009), p. 609–616, 2009. (https://doi.org/10.1145/1553374.1553453)
[8] Brenden M. Lake, Ruslan Salakhutdinov, Joshua B. Tenenbaum, “Human-level concept learning through probabilistic program induction”, Science, V. 350 Iss. 6266, p. 1332 – 1338, 11 DECEMBER 2015. (DOI: 10.1126/science.aab3050, https://web.mit.edu/cocosci/Papers/Science-2015-Lake-1332-8.pdf)
[9] Brenden M. Lake, Marco Baroni, “Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks”, Proceedings of the 35th International Conference on Machine Learning (ICML 2018), PMLR 80:2873-2882, 2018. (http://proceedings.mlr.press/v80/lake18a.html)
[10] Dzmitry Bahdanau, Shikhar Murty, Michael Noukhovitch, Thien Huu Nguyen, Harm de Vries, Aaron Courville, “Systematic Generalization: What Is Required and Can It Be Learned?”, The 7th International Conference on Learning Representations 2019, arXiv:1811.12889, 2019. (https://arxiv.org/abs/1811.12889)
[11] Dzmitry Bahdanau, Harm de Vries, Timothy J. O’Donnell, Shikhar Murty, Philippe Beaudoin, Yoshua Bengio, Aaron Courville, “CLOSURE: Assessing Systematic Generalization of CLEVR Models”, arXiv:1912.05783, 2019. (https://arxiv.org/abs/1912.05783)
[12] Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio, “Neural Machine Translation by Jointly Learning to Align and Translate”, Proceedings of the 4th International Conference on Learning Representations 2015, arXiv:1409.0473, 2014. (https://arxiv.org/abs/1409.0473)
[13] Egger, S.W., Remington, E.D., Chang, C. et al., “Internal models of sensorimotor integration regulate cortical dynamics,” Nature Neuroscience 22, 1871–1882 (2019). (https://doi.org/10.1038/s41593-019-0500-6)
[14] Nan Rosemary Ke, Anirudh Goyal ALIAS PARTH GOYAL, Olexa Bilaniuk, Jonathan Binas, Michael C. Mozer, Chris Pal, Yoshua Bengio, “Sparse Attentive Backtracking: Temporal Credit Assignment Through Reminding”, Proceedings of the Neural Information Processing Systems 31 (NeurIPS 2018), 2018. (https://papers.nips.cc/paper/7991-sparse-attentive-backtracking-temporal-credit-assignment-through-reminding)
[15] Maxime Chevalier-Boisvert, Dzmitry Bahdanau, Salem Lahlou, Lucas Willems, Chitwan Saharia, Thien Huu Nguyen, Yoshua Bengio “BabyAI: A Platform to Study the Sample Efficiency of Grounded Language Learning”, Proceedings of the International Conference on Learning Representations (ICLR) 2019, 2019. (arXiv:1810.08272, https://arxiv.org/abs/1810.08272)
[16] Yoshua Bengio, “The Consciousness Prior”, arXiv:1709.08568, 2017. (https://arxiv.org/abs/1709.08568)
[17] Yoshua Bengio, S. Bengio, J. Cloutier, “Learning a synaptic learning rule”, Proceedings of the International Joint Conference on Neural Networks 1991 (IJCNN-91-Seattle), 1991. (DOI: 10.1109/IJCNN.1991.155621, https://ieeexplore.ieee.org/document/155621)
[18] Jürgen Schmidhuber, “Evolutionary principles in self-referential learning, or on learning how to learn: the meta-meta-… hook”, Institut für Informatik, Technische Universität München, 1987.
[19] Jürgen Schmidhuber, “Steps towards `self-referential’ learning”, Technical Report CU-CS-627-92, Department of Computer Science, University of Colorado at Boulder, November 1992.
[20] Jürgen Schmidhuber, “Learning Factorial Codes by Predictability Minimization”, Neural Computation Vol. 4 Iss. 6, p. 863 – 879, 1992.
[21] Jürgen Schmidhuber, “A self-referential weight matrix”, Proceedings of the International Conference on Artificial Neural Networks, Amsterdam. pp. 446-451, 1993.
[22] Jürgen Schmidhuber, “On decreasing the ratio between learning complexity and number of time-varying variables in fully recurrent nets”, Proceedings of the International Conference on Artificial Neural Networks, Amsterdam. pp. 460-463, 1993.
[23] Bernhard Scholkopf, Dominik Janzing, Jonas Peters, Eleni Sgouritsa, Kun Zhang, Joris Mooij, “On Causal and Anticausal Learning”, Proceedings of the 29th International Conference on Machine Learning (ICML-12), p. 1255—1262, 2012.
[24] Yoshua Bengio, Tristan Deleu, Nasim Rahaman, Rosemary Ke, Sébastien Lachapelle, Olexa Bilaniuk, Anirudh Goyal, Christopher Pal, “A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms”, arXiv:1901.10912, 2019. (https://arxiv.org/abs/1901.10912)
[25] Nan Rosemary Ke, Olexa Bilaniuk, Anirudh Goyal, Stefan Bauer, Hugo Larochelle, Bernhard Schölkopf, Michael C. Mozer, Chris Pal, Yoshua Bengio, “Learning Neural Causal Models from Unknown Interventions”, arXiv:1910.01075, 2019. (https://arxiv.org/abs/1910.01075)
[26] Anirudh Goyal, Alex Lamb, Jordan Hoffmann, Shagun Sodhani, Sergey Levine, Yoshua Bengio, Bernhard Schölkopf, “Recurrent Independent Mechanisms”, arXiv:1909.10893, 2019. (https://arxiv.org/abs/1909.10893)
[27] Anirudh Goyal, Alex Lamb, Jordan Hoffmann, Shagun Sodhani, Sergey Levine, Yoshua Bengio, Bernhard Schölkopf, “Recurrent Independent Mechanisms”, arXiv:1909.10893, 2019. (https://arxiv.org/abs/1909.10893)
[28] Global workspace theory – Wikipedia, (https://en.wikipedia.org/wiki/Global_workspace_theory)
[29] R. Robinson, “Exploring the ‘Global Workspace’ of Consciousness,” PLoS Biol 7(3): e1000066. doi:10.1371/journal.pbio.1000066, 2009.
[30] Stanislas Dehaene, Consciousness and the Brain. Viking. pp. 161 – 177, 2015. (ISBN 978-0670025435)
[31] Danko Nikolić, “Practopoiesis: Or how life fosters a mind”. Journal of Theoretical Biology 373: 40–61. arXiv:1402.5332, 2015. (doi:10.1016/j.jtbi.2015.03.003. PMID 25791287.)
[32] Susan Blackmore, “There Is No Stream of Consciousness”. Journal of Consciousness Studies 9 (5–6): p.17-28, 2002.
[33] James, William, The Principles of Psychology: Volume 1, Cosimo Classics. p. 244. ISBN 978-1602062832, 2013.
[34] J. W. Dalton, The unfinished theatre, Journal of Consciousness Studies, 4 (4), p. 316-18, 1997.
[35] A. C. Elitzur, “Why don’t we know what Mary knows? Baars’ reversing the problem of qualia”, Journal of Consciousness Studies, 4 (4), p.319-24, 1997.
[36] Bernard J. Baars, A Cognitive Theory of Consciousness, Cambridge, MA: Cambridge University Press, 1988.
[37] Bernard J. Baars, In the Theater of Consciousness (New York, NY: Oxford University Press), 1997.
[38] Bernard J. Baars, “The conscious access hypothesis: Origins and recent evidence”, Trends in Cognitive Sciences, 6 (1), 47-52, 2002.
[39] Susan Blackmore, There is no stream of consciousness. Journal of Consciousness Studies 9. 5-6, 2002.
[40] Susan Blackmore, “Why Global Workspace Theory cannot explain consciousness (2004)” Presentation, 2004.
[41] Susan Blackmore, Conversations on consciousness, Oxford: Oxford University Press, 2005.
[42] A.R. Damasio, “Time-locked multiregional retroactivation: A systems-level proposal for the neural substrates of recall and recognition”, Cognition 33. 1-2:25-62, 1989.
[43] S. Dehaene, C. Sergent, and J.-P. Changeux, “A neuronal network model linking subjective reports and objective physiological data during conscious perception,” Proc. National Academy of Science (USA) 100. 14: 8520-8525, 2003.
[44] T. Metzinger, (ed), Neural Correlates of Consciousness: Empirical and Conceptual Questions, MIT Press, 2000.
[45] M.P. Shanahan, “A cognitive architecture that combines internal simulation with a global workspace”, Consciousness and Cognition 15: 433-449, 2006.
[46] C. Bao, Z. Fountas, T. Olugbade, and N. Bianchi-Berthouze, “Multimodal Data Fusion based on the Global Workspace Theory”, arXiv:2001.09485, 2020.
[47] 김종윤, “GPT-3, 인류 역사상 가장 뛰어난 ‘언어 인공지능’이다”, AI타임즈(www.aitimes.co.kr), 2020년8월 14일. (https://www.aitimes.kr/news/articleView.html?idxno=17370)
[48] 윤형준, 고태원, “[Mint] 지구 최강 인공지능 인터뷰…거짓말도 지어냈다, 섬뜩했다 – [Cover Story] 사람처럼 말하고 생각하는, 현존 최강 인공지능 ‘GPT-3′ 인터뷰”, 조선일보 – 경제, 2020년 9월 6일. (https://www.chosun.com/economy/2020/09/06/GXZASOYOYZGH5HRBNWXEG3QPG4/)
[49] 이경전, “[이경전의 경영과 과학] AI의 가능성·한계 보여준 GPT-3”, 한국경제, 2020년 9월 2일. (https://www.hankyung.com/opinion/article/2020090265561)
[50] 이재구, “GPT-3보다 더 똑똑한 AI가 온다”, AI타임즈(www.aitimes.co.kr), 2020년 8월 12일. (http://www.aitimes.com/news/articleView.html?idxno=131490)
[51] 이재구, “GPT-3는 희망인가, 위협인가”…논란 ‘팽팽’”, AI타임즈(www.aitimes.co.kr), 2020년 7월 27일. (http://www.aitimes.com/news/articleView.html?idxno=131045)
[52] 이재구, “GPT3 너는 대체?” 전문가도 놀라는 AI능력”, AI타임즈(www.aitimes.co.kr), 2020년 7월 20일,. (http://www.aitimes.com/news/articleView.html?idxno=130789)


김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구했다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행했다. dl-ciokorea@foundryco.com