자세히 보기

Lucas Mearian
Senior Reporter

일문일답 | “고객 지원 기능에 챗GPT 적용해보니…” 인터콤 머신러닝 디렉터

대기업과 중소기업 모두 활용 방안을 모색하고 있는 센세이션의 주인공이 챗GPT다. 11월 출시 이후 5일 만에 100만 명의 사용자를 확보했다.

아틀라시안, 아마존, 리프트를 포함해 전 세계적으로 2만 5,000곳 이상의 기업을 대상으로 고객 지원 소프트웨어를 제공하는 인터콤은, 챗GPT 사용 측면에서 최첨단에 있는 기업이다. 이 회사는 최근 챗GPT의 대규모 언어 모델인 GPT-3.5의 기능을 사용해 자사 플랫폼에 AI 지원 기능을 추가했다. 

인터뷰의 머신러닝 책임자인 퍼걸 리드는 회사의 AI 기반 고객 서비스 소프트웨어(레졸루션 봇)에 챗GPT 기능을 추가함으로써 명백한 이점을 기대할 수 있다고 말했다. 그러면서도 그는 간과할 수 없는 우려 사항도 있다고 경고했다. 컴퓨터월드가 리드와 만나 업무용으로 챗GPT를 사용하는 방법과 이로 인한 주요 과제에 대해 이야기를 나눴다. 

Q. 회사에 대한 설명, 그리고 왜 기존 제품에 대한 업그레이드가 필요하다고 느꼈는지 답변을 부탁한다. 

A. “우리의 비즈니스는 기본적으로 ‘고객 서비스’다. 우리는 기업들이 이용할 수 있는 메신저를 만든다. 누군가(소비자 등)가 고객 지원 혹은 서비스 문제를 겪으면, 이들은 기업 웹 사이트를 방문해 메신저에 입력하기 시작한다. 왓츠앱 채팅과 유사하다. 웹사이트의 우측 아래 구석에 이러한 메신저들이 뜨는 것을 본 적이 있을 것이다.”

“인터콤(Intercom)은 이 분야의 선두 기업이며 비즈니스 메신저를 처음으로 개척한 회사 중 하나다. 이 메신저를 기반으로 고객 기업의 지원 담당자(support reps)를 위한 전체적인 고객 지원 및 플랫폼을 구축한다. 지원 담당자(우리는 ‘팀메이트(teammates)’라고 부른다)는 고객 지원 질문에 매일 반복적으로 답변하는 업무를 맡은 이들을 말한다. 

“챗GPT가 무작위적이고 시끄러운 대화를 다룰 수 있는 역량을 가졌음을 우리는 목격했다. 인간은 질문을 할 때 사용하는 방식은 꽤나 까다롭다. 가령 대화 중에 사람들은 대화에서 이미 몇 번 오간 말로 다시 돌아가 언급할 수 있다. 이는 전통적인 머신러닝 시스템이 다루기가 어려웠지만 오픈AI의 새로운 기술은 능숙하게 대응하는 것으로 보인다.”

“우리는 챗GPT 및 GPT 3.5를 시험해 보았고 굉장하다고 생각했다. 우리의 봇 및 이전에 보유했던 고객 지원 담당자용 기능을 혁신할 것으로 기대한다.”

Q. 업그레이드 생성 및 출시에 어느 정도 시간이 소요됐나? 

“내부적으로 12월 초에 제품 작업을 시작해 1월 둘째 주에 첫 프로토타입 데모를 완성했다.”

“상당히 빠른 개발 주기다. 1월 중순경 108명의 고객이 베타 버전을 사용했으며, 1월 말에 베타 버전을 추가로 출시했다. 현재 오픈 베타 단계에 있기 때문에 이를 사용하는 수백 명의 인터콤 고객들이 더 있다. 사람들은 매일 자신의 프로덕션 작업에서 이를 사용하고 있지만, 상당히 새롭기 때문에 우리는 여전히 이를 ‘베타’로 분류한다.”

“오픈AI가 가진 이러한 개방형 API는 일반적으로 사용되는 API에 비해 상당히 비싸다. 무언가를 요약하도록 시킬 때마다 상당히 많은 비용이 든다. 5센트 혹은 10센트 정도가 들 것이다. 시간이 경과함에 따라 상당히 비싸진다. 사람을 고용하는 것보다는 훨씬 저렴하지만 이는 결국 기업들이 해답을 알아내야 할 문제다.”

“이게 우리가 여전히 베타 단계에 있는 또 다른 이유다. 여전히 이것의 경제학에 대해 알아가는 중이다. 이를 통해 비용 대비 더 많은 시간을 절약할 수 있다고 확신하기는 한다. 그러나 이 모든 경제학은 어떻게 작동하며 이러한 것들을 위한 바람직한 구축 방법은 무엇일까? 풀어가야 할 과제다.”

Q. 챗GPT 및 오픈AI의 GPT 3.5 대형 언어 모델 간 차이점은 무엇인가? 제품을 만들기 위해 이 둘을 따로 작업했나? 

“개인적으로 챗GPT는 GPT 3.5 모델의 프론트 엔드에 가깝다고 생각한다. 그러나 챗GPT에 기반해 구축하는 모든 이는 오픈AI가 GPT 3.5라고 부르는 동일한 기본 모델에 기반해 구축한다. 기본적으로 같다. 차이는 사용자 인터페이스다.”

“챗GPT는 약간 더 많은 가드레일로 훈련되었기 때문에 이 프로그램이 원치 않는 무언가를 요청할 경우 ‘나는 단지 대형 언어 모델일 뿐이다. x 혹은 y를 할 수 없다’고 언급할 것이다. 반면 기저 언어 모델은 이러한 가드레일이 없다. 인터넷에서 최종 사용자와 대화하도록 훈련받지 않았다. 제품을 구축하는 모든 이는 챗GPT 인터페이스가 아닌 기저 모델을 사용한다. 그러나 이해의 정교함 및 기저 모델의 역량 측면에서는 기본적으로 동일하다.”

“우리가 사용하고 있는 모델인 ‘텍스트-다빈치-003(Text-Davinci-003)’은 오픈AI가 챗GPT와 같은 날에 출시했기 때문에 현재 모두가 이를 사용해 작업하고 있다.”

Q. 무엇을 구축할 것인가에 대해 선택할 수 있었나? 새로운 서비스 담당자 기능을 구축하는 데 사용할 수 있었던 서드파티의 대규모 언어 모델이 또 있었나? 

“현재의 챗GPT는 오픈AI가 호스트하는 모델 중 하나의 애플리케이션이다. 엄밀히 말하면, 챗GPT는 웹사이트에 사는, 일반 대중 및 챗GPT류의 무언가(ChatGPT things)를 만드는 모든 이를 위한 오픈AI의 서비스다. 챗GPT를 구동하기 위한 것과 동일한 동일한 오픈AI 모델을 사용하고 있다고 말하는 게 더 정확한 표현이다.”

Q. 챗GPT가 (인터콤의) 레졸루션 봇(Resolution Bot) 제품과 동일한 작업에 사용되고 있나? 

“초기에 내놓은 기능은 최종 사용자가 아닌 지원 담당자를 위한 기능이였다. 현재 최종 사용자를 위한 챗봇을 준비하고 있으며, 지원 담당자를 위한 머신러닝 기반 생산성 기능도 갖추고 있다. 초기 제품은 지원 담당자를 개선하는 기능을 갖추고 있다. 최종 사용자를 위한 게 아니다.”

“이와 같이 한 이유는 오픈AI의 현재 머신러닝 모델 대다수가 환각(hallucinations) 현상을 겪고 있기 때문이다. 특정 질문에 대한 답을 물었는데 답을 가지고 있지 않은 경우, 상당히 빈번하게 옳은 사실인양 말을 지어낸다.”

“그럴듯한 ‘다음 완성(next completion)’을 생성하는 게 이 챗봇의 미션이라고 생각해보자. 사용자에게 제시한 답변이 사실이라는 점을 확실히 하지 않고 답변을 지어낸다. 이로 인해 초기에는 최종 사용자의 질문에 답하도록 하는 것에 대해 주저했다. 여전히 봇이 답을 꾸며내는 것에 대해 고객이 불편함을 느낄까봐 우려스럽다. 또한 초기 테스트 결과, 고민없이 고객이 완전한 GPT 기반 봇을 사용하도록 하는 것은 상당히 좋지 않은 생각임이 드러났다. 이와 관련해 우리는 지속적인 해결 노력을 기울이고 있으며, 미래에는 이를 위한 해결책이 있으리라 본다.”

Q. 사실인양 답을 지어낸다면 이 도구가 지원 담당자에게 과연 도움이 될까? 

“우리가 이 분야에서 일하고 있고 물론 내부적인 R&D 프로토타입을 갖추고 있지만, 현재로서는 이름을 붙이거나 내놓기로 한 것이 없다.”

“초기에는 오직 지원 담당자를 지원하기 위해 챗봇을 출시했다. 이들은 일반적으로 올바른 답변이 무엇인지 알고 있기 때문이다. 또한 이들은 90%의 경우 직접 입력할 필요가 없기 때문에 챗봇을 통해 더욱 신속하고 효율적으로 작업할 수 있다. 그리고 사소한 환각 현상이나 부정확함이 있는 나머지 10%의 경우, 이들이 문제를 해결할 수 있다.”

“따라서 약간 인터페이스처럼 된다. 구글 독스(Google Docs) 혹은 제안을 제공할 수 있는 단어예측(predictive texting)을 사용하는 경우, 제안이 가끔 틀리더라도 괜찮다. 그러나 제안이 맞았을 경우에는 속도를 높일 수 있어 효율성이 개선된다. 우리가 처음 내놓은 게 바로 이것이며 1월 말까지 수백 명의 고객이 베타 버전을 사용했다. 또한 시작도 상당히 좋았다. 새로운 기능에 대한 매우 긍정적인 피드백을 많이 받았다. 이를 통해 지원 담당자의 효율성은 높아졌고 이를 통해 많은 볼륨을 소화할 수 있었다.”

“담당자가 작성하는 부분에서 이 모델은 직관적으로 텍스트의 어구를 바꿔 말할 수 있도록 돕지만 최종 사용자에게 자동으로 이를 전송하는 것은 아니다. 이 모델은 팀메이트가 효율성을 높일 수 있도록 힘을 실어주기 위해 고안됐다.”

Q. 고객 담당자를 위한 강력한 다른 챗GPT 기능도 있나? 

“그렇다. 우리가 구축한 또 다른 기능은 요약 기능이다. 이러한 대형 언어 모델들은 기존 텍스트를 처리하는 데 탁월하며, 큰 기사나 (텍스트) 대화 요약을 생성하는 데 있어서도 뛰어나다. 지원 담당자들은 문제가 과도하게 복잡해질 경우 대화를 중단해야 한다. 또한 이를 감독관에게 넘겨야 하고 종종 최종 사용자와 나눈 대화의 요약을 작성해야 한다. 때때로 대화에 응답하는 것만큼 요약을 작성하는 데 시간이 걸린다고 말하는 담당자들이 일부 있다.” 

“이 기술은 텍스트 요약 및 압축에 탁월하다. 텍스트를 상당히 줄인다. 따라서 우리가 구축한 기능 중 가장 자랑스럽게 생각하는 기능이 요약 기능이다. 버튼을 누르면 지금까지의 대화를 요약하도록 설계한 기능이다. 이를 편집한 후 에스컬레이션(escalation)하려는 모두에게 전송할 수 있다.”

“기능의 모든 첫 번째 물결은 루프(loop)에 인간을 포함하도록 설계됐다. 인간은 이 기능을 보강한다. 고객 서비스 담당자들은 전체 대화를 읽고 관련 사실을 추출하는 데 몇 분을 사용할 필요가 없다. 대신 AI가 관련 사실을 추출한 다음 담당자는 승인만 하면 되거나 뉘앙스가 일부 누락되었다고 말하기만 하면 되는 것이다.”

“이러한 모델들은 이전 모델에 비해 훨씬 더 개선됐다. 그러나 여전히 완벽하지는 않다. 여전히 때때로 뉘앙스를 누락한다. 숙련된 인간 담당자라면 이해할 내용을 여전히 이해하지 못하는 경우가 있다.”

Q. 어떻게 니즈에 맞게 챗GPT 소프트웨어를 수정했나? 수정된 버전은 어떻게 작동하나? 

“오픈AI는 텍스트를 보내고 이 모델이 제공하는 텍스트를 다시 받을 수 있는 API를 제공한다. 과거와 달리, 사용자는 영어로 원하는 바를 ‘말하며’ 이 기술을 사용할 수 있다. 다음과 같은 일련의 텍스트를 보내는 상황을 생각해볼 수 있다. 

“다음 대화를 요약하라 : 

고객: ‘안녕, 질문이 있어.’
에이전트: ‘안녕, 오늘은 무엇을 도와줄까?’”


“해주기를 원하는 작업을 포함해 이 텍스트를 보내면 텍스트를 되돌려 받는다. 이 경우에는 현재 요약된 버전이 포함된다. 그런 다음 우리는 이를 처리하고 지원 담당자에게 제시해 사용 여부를 선택하도록 한다.”


상담원과 고객이 나눈 대화와 이를 요약한 사례. (https://twitter.com/destraynor/status/1620478507792076801)

“사람들이 이를 통해 수행할 수 있는 작업 중 하나는 이메일을 요약하는 것이다. 이메일은 종종 아래 이메일의 이전 기록을 모두 포함하고 있으며, 사용자는 이를 사용해 해당 이메일 스레드를 요약할 수 있다. 과거 프로그래밍 언어들이 하지 못했던 방식으로 작동하는 것이다. 단 원하는 것을 실행하도록 하기 위해서는 많은 주의를 기울여야 한다. 무언가를 하도록 요청할 때는 오류 방지를 위해 상당히 구체적으로 해야 한다. 기존과 다른 유형의 기술이다. 전통적인 머신러닝과는 다른 기술이다.”

Q. 사용 용도에 맞게 챗GPT를 맞춤화하기 위해 IT 팀 혹은 소프트웨어 엔지니어를 사용했나? 어려움은 어느 정도였나? 

“다른 소프트웨어 및 서비스 기술 회사와 마찬가지로 인터콤에는 대규모 연구 개발 팀이 있다. 나는 여기서 머신러닝 팀을 이끌고 있다. 나를 포함해 대부분의 팀원들이 머신러닝 분야 전문가이고 머신러닝 박사학위를 갖추고 있다. 즉 우리는 머신러닝 모델을 훈련시키고 이러한 모델과 함께 작업한 경험이 많다.”

“우리는 내부적으로 알파 고객(alpha customer)처럼 활용하고 있는 고객 성공 팀을 갖추고 있다. 인터콤의 경우 약 100명의 고객 성공 담당자가 있다. 따라서 이들에게 프로토타입을 상당히 신속히 내놓고 모델에 대한 피드백을 받는다. 그러나 모델을 훈련시키기 위해 이들을 사용하지는 않는다. 단지 문제를 식별하고 문제 발생 장소를 파악하는 데 도움을 주기 위한 알파 테스터로 이들을 활용할 뿐이다.”

“이를 위해 많은 작업이 이루어져야 한다. 설득력있는 데모를 고안해 내는 것은 상당히 쉽지만 프로덕션에서 작동하도록 하기 위해 필요한 작업이 상당히 많다. 따라서 이를 초기에 검토할 수 있는 이들로 이뤄진 별도의 팀이 있다. 우리로서는 좋은 지 나쁜 지는 판단이 어렵다. 이것은 장난감인가? 이것이 담당자의 생산성 향상에 도움이 될까? 참고로 시제품으로 만든 몇 가지 제품이 있었지만 장난감에 불과했기 때문에 내놓지는 않았다.”

Q. 궁극적으로 ‘고객 담당자’라는 중개인 없는 상황을 감안해 이 챗봇 제품을 최종 사용자용으로 내놓을 것으로 보는가?

“현재 이와 관련해 검토 중이다. 현재로서는 이에 관해 공유할 준비가 되어 있지 않다. 하지만 이러한 유형의 기술은 곧 최종 사용자가 사용할 수 있도록 준비될 것이라고 본다. 많은 사람들이 ‘환각 현상’ 문제를 해결하기 위해 노력하고 있다.”

“구글이 최근에 출시를 했는데 출시 당시 모델이 사실적으로 부정확한 응답을 보여주어 많은 이들을 실망시켰다. 이러한 간헐적인 환각 현상 문제에 대처하는 방법을 알아내야 한다. 현재 이러한 문제 해결을 위해 상당한 노력을 기울이고 있고 낙관적인 입장을 갖고 있지만 현재로서는 이와 관련해 공유할 새로운 내용은 없다.”

Q. 업그레이드된 AI 지원 기능을 통해 고객 클라이언트 및 이들의 고객 서비스 담당자는 시간과 노력을 어느 정도 절약할 수 있나? 고객대응 시간을3분의1로 줄였나? 아니면 반으로 줄였나? 

“아마 그다지 많지는 않을 것이다. 상당히 새로운 기능이기 때문에 구체적인 숫자로 이야기하기는 어렵다. 원격 측정은 실행하고 있으나 수치를 얻기까지는 몇 주가 더 걸릴 듯하다. 측정하기 어려운 사항이다.  

“요약 기능의 경우, 10분 혹은 15분 정도의 대화 시간을 1~2분 정도 절약할 수 있다. 우리가 받고 있는 피드백을 살펴보면 그렇다. 확실히 현실적이고 이와 관련해 상당히 흥분하고 있다. 공개 베타 이후로 트위터에 가면 찾을 수 있는 게 이를 통해 시간을 절약할 수 있다며 글을 올리는 인터콤 고객들이다.”

“한편으로 나는 이 공간에 있는 모든 이가 현재 자신의 정직함을 유지하는 것과 관련된 도전 과제에 직면하고 있다고 본다. 그리고 이 기술은 분명히 흥미롭다. 과장하지 않고 냉정히 말하기는 어렵다. 이 기술은 현재 진정한 가치를 제공하지 않는 강력한 데모라고 할 수 있다. 따라서 실제 가치가 어느 정도 전달되고 있는지 이해하기 위해서는 해야 할 작업이 많다. 그래서 우리는 이에 대해 자세히 탐구하겠지만, 조기에 출시해 고객이 자신의 생각을 알려주기를 원했다.”

“반응은 우리의 기대를 넘어섰다. 요약과 같은 몇 가지 기능은 분명히 가치가 있으며, 텍스트를 재구성하거나 더욱 친숙하게 만드는 다른 훌륭한 기능들도 있다. 또한 메시지의 속기(short-hand) 버전을 작성 및 확장할 수 있는 기능도 있다. 고객들은 이러한 기능에 상당히 강력히 반응했다.”

Q. 그렇다면 이를 통해 고객 서비스 담당자가 어느 정도 효율성을 높일 수 있는지에 대한 확실한 데이터는 없나? 

“솔직히 한두 달 안에 원격 측정을 살펴보고 매번 이를 지속적으로 사용했는지 확인해야 한다. 그럴 것이라고 확신하지만 확인은 해보아야 한다. 킬러 앱 작업을 여전히 모색하고 있는 상태라고 봐야 한다.”

“모든 이의 관심을 끈 챗GPT다. 그러나 인터콤과 같은 몇몇 회사들은 이를 어떻게 장난감에서 진정한 비즈니스 가치로 바꿀 수 있을지를 탐색하고 있다. 인터콤에서도 ‘우리는 이 기능을 내놓았고 이러한 기능은 훌륭하다. 이들은 가치가 있을 것 같지만 아직은 판도를 바꿀 수 없다. 고객 담당자가 2배 혹은 3배로 속도를 높일 수 있다고 단언하지는 않고 있다.”

“나는 이게 우리가 현재 작업하고 있는 것의 다음 물결이라고 본다. 그리고 이러한 작업은 개발 주기가 더 길다. 빠르게 통합해서 내놓는 식의 단순한 문제는 아니다. 깊이 탐구하고 사용자 문제 및 이와 관련한 모든 각기 다른 측면, 그리고 실패한 부분을 이해해야 한다. 그래서 현재 이 작업을 하고 있다. 많은 경쟁업체 및 업계 관계자들 또한 동일한 문제를 해결하고 더 가치 있는 기능을 개발하는 데 노력을 기울이고 있을 것이다.”

“우리의 경우, 개발 주기가 상당히 빨랐고 출시도 신속했다. 많은 고객 피드백 또한 받았으며 이는 다음 단계로 나아가기 위한 방향 설정에 도움이 된다. 이게 현재 상황에 대한 솔직한 견해다.”

Q. 기업 고객이 새로운 챗GPT 기반 봇을 옵트인(opt in)하도록 유도하기 위해 어떤 노력을 기울였나? 

“인터콤은 2만 5,000곳 이상의 고객을 보유하고 있다. 그리고 우리는 많은 고객들에게 ‘베타 버전을 가지고 있다. 옵트인할 의향이 있는가?’라고 묻는다. 일부 고객은 옵트인을 하고 일반적으로 초기 소프트웨어를 사용할 의향이 있다고 이야기했다. 그리고 일부 고객은 이와 같이 하지 않으려고 했다. 은행과 같은 위험 회피 기업들은 베타 프로그램에 참여하고 싶어하지 않는다.”

“새로운 소프트웨어가 있을 경우, 베타 버전을 위한 모집을 위해 메시지를 이들에게 보낼 것이다. 우리의 프로젝트 매니저는 이를 위해 캠페인을 실시간으로 설정했고 5분 후에 이를 중단해야 했다. 이와 관련한 흥분으로 인박스가 가득 차 있었기 때문이다. 그래서 1월 중순에 베타 테스트를 위해 수백 명의 고객을 모집했다. 옵트인을 하고 데이터 처리를 위해 API를 사용하기 위해서는 여기를 클릭해야 한다고 말했다. 그런 다음 고객이 이 작업을 수행했고 이들을 위해 기능을 켰다.”

“그리고 나서 사람들이 어디에서 이를 사용하고 이것이 이들에게 효과가 있는지 파악하기 위해 다음날 원격 측정을 살펴보기 시작했다. 이는 인터콤에서 베타 버전을 실행하는 일반적인 방식이다. 이들에게 연락을 취해 피드백을 받을 수 있는지, 가치가 있다고 생각했는지를 물었다. 또한 우리가 소개한 몇 주 후 실제 리뷰를 제공할 정도로 일부 고객들은 친절했다.”

“다시 말하지만, 우리는 여타의 흥분이나 마케팅과 차별화되기를 원했다. 많은 스타트업들이 챗GPT 위에 씌워진 얇은 가죽일 뿐인 랜딩페이지(landing page)를 만들고 있다고 본다. 반면, 우리는 챗GPT가 실재임을 보여주기 위해 실제 제품을 가지고 있고 이에 대한 실제 고객 리뷰 또한 있음을 보여주고자 했다.” dl-ciokorea@foundryco.com

Lucas Mearian

With a career spanning more than two decades in journalism and technology research, Lucas Mearian is a seasoned writer, editor, and former IDC analyst with deep expertise in enterprise IT, infrastructure systems, and emerging technologies. Currently a senior writer at Computerworld covering AI, the future of work, healthcare IT and financial services IT, his 23-year tenure has included roles such as Senior Technology Editor and Data Storage Channel Editor, where he covered cutting-edge topics like blockchain, 3D printing, sustainable IT, and autonomous vehicles. He has appeared on several podcasts, including Foundry’s Today In Tech. He also served as a research manager at IDC, where he focused on software-defined infrastructure, compute, and storage within the Infrastructure Systems, Platforms, and Technologies group.

Before entering tech media, he served as Editor-in-Chief of the Waltham Daily News Tribune and as a senior reporter for the MetroWest Daily News. He’s won first place awards from the New England Press Association, the American Association of Business Publication Editors, and has been a finalist for several Jesse H. Neal Awards for outstanding business journalism. A former U.S. Marine Corps sergeant who served in reconnaissance, he brings a disciplined, analytical mindset to his work, along with outstanding writing, research, and public speaking skills.

이 저자의 추가 콘텐츠