AI의 안전성과 정확성을 보장하기 위한 가장 일반적인 조언은 인간이 감독해야 한다는 것이다. 하지만 기업이 AI 도입을 확장하면서 인간의 개입에도 한계가 있다는 점이 점점 더 분명해지고 있다.

텍사스대학교 댈러스캠퍼스 컴퓨터과학과 교수이자 사이버보안 연구·교육센터 창립자 바바니 투라이싱엄은 “의사가 ‘챗GPT가 이렇게 말했으니 그에 따라 당신을 치료하겠다’고 말한다면 신뢰할 수 있겠는가?”라고 반문했다. 챗GPT가 한 남성에게 식용 소금을 브롬화나트륨으로 바꾸라고 조언해 환각 증세를 일으키고 3주간 치료를 받게 했다는 뉴스가 나오기 훨씬 전의 일이었다. 투라이싱엄은 “지금처럼 중요한 시스템에서는 반드시 인간이 개입해야 한다”고 강조했다.
투라이싱엄만의 생각이 아니다. AI의 위험을 줄이기 위한 가장 흔한 조언이 바로 인간의 개입이며, 실제로 많은 기업이 이를 핵심 원칙으로 삼아 AI를 도입하고 있다.
예를 들어, 톰슨로이터는 인간의 개입을 AI 도입의 핵심 요소로 삼고 있다. 톰슨로이터의 CTO 조엘 흐론 “우리는 인간의 평가를 ‘황금 신호’로 삼고 있다”고 말했다. 현재 톰슨로이터는 생성형 AI를 자사 상용 제품인 법률·세무·회계 플랫폼에 적용하고 있으며, 내부적으로도 개발, 사이버보안, 인사, 고객 지원 등 다양한 영역에서 활용하고 있다. 흐론은 “인간의 평가는 생성형 AI 전반은 물론, 회사가 개발 중인 새로운 에이전트형 시스템에서도 매우 중요한 요소”라고 밝혔다. 단순히 인간에게 AI를 ‘감시하라’고 지시하는 것으로는 충분하지 않다는 것이다.
흐론은 “우리는 인간이 오류를 어떻게 주석 달아야 하는지에 대해 매우 정밀한 기준을 설계하는 데 많은 시간을 들이고 있다”라며, “이렇게 해야 더 나은 가드레일을 구축할 수 있다”라고 강조했다.
반대로, 특히 자동화와 에이전틱 워크플로우에 AI를 도입할 경우 인간이 모든 과정에 개입하는 것이 현실적으로 어려운 경우도 많다. 인간이 모든 과정에 개입하면 프로세스가 느려지고, 오히려 AI가 무엇을 하는지 속이는 상황에서 무비판적으로 승인만 하게 되는 ‘도장찍기’가 발생할 수 있다. 이런 이유로 일부 기업은 인간을 루프에서 제외하면서도 전체 통제권은 유지할 수 있는 방법을 모색하고 있다.
영리함을 넘어 영악해지는 AI
AI 감시를 위한 인간의 개입 방식 중 하나는 AI가 어떤 행동을 하기 전, 특히 위험하거나 피해가 우려되는 행동일 경우 반드시 인간의 승인을 받도록 요구하는 것이다. 하지만 이는 AI가 정직하다는 전제에 기반하기 때문에 완전히 신뢰하기 어려운 조건이다.
최근 아폴로리서치가 발표한 논문에 따르면, 더 발전된 모델일수록 속임수를 쓰는 비율이 높고, 속임수도 더 정교해지는 것으로 나타났다. 평가를 받고 있다는 사실을 인식한 모델은 일부러 자신의 수준을 낮춰 보이거나, 테스트를 피하기 위해 거짓말을 하기도 한다.
7월에는 앤트로픽이 고급 추론 모델이 자기 사고 과정을 숨기거나, 테스트받고 있다고 인식할 때는 바람직한 행동을 하지만, 그렇지 않다고 생각할 때는 문제 행동을 더 많이 보인다는 연구 결과를 발표했다.
흐론은 “에이전트형 시스템은 목표 중심으로 작동하며, 목표 달성을 위해 가능한 모든 수단을 동원한다”라고 지적했다. 예를 들어, 단위 테스트를 마음대로 수정해 놓고는 “테스트를 바꾸지 않았다”고 거짓말할 수 있다는 것이다. 흐론은 “하지만 책임자가 깃허브 저장소를 보면 변경 사실을 알 수 있다”고 덧붙였다.
이 같은 행위는 이론적 위험에 그치지 않는다. 7월, 벤처캐피털리스트 제이슨 렘킨은 리플릿 바이브 코딩 플랫폼의 AI 어시스턴트가 버그를 은폐하고 거짓 테스트 보고서를 생성했으며, 아무런 승인 없이 전체 프로덕션 데이터베이스를 삭제했다는 사실을 공개했다.
흐론은 이런 문제를 해결하려면 “AI가 어떤 행동을 하는지에 대한 가시성을 확보해야 한다”고 강조했다. 또 “에이전트가 어떤 해킹 방식이나 취약점을 찾고 있는지 파악하고, 그에 맞는 가드레일을 설계해야 한다”라고 덧붙였다.
감시하기 어려운 자동화 프로세스의 속도
AI 에이전트를 기업의 워크플로우에 통합하는 큰 장점 중 하나는 비즈니스 프로세스를 획기적으로 빠르게 만들 수 있다는 점이다. 그런데 AI가 하는 일을 인간이 확인하기 위해 프로세스를 멈춘다면, 자동화의 목적 자체가 무색해진다. 결국 기업은 일부 또는 대부분의 감시 작업을 자동화할 수밖에 없게 된다.
흐론은 “이건 너무도 명확하고 반드시 도달해야 할 최종 상태”라고 강조했다. 감시는 기존의 스크립트 시스템을 통해 수행할 수도 있고, 문제를 탐지하도록 특화된 프롬프트 기반 AI 모델을 활용할 수도 있다. 흐론은 “또는 에이전트형 시스템의 가드레일과 감시만을 목적으로 설계된 전혀 다른 AI 모델을 쓸 수도 있다”라고 덧붙였다.
실제 적용 방식은 각 사용례의 위험도에 따라 달라져야 한다. 예를 들어, 단순히 정보를 수집하는 AI는 기업에 큰 위협을 주지 않기 때문에 비교적 적은 감독하에 운영할 수 있다. 반면, AI의 행동이 재앙으로 이어질 수 있는 경우라면 훨씬 더 많은 감독 레이어가 필요하다.
흐론은 “흑백논리로 볼 게 아니라 연속선상에 있는 문제로 봐야 한다”고 조언했다. 예를 들어 어떤 프로세스에서는 전체 워크플로우가 느려지더라도 일부 단계를 굳이 자동화하지 않고, 인간 검토 단계를 추가하는 전략을 쓸 수 있다.
데이터 엔지니어링 전문 업체 인디시움(Indicium)의 최고 데이터 책임자 다니엘 아반치니는 “AI가 최상의 선택인 매우 구체적인 프로세스가 있다. 그런 프로세스에는 AI와 에이전트를 사용한다”라고 밝혔다. 물론, 사람이 검증해야 하는 다른 프로세스도 있는데, 소프트웨어 개발이나 대규모 데이터 마이그레이션 프로젝트가 대표적이다. 아반치니는 “검증 단계에서 반드시 인간이 확인해야 하는 프로세스가 있다. 우리는 100% 자동화하지 않는다”라고 말했다.
무비판적 승인의 위험성
AI가 제안하는 모든 행동에 무조건 ‘예’라고 답하게 되는 함정에 빠지기 쉽다. 이 때문에 인디시움은 인간이 실제로 검토하고 있는지, 맹목적으로 승인만 하고 있는지를 판별할 수 있는 프로세스를 마련해 두고 있다.
아반치니는 “우리는 감사 절차를 통해 작업 품질을 검증하고 있으며, 리뷰에 소요되는 시간도 확인할 수 있다”라며, “검토에 2초밖에 쓰지 않는다면, 그건 검토가 아니라 버튼만 누르고 있다는 신호이고, 거기에는 분명한 위험이 있다. 이런 위험을 줄이기 위해 교육과 프로세스를 강화하고 있다”라고 설명했다.
하지만 AI 오류율이 매우 낮아지고, 검토해야 할 작업 수가 폭증하면 어떻게 될 것인가? 사이버보안 업체 셸먼(Schellman)의 CEO 아바니 데사이는 “생성형 AI가 빠르게, 대량으로 결정을 내릴 경우 인간은 따라잡을 수 없다. 계속되는 관리 감독은 인간의 피로도를 높이며, 경고 피로 현상도 유발한다. 그러다 보면 사람은 점점 무감각해진다”라고 경고했다.
그런 상황이 되면, 인간의 감독은 아무 효과도 없어진다. 그리고 상황은 더 나빠질 수 있다. AI가 충분히 똑똑해지면, 인간이 쉽게 수긍할 수 있는 방식으로 승인 요청을 표현할 수 있다는 것이다. 데사이는 “에이전트형 시스템은 계획과 추론 능력을 갖추며, 인간 감독자를 조작하는 법도 배운다. 특히, 개방형 강화 학습 방식으로 학습된 경우, 이런 경향이 더 강하다”라고 말했다.
이런 현상을 ‘보상 해킹(reward hacking)’이라고 부른다. 특정 목표를 달성하도록 AI를 학습시키는 과정에서 지름길을 통해 보상을 얻는 방법을 학습하게 될 때 발생한다. 데사이는 “이런 상황에서는 인간의 개입이 오히려 허울뿐인 안전망이 될 수 있다”라고 덧붙였다.
이를 해결하기 위한 방법으로는 가장 위험한 행동을 자동으로 플래그 처리해 추가 검토 대상으로 삼거나, 인간 검토자를 순환 배치하고 자동 이상 감지 시스템을 도입하는 방식이 있다. 혹은 다양한 위험 유형에 따라 서로 다른 검토자가 감시하는 다단계 감독 체계를 구축하는 방안도 있다.
또 다른 해결책은 시스템 설계 단계부터 제약 조건을 내재화하는 것이다. 데사이는 “처음부터 시스템에 제어 장치를 심어 에이전틱 AI가 특정 행동을 할 수 없게 만들어야 한다”라고 지적했다. 예를 들어 결제 시스템에서는 AI가 승인할 수 있는 금액 상한선을 설정하거나, 개발 환경에서는 AI 에이전트가 특정 파일을 수정하거나 삭제할 수 없도록 제한할 수 있다.
데사이는 “진정한 에이전트형 AI를 다룰 때는 인간의 개입만으로는 충분하지 않다고 확신한다”라고 강조했다.
확고한 계층 구조의 필요성
아바니 데사이는 기업이 휴먼 인 루프(Human in Loop)가 아니라 ‘휴먼 인 커맨드(Human-in-command)’ 구조로 전환해야 한다고 조언했다. 데사이는 “단순히 감독하는 수준이 아니라, 시스템에 제어 장치와 가드레일을 설계하고, 문제가 생기기 전에 의미 있게 개입할 수 있어야 한다”라며, “사건 발생 후 수습하는 방식이 아니라, 설계 단계부터 보안을 내재화해야 한다”라고 지적했다.
AI는 기업이 그 능력과 권한을 제한할 수 있는 격리된 환경에서 작동해야 한다. 데사이는 “우리보다 강력한 시스템도 통제할 수 있다. 비행기는 인간보다 빠르지만 우리는 비행기를 조종할 수 있다”라고 비유했다.
하지만 기업이 AI를 중심으로 워크플로우나 의사결정 구조를 구축하면서 인간이 이를 무시하거나 이해조차 못할 정도로 복잡해진다면, AI는 심각한 위험 요소가 된다. 데사이는 “이건 일종의 ‘끓는 물 속 개구리 시나리오’다. 우리가 통제권을 잃었다는 사실을 자각했을 때는 이미 늦은 상황”이라며, “AI가 우리보다 똑똑해서가 아니라, 우리가 스스로 책임을 포기했기 때문에 통제권을 잃는 것이다. 그 점이 가장 걱정된다”라고 덧붙였다.
많은 전문가가 AI를 매우 제한된 환경에 가두고, 매우 제한된 입력만 받게 하고, 좁은 범위의 출력만 하도록 만드는 방식을 지지한다. EY의 글로벌 AI 컨설팅 리더 댄 디아시오는 “실제로 많은 기업이 위험성이 높은 프로세스에 대해 이런 방식으로 접근하고 있다”라고 설명했다.
디아시오는 “LLM은 비즈니스 프로세스의 극히 일부분만 처리하고, 나머지는 머신러닝이나 스크립트 기반 시스템이 담당하는 구조”라며, “대부분 고객은 LLM의 역량에 너무 의존하지 않는 시스템을 매우 신중하게 설계하고 있다”라고 덧붙였다.
모든 작업을 처리하고 기업 내 모든 정보에 접근하며, 스스로 목표를 설정하는 AI가 논의되고 있다. 하지만, 디아시오는 “실제 기업 내부에서는 완전히 다른 일이 벌어지고 있다”고 전했다. 디아시오는 “기업은 제약 없는 프로세스를 만들기보다는 가이드가 있는, 통제 가능한 프로세스를 설계하고 있다”라고 설명했다.
기업이 생성형 AI를 광범위하게 도입하는 경우, 제한 장치를 두는 또 다른 방법은 ‘직무 분리(Separation of Duties)’다. KPMG의 글로벌 AI 리더 브라이언 맥고완은 “모든 에이전트 기능을 하나의 AI가 조정하고, 필요한 권한을 모두 호출할 수 있게 되면 그 AI는 지나치게 강력해진다”라고 지적하며, “권한을 분리하고, 그 사이에 방화벽을 두는 것이 해결책”이라고 덧붙였다.
에이전트가 서로 정보를 주고받으며 협력할 수는 있지만, 그 통신은 모니터링되고 제어되어야 한다. 이는 일부 금융 기업이 내부 담합이나 부패를 방지하기 위해 사용하는 통제 방식과 유사하다.
루프 위에 있는 인간(Human on the loop)
AI 에이전트의 모든 행동과 통신이 기록되고 감시되면, 인간은 이를 ‘루프 위(on the loop)’에서 관리할 수 있다. 맥고완은 “AI가 50단계에 걸쳐 작업을 수행할 경우, 인간이 그 모든 단계를 전부 검토하는 것은 불가능하다. 그럴 경우 전체 라이프사이클에서 어떤 항목을 평가해 결과에 대한 신뢰도를 확보할 것인가가 중요하다”라고 설명했다.
기업은 AI가 모든 단계를 정확히 완료했는지, 기대한 대로 작동했는지를 알고 싶어할 것이다. 그러기 위해선 에이전트의 행동을 로그로 남기고, 그 순서를 추적하며, 기대한 행동과 실제 행동을 비교해야 한다.
맥고완은 “예를 들어, 사용자가 AI에게 이메일을 한 통 보내라고 했는데, AI가 다섯 통을 보냈다면 이는 의심스러운 행동”이라며, “정확한 로깅이 감독의 핵심”이라고 강조했다. 이어 “에이전트가 한 행동을 기록한 로그가 필요하며, 그 로그는 에이전트가 수정할 수 없도록 불변성을 가져야 한다”라고 덧붙였다. 이 로그를 평가하는 데는 QA 전용 AI나 기존 분석 도구를 사용할 수 있다.
텍사스대학교의 바바니 투라이싱엄은 “인간이 모든 것을 일일이 점검하는 것은 불가능하다”라며, “이런 점검은 자동화할 수밖에 없다. 지금으로선 그것이 유일한 해법”이라고 강조했다.
dl-ciokorea@foundryco.com