인공지능(Artificial Intelligence)과 머신러닝(Machine Learning)은 허위 경보의 수를 줄일 수 있고, 문제 해결
AI옵스(AIops)는 인공지능을 이용해 IT시스템을 더 효율적이고 효과적으로 관리하고 최적화하고 방어할 수 있게 해준다. 시장조사회사인 가트너는 AI옵스의 시장 규모가 2020년 9억 ~ 15억 달러 범위였고, 2020년 ~ 2025년 사이의 연평균 성장률은 약 15%일 것이라고 예측했다. 독립형 AI옵스 플랫폼도 있고, AI옵스 플랫폼을 통합하거나 AI 기능을 추가한 IT관찰가능성, 관리 및 모니터링 툴도 많다.
고객과 전문가들에 따르면 AI옵스는 수백 또는 수천 곳의 출처에서 나온 대량의 데이터를 신속히 검사한다. 이를 통해 중요한 경보를 선별하거나 기저의 추세를 식별하는 데, 그리고 애플리케이션들을 연결하는 API 등의 새 요소를 신속하게 검출하는 데 지극히 탁월하다. 세계적인 연구 및 교육 단체인 와일리(Wiley)의 CIO 겸 CISO인 션 맥은 한마디로 인간의 지성이 감당할 수 있는 수준을 넘어선다고 말했다.
그는 “시스템과 서비스의 복잡성이 기하급수적으로 커지는 와중에 IT 문제에 대한 통찰을 제공하는 데 이상적이다”라고 말했다. 그러나 AI옵스를 제대로 활용하기 위해서는 먼저 AI옵스의 한계를 이해할 필요가 있다.
AI옵스가 탁월한 분야
패턴 식별. AI옵스의 효과적인 이용 분야 중 하나는 다른 경고를 복제한 중복 경고, IT 인프라의 정상적 변경에 반응하는 경고, 또는 중대한 비즈니스 프로세스에 영향을 주지 않는 경고에 따른 ‘잡음(noise)’를 줄이는 것이다.
운영 데이터를 지능적으로 분석하면 공통 패턴, 예를 들어 이용자가 로그인하는 아침 시간이나 분기 회계 마감 시의 트래픽 급증을 분석해 어떤 패턴이 정상이고 어떤 패턴이 문제 신호인지를 파악할 수 있다고 시장조사기관인 IDC의 부사장인 스티븐 엘리엇은 말했다.
또한 서버의 과부하 등 반복적 문제를 식별할 수 있어서 운영 담당자는 이용자에게 영향을 주기 전에 치유책을 적용할 수 있다. 또한 다수의 경고를 하나의 근본 문제로 상관시켜 운영 담당자의 부담을 줄일 수 있고, 문제의 근본 원인 분석의 속도를 높일 수 있다고 그는 설명했다.
약품 유통 업체인 아메리소스버겐(AmerisourceBergen)은 AI옵스를 도입한 이후 의미 없는 경보가 2/3로 줄어드는 것을 목격했다. 뉴 렐릭(New Relic)의 관찰성 플랫폼을 이용해서였다.
덕분에 회사의 엔지니어들은 중요한 문제에 집중할 수 있었고, 사건의 우선순위를 한층 적절하게 정할 수 있었고, 근본 원인 분석의 속도를 높일 수 있었고, 애플리케이션의 이용성을 높일 수 있었다고 IT 사업부 부사장인 폴 스튜어트는 말했다.
와일리에서도 맥의 직원들은 다이나트레이스(Dynatrace)의 AI옵스 기능을 이용해 허위 긍정의 수를 50% 이상 줄일 수 있었다. 또 문제가 정말 발생했을 때 해결까지의 시간이 평균 37% 이상 줄었다. 맥은 이를 ‘거대한 개선’이라고 평가했다. 이들 덕분에 그의 팀은 고객 경험을 향상시키고 혁신적인 신규 서비스를 전달하는 데 더 많은 시간을 할애한다고 그는 말했다.
모니터링 및 추적. 또한 AI옵스는 운영 담당자의 일을 더 수월하게 해줄 수 있다. IT 환경 내의 변경을 추적하고, 성능을 모니터하고, 대규모 환경을 비용 효율적으로 관리할 수 있도록 돕는 것이다. 스튜어트는 ‘현재 대형 인수 건이 진행 중이다. 그러나 AI옵스를 활용해 인원 수를 크게 늘리지 않고 추가 모니터링 업무량을 감당할 수 있다”라고 말했다.
공항 주차장 사업체인 파크 엔 플라이(Park ‘N Fly)는 다이나트레이스 AI옵스 플랫폼을 이용해 자사 IT 인프라를 모니터하고, 아울러 파트너로부터 나온 정보를 제공하는 API를 모니터한다고 수석 IT 디렉터인 켄 슈마커는 말했다.
예를 들어 고객은 셔틀 버스의 위치를 추적할 수 있고, 여행 기간 중 차량의 유지 관리를 구매할 수 있다.
또한 다이너트레이스는 파크 엔 플라이가 클라우드에서 호스팅하는 서버 등 신규 컴포넌트를 자동으로 발견하고, 서버가 액세스 중인 데이터, 서버가 데이터를 전송하는 애플리케이션 등 서버의 거동을 분석하기도 한다. 이에 기반해 웹 토폴리지(web topology)를 생성해 IT 인프라의 컴포넌트들이 어떻게 통합되어 있는 지를 추적한다고 그는 설명했다.
맥은 와일리에서 단지 관찰하기 위해서 뿐 아니라 시스템의 가용성과 신뢰성 뒤에 놓인 이유를 이해하기 위해 이벤트 로그 관리 분야에 AI 옵스를 이용하고 있다고 말했다. 그는 “모니터링은 과거의 것이 되었다”라고 말했다.
그는 자신에게 필요한 것은 ‘관찰가능성’이고, 이는 질문을 하고 대답을 얻는 특성이라고 설명했다. 모니터링은 시스템 지연을 매 순간 보여줄 수 있지만, 맥이 하고 싶은 질문은 ‘이용자에게 왜 문제가 있는가?’이다.
근본 원인에 접근. AI옵스는 문제의 근본 원인을 빠르게 분석하는 데에도 유용하다. “어떤 서비스 계층에 문제가 존재하는가, 브라우저인가, 데이터베이스인가, 코드인가, 아니라면 온-프레미스 네트워크가 문제인가?”를 판단하는 데 도움을 준다고 엘리엇은 말했다.
설명에 따르면 그는 데이터베이스 등 모든 응용 계층에서 나온 데이터, 애플리케이션 성능, 그리고 애플리케이션 및 서비스에 대한 이용자 경험을 상관시키고, 다이나트레이스 등을 이용함으로써 문제 해결까지의 평균 시간을 40% 단축시켰다. 그는 “이는 우리 고객에게 유의미한 성능 개선을 의미한다”라고 말했다.
그러나 몇몇 고객은 AI옵스가 구성 작업을 필요로 하고 단기적인 비용 효과를 기대하기 어려울 수 있다고 경고했다. 셔마커는 “초기 투자 비용이 빠르게 회수되지는 않을 가능성이 높다. 구현 후 이용하면서 혜택이 나타나는 것이 보통이다. 최적으로 관리 및 운영하는 데 더 적은 수의 직원이 필요하고, 늦은 저녁의 업데이트에 직원을 배정하거나 중단을 해결하거나 휴일 중 업데이트 일정을 정할 필요가 더 이상 없다”라고 말했다.
AI옵스가 부적합한 분야
데이터 결함의 처리. 데이터가 많을수록, 데이터의 품질이 높을수록, 머신러닝 알고리즘이 복잡한 IT 인프라의 작용을 더욱 잘 분석할 수 있다. 이런 데이터가 부족하거나, AI옵스가 이용할 수 있는 데이터가 제한적이라면 AI옵스의 효과 역시 제한적일 수 있다. 따라서 AI옵스가 성공하려면 적절한 데이터 관리가 결정적이다.
단스케 방크(Danske Bank)의 서비스 신뢰성 및 관찰가능성 책임자인 빌리어스 엘리카스는 “처음 AI옵스를 할 때 꽤 힘들었다. 벤더들은 자신들이 ‘엉망인’ 기존 데이터를 감당할 수 있다고 약속했다. 이를 이용해 IT 인프라 내의 비정상과 문제를 식별할 수 있다는 자신했던 것이다. 그러나 이는 지켜지지 않았다”라고 말했다.
이어서 그는 “다행히 스택스테이트(StackStare)의 관찰가능성 플랫폼을 이용해 자동으로 데이터를 취합하고 상관시키고 태그를 다는 데서 가능성이 보인다. 그렇다면 시스템은 어떤 인프라 컴포넌트가 어떤 애플리케이션 및 서비스를 지원하는 지를 파악할 수 있다”면서 “이는 은행이 머신러닝이라는 마술에 이르기 전에 기본을 바로 세우는 데 도움을 준다”라고 말했다.
노티파이드(Notified)는 클라우드 기반 인프라를 통해 연결을 제공하고, 기업 행사 및 통신을 호스팅한다. 회사는 스플렁크(Splunk)와 뉴 릴릭(New Relic) 내의 AI옵스 기능을 이용해 최초의 AI옵스 개념 증명을 진행 중이라고 CTO인 토마스 스퀘오는 말했다.
AI옵스는 근본 원인 분석과 이벤트 취합의 속도를 높이는 데 유용하지만, 노티파이드는 IR 컨퍼런스 등 대규모 행사에 필요한 클라우드 리소스의 양을 예측하기 위해 아직도 역사적 성능 데이터를 취합하고 있다고 그는 말했다.
인프라에 관한 필수 운영 데이터를 취합하는 일은 아메리소스버겐(AmerisourceBergen)에게 중요한 작업이다. 스튜어트는 “큰 곤란 가운데 하나는 격리된 환경들이, 종합적인 시야가 아니라, 각자 지원하는 툴 및 분야의 집합을 바라보도록 하는 일이었다”라고 전했다.
그는 이어 “이제 우리의 데이터는 모두 중앙에 위치하기 때문에 AI옵스 엔진은 여러 출처에서 나온 경고를 상관시킬 수 있다. 따라서 아메리소스버겐의 팀 구성원은 핵심 문제에 신속히 집중할 수 있다. 모든 데이터를 한 장소로 상관시킴으로써 문제의 발생을 조기에 경고하는 패턴을 식별하는 일을 시작할 수 있다”라고 말했다.
자동화된 교정. 보안, 성능 및 여타 문제를 완전히 자동으로 교정하는 일은 AI옵스에 대한 약속이 깨지도록 하는 또 하나의 분야이다. 가트너의 상임 리서치 디렉터인 그레고리 머레이는 “고객이 즉시 그리고 지속적으로 문제를 발견할 수 있고 이상적인 해법을 제안할 수 있는 ‘마술 상자’를 원한다면 AI옵스는 기대에 크게 미치지 못한다”라고 말했다.
예를 들어 이전에 알려지지 않은 보안 취약점의 악용 등 몇몇 위험은 예측하기가 어렵거나 불가능하다. 그는 “AI 시스템이 IT 인프라에 이루어진 모든 변경의 조합을 평가하고 변경의 효과를 신뢰성 있게 예측하는 것 또한 불가능하다”라고 덧붙였다.
엘리엇은 “몇몇 IT 조직은 무난히 자동 교정할 수 있는 것을 떼어 내기 시작하고 있다. 어떤 경우 이는 새 서비스 또는 새 인프라의 분출이고 트랜잭션 로드나 니즈가 급증할 때 성능 저하를 막을 수 있다. 다른 경우 이는 다른 AWS 지역이나 다른 리소스 집합으로 서비스를 자동으로 이동시키는 것일 수 있다”라고 말했다.
스퀘오는 노티파이드가 현재 전체 애플리케이션의 불과 20% ~ 25%만을 자동으로 교정하고 있고, “이는 위험을 보정한 비율이다”라고 전했다.
앞으로의 문화 변화
어떤 경우 AI옵스는 독립적 분야라기보다 애자일한 IT 및 비즈니스 프로세스를 위한 추가 도구의 성격을 가진다. IDC는 이를 ‘IT 운영 애널리틱스’라고 부른다.
스퀘오에 따르면 노티파이드는 AI옵스라는 용어를 사용하지 않는다. 스퀘오는 “우리는 ‘데브섹옵스(devsecops)’라는 용어를 사용한다. 데브섹옵스는 우수한 모니터링, 통지, 이벤트 실무의 존재를 전제하고, 개발, 운영, 보안 사이의 전체적 협업의 일부로서 AI옵스를 이용한다”라고 말했다.
와일리의 경우 AI옵스는 애플리케이션 및 서비스 품질에 대해 개발 팀의 책임을 늘리려는 거시적 움직임의 일부이다. 맥은 “우리는 신뢰성 및 관리에 있어 데브옵스 접근법을 취한다. 최종적으로, 책임은 시스템 개발 팀에게 있다. 이들은 시스템이 실제로 어떻게 기능하는지에 관해 가장 많은 부담을 진다”라고 말했다.
스튜어트는 AI옵스가 궁극적으로 ‘팀 전체에 걸친 문화 변화’를 촉진할 것으로 예상한다. “문제가 발생할 때 수동으로 대응하는 것이 아닌 자동화가 초점이다. 앞으로 성숙해지면서 서비스 관점으로부터 환경을 바라보는 일이 초점이 될 것이다. 이 관점 하에서 애플리케이션 및 인프라 컴포넌트와 비즈니스 촉매가 서로 조합된다”라고 그는 말했다.
dl-ciokorea@foundryco.com