자세히 보기

이지현
Senior Editor

“LLM 수준 비교·분석하세요”··· S&P, LLM 벤치마크 도구 및 순위 공개

뉴스
2024.04.052분

S&P 글로벌이 대규모 언어 모델(LLM)의 수준을 평가할 때 쓰는 ‘S&P AI 벤치마크 바이 켄쇼 프로젝트(이하 S&P AI 벤치 마크)’를 베타버전으로 4월 3일 출시했다. 동시에 주류 LLM의 수준을 분석하고 관련 순위를 공개했다.

S&P AI 벤치 마크는 ▲추론 능력 ▲문제 해결 능력 ▲비즈니스 이해 수준 ▲재무 정보 추출 역량 등을 기준으로 LLM을 평가 및 분석하는 도구다. S&P에 따르면, 해당 AI 벤치마크는 학계, 연구원, 산업별 전문가, S&P 글로벌 내 금융 전문가의 의견을 반영해 자체적인 검증 과정을 거쳐 개발됐다. 또한 기존 벤치마크 도구에 비해 ‘금융 및 비즈니스’ 조직에서 유용하게 활용할 수 있는지를 중점적으로 분석해 점수를 매겨준다.

S&P AI 벤치마크는 사용자가 입력한 내부 데이터는 공개하지 않고, 분석 결과만 내놓는다. 평가 결과는 일종의 순위표인 ‘리더보드’에 추가된다. 단, 사용자가 분석 결과를 외부에 공개하고 싶지 않을 때는 리더보드에서 정보를 삭제할 수 있다. 현재 공개된 리더보드에서는 오픈AI, 앤트로픽, 미스트랄AI의 LLM의 모델이 상위에 올라와 있다. S&P 글로벌은 이러한 리더보드로 많은 기업이 LLM 이해도를 높이고 혁신을 도모할 수 있을 것으로 기대했다.

S&P 글로벌의 최고 AI 책임자이자 켄쇼의 CEO인 바베시 다얄지는 “사내 도구로 개발한 S&P AI 벤치 마크를 고객에게 제공하고자 한다”라며 “생성형 AI와 LLM이 상품과 서비스 전반에 걸쳐 널리 보급됨에 따라 정확성과 신뢰성을 최우선으로 유지하는 것이 매우 중요한 상황이다. S&P AI 벤치마크로 고객이 보다 신뢰할 수 있는 솔루션을 구축할 수 있을 것”이라고 밝혔다.

S&P AI 벤치마크를 개발한 켄쇼는 S&P 글로벌이 2018년 인수한 기업이다. S&P 글로벌은 켄쇼의 기술력을 바탕으로 머신러닝, 자연어 처리, 데이터 검색 기술을 기반으로 한 솔루션을 개발하고 있다.

S&P 글로벌은 “리더보드 순위 및 결과는 관련 LLM의 정확성, 성능 또는 신뢰성을 보장하지 않는다”라며 “벤치마크 결과는 정보 제공만을 목적으로 하며 조언이나 권장 사항이 아니다”라고 강조했다.
jihyun_lee@idg.co.kr

이지현

2022년부터 CIO 코리아 책임 기자로 일하며 AI, 디지털 전환, 클라우드 등 주요 기술 이슈에 대한 최신 트렌드와 인사이트를 전달하고 있습니다. 국내외 IT 리더들을 대상으로 한 심층 인터뷰와 리더십 취재를 꾸준히 이어가고 있으며, 다양한 현장을 찾아 업계 흐름을 생생하게 전하고자 합니다. 아울러, 한국IDG가 주관하는 콘퍼런스와 조찬 세미나에도 참여하며, 국내 IT 리더들이 자연스럽게 교류하고 의견을 나눌 수 있는 자리를 만드는 데 힘쓰고 있습니다.

CIO 코리아 합류 전에는 2013년부터 기술 전문 매체 블로터에서 IT 기자로 활동했으며, 그보다 앞서 한국에서 컴퓨터공학을 전공하고 미국 뉴욕에서 1년간 프로그래머 인턴으로 근무한 경험이 있습니다. 현재도 취미로 프로그래밍을 이어가며, IT 업계에 종사하는 분들을 늘 응원하는 마음으로 취재 활동을 이어가고 있습니다.

이 저자의 추가 콘텐츠