UPDATE : 2024.4.19 금 18:22
상단여백
HOME 라이프 생활/유통
업스테이지, 노코드 LLM 평가 플랫폼 전면 공개… 누구나 쉽게 모델 자가 진단H6, MT-bench, EQ-bench, IFEval 등 LLM 성능 평가 주요 벤치마크 통합, 슬랙에서 손쉽게 비교 평가
신한준 기자 | 승인 2024.04.03 08:59|(1호)

업스테이지(대표 김성훈)는 자사가 개발한 노코드 LLM 종합 평가 플랫폼 ‘이벨버스(Evalverse)’를 무료로 공개한다고 3일 밝혔다. 

 

오픈소스 형태로 깃허브(GitHub)에 공개돼 누구나 쉽게 활용할 수 있다.

 

통상 LLM 성능 평가에는 특정 데이터셋을 기준으로 응답 정확도를 기록한 ‘벤치마크’ 지표를 활용한다. 모델의 추론, 상식, 언어 이해 능력 등 6가지 부문을 측정하는 허깅페이스 ‘H6’ 지표를 포함, 대화 능력 지표 ‘MT-bench’, 감성 평가 지표 ‘EQ-bench’, 및 지시 이행 능력 지표 ‘IFEval’ 등이 주요 벤치마크로 꼽힌다. 

 

이에 업스테이지는 이러한 주요 벤치마크를 한 군데 통합해, 언어모델 성능을 종합적으로 테스트할 수 있는 자체 평가 플랫폼을 개발했다. 기존에는 특정 벤치마크를 테스트하려면 해당 플랫폼에 모델을 제출해야 하는 번거로움이 있었지만, 이벨버스를 활용하면 여러 벤치마크 테스트를 동시에 진행할 수 있다. 

 

업스테이지 이벨버스는 업무용 메신저 ‘슬랙’에 API 챗봇 형태로 연동해 사용성을 확대했다. 특히, 슬랙 안에서 이벨버스 챗봇과 1:1 대화(DM)를 통해 모든 평가 과정을 간소화한 것이 특징이다. 이용자들은 “호출”, “평가” 등 채팅창에 단 2개의 명령어만 입력하면 바로 원하는 모델을 호출해 테스트할 수 있으며, 벤치마크 별 점수에 대한 종합 리포트까지 확인할 수 있어 모델 간 비교 평가도 용이하다.

 

이번 업스테이지의 이벨버스 오픈소스 공개는 생성형 AI 생태계의 발전과 상생을 위한 노력의 일환이다. 업스테이지는 한국어 LLM 평가 표준을 제시한 ‘Open Ko-LLM 리더보드’ 구축, 복잡한 데이터 전처리 기술을 전면 공개한 ‘데이터버스(Dataverse)’에 이어 평가 플랫폼까지 전면 공개함으로써 독보적인 오픈소스 세계관을 완성했다. 

 

업스테이지 김성훈 대표는 “누구나 자신이 개발한 LLM을 쉽게 테스트해 볼 수 있는 이벨버스 플랫폼을 무료로 공개하게 되어 기쁘다”라며 “앞으로 업스테이지는 글로벌 생성형 AI 시장의 선두주자로서 LLM 생태계 발전과 확산을 위해 다양한 노력을 지속해 나갈 것”이라고 밝혔다.

신한준 기자  webmaster@jybtv.kr

<저작권자 © 자유방송, 무단 전재 및 재배포 금지>

신한준 기자의 다른기사 보기
icon인기기사
기사 댓글 0
전체보기
첫번째 댓글을 남겨주세요.
신문사소개기사제보광고문의불편신고개인정보취급방침이메일무단수집거부청소년보호정책
발행처:자유방송  |  등록번호:경남 아 02598 |  등록일:2007년 11월 23일 |  청소년보호책임자 : 심흥섭
발행/편집인: 이영배 webmaster@jybtv.kr  |  편집국장: 이정복
(본사) 경남 거제시 옥포 성안로 15. 102동 1302호 (미진 라메르펠리스)

(서울) 서울시 성북구 안암로 1길 11,7층(보성빌딩)  |  대표전화: (055) 688.9188 / 010.2405.8983
본사이트의 게재된 모든 기사의 판권은 자유방송이 보유하며 발행인의 사전승인 없이는 기사와 사진의 무단ㆍ전재 복사를 금합니다.
Copyright © 2024 자유방송. All rights reserved.
Back to Top