About Past Issues Editorial Board

KAIST
BREAKTHROUGHS

Research Webzine of the KAIST College of Engineering since 2014

Fall 2025 Vol. 25
Electronics

사람보다 더 신뢰할 수 있는 평가 시스템을 향해 – BiGGen-Bench

LLM을 평가하는 일은 굉장히 어렵습니다. 특히 창의적인 작업에선 정답이 없기 때문에 ‘무엇이 좋은 답인지’ 판단 기준이 중요합니다. KAIST LK Lab과 LG AI 연구진들이 제안한 BiGGen-Bench는 평가의 LLM 평가자의 일관성과 신뢰성을 최대한 보장하기 위해 세심하게 설계된 벤치마크입니다.     이 질문은 단순해 보이지만, AI 발전에 있어 굉장히 중요한 문제입니다. 수학 문제처럼 정답이 있는 경우, 정답 여부만 확인하면 되니 평가가 쉽습니다. 하지만 시, 토론, 상담처럼 창의적 작업에서는 정답이 없어 평가가 어렵습니다. 따라서 무엇이 “좋은” 답변인지 판단하려면 먼저 명확한 지시와 세밀한 평가 기준이 필요합니다. 지금까지는 사람이 AI의 답변을 평가했습니다. 하지만 이는 시간도 오래 걸리고 비용도 많이 듭니다. 그래서 최근에는 AI가 AI를 평가하는, 즉 LLM-as-a-judge 접근이 떠오르고 있습니다. 하지만 아직 AI가 사람에 비해 평가자 역할을 잘 수행하지 못하는 경우가 많습니다. 일관되지 않은 판단을 내리거나, 엉뚱한 기준을 적용하는 일이 빈번하게 발생하죠. 이 문제를 해결하기 위해 BiGGen-Bench가 개발되었습니다. 이 벤치마크는 지시 이행(Instruction Following), 추론(Reasoning), 계획 수립(Planning), 정보 정합성(Grounding), 응답 정제(Refinement), 안전성(Safety), 마음 이론(Theory of Mind), 도구 사용 (Tool Usage), 다국어 (Multilingualism) 등 9가지 핵심 능력을 평가합니다. 아래의 그림을 통해 어떤 문항들이 포함되어 있는지 확인하실 수 있습니다. 총 765개 문항 모두에 대해 세심한 평가 기준과 모범 답안이 마련되어 있어, LLM 평가자가 객관적이고 일관된 판단을 내릴 수 있도록 설계되었습니다.     예를 들어, “도쿄로 3박 4일 여행을 떠나는 일정을 짜주세요.”라는 문항에 대해 단순히 "이 계획이 좋은가요?"라고 평가하게 하지 않습니다. 대신, LLM 평가자에게는 다음과 같은 구체적인 평가 기준이 함께 주어지게 됩니다.   응답이 필수 명소, 맛집, 3박 4일 여행이라는 제약 조건을 충실히 반영하고, 전체 일정이 현실적이며 효율적으로 구성되어 있는가? ●   1점: 비현실적인 계획. 유명 관광지나 맛집에 대한 정보가 매우 부족함. ●   … ●   5점: 모든 요소를 완벽하게 반영. 여행자의 경험을 극대화할 수 있도록 구성된, 동선과 시간 배분이 탁월한 최적의 일정.   연구진은 BiGGen-Bench를 활용해 총 103개의 LLM을 평가했고, 사람 평가와의 상관계수가 0.6 이상으로 나타나 LLM-as-a-Judge 평가 시스템의 신뢰성을 입증했습니다. 또한 이 평가를 통해 LLM의 능력과 관련된 다양한 인사이트를 얻을 수 있었습니다. 첫 번째로 확인된 것은 모델 규모에 따른 성능 변화, 즉 스케일링 트렌드입니다. 일반적으로 모델의 크기가 커질수록 대부분의 능력에서 성능이 향상되는 경향을 보였지만, 일부 능력은 크기 증가에 비례한 성능 향상이 뚜렷하지 않았습니다. 이를 통해 특정 능력은 단순한 파라미터 증가만으로는 개선하기 어렵다는 것을 알 수 있습니다.     두 번째 인사이트는 Post-training의 효과입니다. Pre-trained LLM과 Post-trained LLM을 비교한 결과, 지시 수행 능력에서는 Post-training을 거친 모델이 분명한 성능 향상을 보였지만, 추론이나 도구 활용과 같은 고차원적인 능력에서는 그 효과가 제한적이었습니다.   세 번째로, 오픈소스 LLM과 ChatGPT와 같은 상용 모델을 비교했을 때, 다국어 처리, 추론, 마음 이론 등의 복잡한 능력에서 오픈소스 모델의 성능이 상대적으로 낮게 나타났습니다. 이러한 결과는 오픈소스 LLM이 고차원적인 언어 이해 능력을 강화하기 위해 아직 상당한 개선이 필요함을 의미합니다.     BiGGen-Bench는 단순한 평가 도구를 넘어, 대규모 언어 모델의 실제 능력을 다면적으로 진단하고, 평가 신뢰도를 높이는 데 기여하는 프레임워크입니다. 이를 통해 모델 규모, 학습 방식, 오픈소스와 상용 모델 간의 성능 차이 등 다양한 측면에서 의미 있는 통찰을 얻을 수 있었으며, 이는 LLM이 지금보다 더욱 좋은 모델로 발전하는 데 필수적인 도구가 될 것입니다. 이 연구는 자연어 처리 분야에서 최고 권위 있는 학회 중 하나인 NAACL 2025를 통해 발표됐고, 그 해 최고 논문 한 편에게만 주어지는 Best Paper Award에 선정되었습니다.

Read more

SCROLL

Subscribe to our research webzine

Be the first to get exclusive offers and the latest new on our product directly in your inbox.