Research Webzine of the KAIST College of Engineering since 2014
Fall 2025 Vol. 25송환준 교수 연구팀은 대형 언어모델이 생성한 피드백을 활용해 AI가 사람의 개입 없이 스스로 학습하고 응답 품질을 개선하는 혁신적 프레임워크를 개발하였습니다. 이를 통해 고비용·저효율의 기존 인간 피드백 방식에서 벗어나, 보다 정확하고 신뢰할 수 있는 AI 응답을 제공하고자 합니다.

대규모 언어 모델(LLM)은 사람의 선호를 반영한 답변을 생성하도록 설계되었습니다. PPO와 DPO 같은 선호 최적화 방법은 사람들이 더 선호하는 답변을 모델이 선택하도록 학습시켜, 환각(Hallucination)이나 무관한 내용 같은 오류를 줄이는 데 도움을 줍니다. 이 방법들은 모델이 생성한 두 개의 답변을 사람에게 보여주고, 더 나은 답변을 고르게 하는 방식으로 작동합니다. 모델은 이렇게 사람들에게 더 높은 평가를 받은 답변을 점점 더 선호하도록 학습하게 됩니다.
그러나 기존 사람 피드백 방식에는 세 가지 도전 과제가 있습니다. 첫째, 복잡한 작업에 대한 사람의 직접 평가에는 많은 시간과 노력이 필요해 대규모로 확장하기 어렵습니다. 둘째, A/B 비교 방식이 일부 부담을 줄여주긴 하지만, 다양한 평가자 간에 공정하고 일관된 피드백을 확보하기는 여전히 어렵습니다. 마지막으로, Mechanical Turk와 같은 크라우드소싱 플랫폼은 수학, 법률, 의학과 같은 전문 분야 작업에 대해 높은 품질의 피드백을 제공하기 어렵습니다.

이 한계를 극복하기 위해 연구팀은 고도화된 LLM이 생성한 세밀하고 정밀한 피드백을 기반으로 AI가 학습하도록 하는 새로운 프레임워크를 개발했습니다. 이 프레임워크는 피드백 과정에서 사람의 개입을 완전히 없앴습니다. 이 혁신적인 접근법을 통해 AI는 사람이 감당하기 어려운 대규모 다차원 피드백을 기반으로 답변을 지속적으로 개선할 수 있게 되었습니다. 그 결과, AI는 사람의 선호에 더 정확하고 집중적이며 잘 맞는 답변을 생성할 수 있게 되었습니다.

이 프레임워크는 고도화된 대형 언어모델이 사람들의 선호를 기준으로 AI가 생성한 응답을 자동으로 평가하고 점수를 매기도록 합니다. 사람에게 응답을 비교하도록 요청하는 대신, LLM이 스스로 세부적인 피드백을 제공합니다. 예를 들어, 응답이 사실에 맞는지, 핵심 내용을 불필요한 정보 없이 잘 담고 있는지를 점검합니다. 이렇게 얻은 세밀한 피드백은 AI 학습에 활용되어, AI가 사람들의 기대에 맞는 더 나은 응답을 만들도록 돕습니다. 이 모든 과정은 학습 중 사람의 개입 없이 이루어집니다.
연구팀은 이 프레임워크를 텍스트 요약 작업에 적용한 결과, 팀은 SummLlama라는 소형 모델을 개발했으며, 이 모델은 훨씬 큰 Meta의 Llama3-70B-instruct보다도 더 뛰어난 성능을 보였습니다. SummLlama는 약 10배나 작은 모델임에도 불구하고, 인간 평가자들이 정확성, 완전성, 명확성 측면에서 더 선호하는 요약을 생성했습니다. 이는 AI가 생성한 피드백이 대규모로 사람의 피드백을 대체할 수 있으며, 더 작고 빠른 모델이면서도 복잡한 언어 작업에서 사람들의 기대에 부응하거나 이를 넘어설 수 있음을 보여줍니다.
이 연구는 「Learning to Summarize from LLM-generated Feedback」이라는 제목으로 2025년 북미 컴퓨터언어학회 연례 학술대회 (NAACL 2025)에 발표되었습니다.