Research Webzine of the KAIST College of Engineering since 2014
Spring 2026 Vol. 26오늘날 생성형 AI는 대부분 GPU에 크게 의존하고 있지만, 업계는 점차 더 다양한 하드웨어로 이동하고 있다. Google TPU와 Amazon Inferentia를 포함한 다양한 NPU와 삼성과 SK hynix의 PIM 가속기가 이러한 변화를 이끌고 있다. KAIST는 이러한 GPU·NPU·PIM 이종 칩을 유기적으로 결합해 차세대 생성형 AI 클라우드를 구현하는 하드웨어-소프트웨어 융합 설계 기술을 개발했다.
차세대 생성형 AI 클라우드 인프라 개념도. 여기서는 GPU, NPU, PIM 가속기 등 다양한 하드웨어가 하나의 통합된 시스템으로 동작한다. KAIST의 연구는 이러한 이종 하드웨어의 융합을 가능하게 해, 현재 GPU 중심 AI 컴퓨팅의 한계를 극복하는 것을 목표로 한다.
오늘날 생성형 AI 추론은 대부분 NVIDIA GPU에 의해 구동되고 있지만, 생태계는 더욱 다양한 가속기로 빠르게 확장되고 있다. 글로벌 하이퍼스케일러가 Google TPU와 Amazon Inferentia를 통해 선도하고 있는 NPU(Neural Processing Unit)는 한 축을 형성하며, FuriosaAI, Rebellions, HyperAccel과 같은 AI 반도체 스타트업들도 대규모 AI 워크로드에 최적화된 NPU 아키텍처를 개발하고 있다. 또 다른 축은 Processing-in-Memory(PIM) 기술의 부상으로, 삼성과 SK hynix는 데이터 이동을 줄이고 에너지 효율을 향상시키는 메모리 중심 접근 방식을 발전시키고 있다. 이러한 트렌드는 GPU 중심의 생태계에서 GPU, NPU, PIM이 공존하는 이종 하드웨어 기반 AI 인프라로의 전환을 의미한다.
이러한 하드웨어 다변화는 새로운 기회를 제공하는 동시에 근본적인 시스템적 문제를 만들어낸다. 각 하드웨어의 종류마다 강점이 다르며, 알고리즘적 연산뿐 아니라 상호작용형·에이전트 기반 사용 시나리오 등 다양한 애플리케이션 동작에 따라 요구되는 연산 패턴이 달라지기 때문에, 단일 장치만으로 생성형 AI 추론의 전체 스펙트럼을 효율적으로 처리하기 어렵다. 따라서 GPU, NPU, PIM의 상호보완적 강점을 결합하는 것은 성능, 에너지 효율, 클라우드 규모의 비용 효율성을 향상시키기 위해 필수적인 기술적 과제이다. 이러한 도전을 해결하려면 개별 하드웨어의 발전만으로는 부족하며, 이종 가속기들이 분리된 구성요소가 아니라 통합된 컴퓨팅 기반처럼 동작하도록 만드는 하드웨어 소프트웨어 융합 설계가 필요하다.
KAIST의 연구는 이러한 문제를 해결하기 위해 하드웨어 수준의 융합 기술과 이종 가속기를 통합·조율하는 시스템 소프트웨어를 함께 개발했다. 하드웨어 측면에서 KAIST는 NeuPIMs를 개발했다. NeuPIMs는 NPU 기반 연산 유닛과 PIM 채널이 대규모 언어 모델의 다양한 연산을 분담하며 협력하는 NPU-PIM 통합 가속기 아키텍처다. NeuPIMs는 연산 집약적 처리와 메모리 병목 처리를 장치 간에 분산하고, NPU 엔진과 PIM 유닛이 동시에 동작하도록 실행을 조율하는 메커니즘을 제공한다. 이 아키텍처는 연산 중심 가속기와 메모리 중심 가속기를 하나의 시스템으로 융합하여 GPU 단독 설계의 구조적 한계를 극복할 수 있음을 보여주는 중요한 진전이다.
그림 1 NeuPIMs 시스템 및 가속기 아키텍처 개요
하드웨어에서의 NPU-PIM 융합 기술 혁신을 실제 생성형 AI 클라우드 상에서 실현하기 위해, KAIST는 LLMServingSim 역시 개발했다. LLMServingSim은 GPU, NPU, PIM 장치가 실제 서빙 클러스터에서 함께 동작할 때의 행태를 모델링하는 시스템 시뮬레이션 인프라다. 이 도구는 모델 실행 그래프를 연산자 스케줄로 변환하고, 배칭 및 KV 캐시 관리와 같은 요청 단위 행동을 모델링하며, 실제 하드웨어 없이도 성능을 예측할 수 있도록 한다. 이를 통해 새로운 하드웨어 구성이 생성형 AI 클라우드 인프라에 어떤 영향을 미칠지 칩 제조와 시스템 구축 이전에 분석할 수 있으며, 연구자와 산업 개발자는 칩 아키텍처 선택, 런타임 스케줄링 정책, 클러스터 자원 구성 등의 의사결정 과정을 수행할 수 있다.
그림 2 LLMServingSim 시뮬레이션 프레임워크 개요
KAIST는 이처럼 이종 가속기 아키텍처와 시스템 시뮬레이션 인프라를 함께 발전시키며, GPU, NPU, PIM 기반 기술을 차세대 생성형 AI 클라우드에 통합하기 위한 융합적 방향성을 제시했다. 이러한 관점은 미래의 AI 인프라가 단일 가속기 선택을 넘어, 여러 특화된 장치를 조화롭게 조율하는 방향으로 진화해야 함을 보여준다.