DSpace at KOASAS: Mixture of Experts 모델 서빙에 효율적인 단일 입력 단위 expert 병렬 실행을 위한 스케줄링 기법

DSpace at KOASAS

College of Engineering(공과대학)School of Computing(전산학부)CS-Theses_Master(석사논문)

Mixture of Experts 모델 서빙에 효율적인 단일 입력 단위 expert 병렬 실행을 위한 스케줄링 기법Fine-grained expert parallelism-based scheduling for Mixture-of-Experts model serving

Cited 0 time in webofscience

Cited 0 time in scopus

Hit : 59
Download : 0

Export

심성환

딥러닝 모델 크기의 증가로 인한 높은 계산량 문제를 해결하기 위해 MoE (Mixture of Experts) 모델이 제안되었다. MoE 모델은 각 입력 실행에 일부 레이어들만이 사용되기 때문에 동일 크기 밀집된 (dense) 모델에 비해 현저히 적은 계산량을 보인다. 이러한 MoE 모델 또한 크기 증가로 인한 높은 GPU 메모리 요구량 문제를 피해 갈 수 없기에 MoE 레이어의 Expert 들을 여러 GPU에 분산시켜 실행하는 Expert 병렬 실행 기법이 사용된다. 하지만 이러한 Expert 병렬 실행 방식은 모델 추론 요청이 실시간으로 들어오는 온라인 딥러닝 모델 서빙 시나리오에서 요청 별 실행 시간이 크게 증가하는 문제가 있다. 본 논문에서는 이를 해결하기 위해 단일 입력 단위 Expert 병렬 실행 방식과 이를 효과적으로 사용할 수 있는 두 가지 스케줄링 아이디어인 레이어 단위 입력 중첩 실행 방식과 위탁받은 Expert 실행 작업 우선 처리 방식을 제안한다. 우리는 다양한 강도의 서빙 워크로드에서의 실험을 통해 제안한 단일 입력 단위 Expert 병렬 실행 방식과 스케줄링 기법이 모든 워크로드에서 기존 Expert 병렬 실행 방식과 비슷한 단위 시간당 처리율 (throughput)을 유지하면서도 꼬리 지연을 평균적으로 54.2% 단축시키는 것을 확인했다.

Advisors: 강지훈 researcher; Kang, Jeehoon researcher

Description: 한국과학기술원 :전산학부,

Publisher: 한국과학기술원

Issue Date: 2023

Identifier: 325007

Language: kor

Description: 학위논문(석사) - 한국과학기술원 : 전산학부, 2023.2,[ii, 22 p. :]

Keywords: Mixture of Experts▼a엑스퍼트 병렬 실행 방식▼a딥러닝 모델 서빙▼a스루풋▼a꼬리 지연; Mixture of Experts▼aExpert Parallelism▼aDeep Learning Model Serving▼aThroughput▼aTail Latency

URI: http://hdl.handle.net/10203/309492

Link: http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=1032975&flag=dissertation

Appears in Collection: CS-Theses_Master(석사논문)

Files in This Item: There are no files associated with this item.

Display Full Item Record

qr_code

트윗하기

KOASAS

Knowledge Service Development Team, KAIST 291 Daehak-ro, Yuseong-gu, Daejeon 34141, Republic of Korea. T. 82-42-350-4493 Email. koasas@kaist.ac.kr
Copyright © 2016. Korea Advanced Institute of Science and Technology. All Rights Reserved.

KOASAS

KOASAS

Browse

Mixture of Experts 모델 서빙에 효율적인 단일 입력 단위 expert 병렬 실행을 위한 스케줄링 기법Fine-grained expert parallelism-based scheduling for Mixture-of-Experts model serving

KOASAS

Communities & Collections