불균형한 데이터 상에서의 SHAP 기반 강건한 레이블 클리닝Robust label cleaning on class imbalanced data using SHAP

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 2
  • Download : 0
기계 학습에 있어서 좋은 품질의 데이터 확보는 필수적이지만, 데이터 수집 과정에서 다양한 이유로 잘못 분류된 데이터가 포함되기도 한다. 잘못 라벨링 된 데이터는 기계 학습 과정에서 문제를 일으킬 수 있으며, 전체적인 모델의 성능 저하를 유발한다. 잘못 라벨링 된 데이터를 가지치기하기 위한 기존 연구는 손실값을 주로 사용하지만, 데이터가 불균형하거나, 심하게 지저분한 경우에는 잘 작동하지 않는 단점을 가진다. 이에 본 연구에서는 모델의 설명을 위한 도구인 SHAP 값을 사용하여 잘못 분류된 데이터를 찾아내는 기법을 제시한다. SHAP 값은 손실값보다 기계 학습 모델에 대한 정보를 더 많이 담고 있으며, 데이터가 모델에서 잘못 분류되는 경우에 대해서도 손실값 대비 더욱 강건한 특성을 가진다. 최종적으로 본 연구는 SHAP 값 기반의 데이터 레이블 클리닝과 손실값 기반의 데이터 레이블 클리닝을 앙상블 한 모델을 통해 다양한 상황에서도 좋은 성능을 가지는 기법을 제시하며, 이를 다양한 실제 데이터 세트에서 평가한다.
Advisors
Whang, Euijongresearcher
Description
한국과학기술원 :전기및전자공학부,
Publisher
한국과학기술원
Issue Date
2024
Identifier
325007
Language
kor
Description

학위논문(석사) - 한국과학기술원 : 전기및전자공학부, 2024.2,[iv, 40 p. :]

Keywords

Explanability▼aData Centric AI▼aData Preprocessing▼aRobust Training▼aAnomaly Detection; 설명 가능성▼a데이터 중심 인공지능▼a데이터 전처리▼a강건 학습▼a이상 데이터 탐지

URI
http://hdl.handle.net/10203/321627
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=1097199&flag=dissertation
Appears in Collection
EE-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0