회귀 분석을 위한 데이터 혼합 증대 기법Data mixing augmentation techniques for regression

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 369
  • Download : 0
기계 학습과 인공신경망이 여러 분야에 걸쳐 광범위하게 적용되고 있지만, 그 과정에서 많은 문제가 뒤따르고 있으며, 그중에서도 데이터 부족 문제가 점점 대두하고 있다. 신경망 모델과 관련된 많은 기법은 학습에 사용될 데이터의 수가 충분하다는 가정하에 연구되었지만, 현실에서 충분한 수의 학습 데이터와 레이블을 확보하는 것은 큰 비용과 노력이 요구되기 때문에 학습 데이터의 수가 부족한 경우가 대부분이다. 그러한 문제를 해결하고자 기존에 보유한 데이터를 이용해 새로운 데이터를 생성하고, 생성된 데이터를 학습에 활용하여 신경망 모델의 성능을 향상시키는 데이터 증대 기법이 제안되었다. 특히 이미지 분류와 관련된 많은 연구에서는 신경망 모델의 성능 향상을 위해 증대 기법이 기본적으로 적용되고 있다. 하지만 모든 분야에 적용되는 것은 아니며, 비 이미지 데이터를 다루고, 정확한 값을 예측해야 하는 회귀 분석 분야는 기존의 이미지 분류 문제에 적용되는 증대 기법으로는 성능 향상 효과를 얻을 수 없다. 본 논문에서는 회귀 분석 데이터셋에 존재하는 레이블 간 거리의 차이를 고려한 회귀 분석을 위한 증대 기법을 제안하며, 이를 회귀 분석 문제에 적용하면 데이터가 부족한 상황에서도 추가 데이터를 만들어 모델의 성능을 향상시킬 수 있음을 보인다. 레이블 간 거리의 차이는 분류 문제에서는 없는 특성으로, 실수를 레이블 값으로 가지는 데이터셋에만 존재한다. 본 논문의 기법은 이를 활용하여 두 데이터의 선형 결합으로 학습에 도움이 되는 적절한 추가 데이터를 생성하는 일련의 과정으로 구성되어 있다. 또한, 이 과정을 정책으로 정의하고, 알고리즘화해서 기법 적용의 자동화를 용이하게 했다. 모델 성능 향상 효과를 최대화하기 위해서는 최적의 정책을 탐색하는 과정이 필수지만 모든 경우를 탐색하는 격자 탐색은 시간과 비용이 많이 소모되기 때문에 강화학습을 활용한 효율적인 탐색 기법을 적용한다. 제안 기법을 실제 데이터셋인 Product 데이터셋과 NO2 데이터셋에 적용하여 추가적인 데이터를 생성하고 이를 원래 데이터와 함께 신경망 모델 학습에 사용한 결과, 각각의 데이터셋에 대해 약 3%와 7%의 $R^_{2}$ 성능 향상을 보였다. 새로 만들어진 추가 데이터는 두 데이터 점 사이에 대한 모델의 예측을 선형 값으로 유도해 예측값의 변화량을 줄여 모델의 성능을 향상시킨다. 또한, 제안 기법은 확장성이 뛰어나 회귀 분석에 사용되는 어떠한 데이터셋에도 확장 및 적용이 가능하다.
Advisors
황의종researcherWhang, Steven Euijongresearcher
Description
한국과학기술원 :전기및전자공학부,
Publisher
한국과학기술원
Issue Date
2021
Identifier
325007
Language
kor
Description

학위논문(석사) - 한국과학기술원 : 전기및전자공학부, 2021.2,[iv, 33 p. :]

Keywords

기계학습▼a회귀 분석▼a데이터 혼합▼a데이터 증대▼a탐색 기법; Machine Learning▼aRegression▼aMixup▼aData Augmentation▼aSearch Techniques

URI
http://hdl.handle.net/10203/296083
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=948997&flag=dissertation
Appears in Collection
EE-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0