빅데이터와 인공지능 통합 관점에서 본 크라우드 소싱과 데이터 프로그래밍을 이용한 대규모 이미지 데이터 레이블링Massive image labeling using crowdsourcing and data programming : a big data AI integration perspective

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 350
  • Download : 0
소프트웨어 2.0 시대에 접어들면서 이미지 데이터에 대한 다양한 기계학습 기법들이 개발됨에 따라, 정확하고 효율적인 데이터 레이블링 기법의 필요성이 대두되었다. 스마트팩토리와 같은 제조업 관련 환경에서는 품질 관리 과정에서 제품 이미지를 분석하는 기계학습 기법들에 의존성이 높기 때문에 효율적인 데이터 레이블링에 대한 문제가 특히 중요하게 작용한다. 보통의 제품 이미지들은 해상도가 높으며, 결함이 발생한 매우 작은 일부분에 대해서만 분석이 필요하다. 충분한 양의 이미지를 레이블링하거나 복잡하고 큰 기계학습 모델을 학습시키는 방법들은 많은 인적 자원과 계산 자원을 필요로 하며, 사전 훈련된 모델을 이용한 전이 학습 또한 가능하지 않을 수 있다. 하지만 주어진 데이터를 최대한 활용하고 자원 소비를 실현 가능한 수준으로 줄이는 데에 향상된 데이터 관리 기법이 중요한 역할을 할 수 있다. 본 논문에서는 자원 효율적인 이미지 레이블링 시스템을 제안하며, 이 시스템은 크라우드 소싱, 데이터 확충 및 데이터 프로그래밍에서 영감을 얻은 기법을 포함한 여러 기법을 결합하여 레이블이 거의 없거나 전혀 없을 때 높은 정확도의 레이블을 생성할 수 있다. 이 시스템에서는 다른 이미지에서 문제가 있는 부분을 찾는 데 사용할 수 있는 패턴(이미지의 부분)을 사람이 찾고 표시하는 크라우드 소싱 워크플로우가 사용되며, 패턴의 수가 충분하지 않을 경우 생성적 적대 신경망 및 정책을 사용하여 패턴을 보강한다. 이후 크라우드 소싱 중에 생성된 검사 데이터셋 (Validation Set)에서 패턴 매칭을 수행하고, 결과로 나온 유사도 값을 이용해 단순 픽셀값이 아닌 높은 수준의 특징값을 생성하며, 이 특징값을 간단한 모델을 학습시키고 레이블을 생성한다. 실제 데이터셋에서 평가한 결과, 이 시스템은 인간의 노력과 계산 비용의 균형을 합리적인 수준으로 유지할 뿐만 아니라 최신 이미지 레이블링 기법인 스누바 (Snuba) 및 고글스 (GOGGLES)와 비교하여 더 정확한 결과를 얻을 수 있었다.
Advisors
황의종researcherWhang, Steven Euijongresearcher
Description
한국과학기술원 :전기및전자공학부,
Publisher
한국과학기술원
Issue Date
2020
Identifier
325007
Language
kor
Description

학위논문(석사) - 한국과학기술원 : 전기및전자공학부, 2020.2,[iv, 34 p. :]

Keywords

기계학습▼a데이터 레이블링▼a자원 효율성▼a크라우드 소싱▼a데이터 프로그래밍▼a데이터 확충; Machine Learning▼aData Labeling; Resource-efficiency▼aCrowdsourcing▼aData Programming▼aData Augmentation

URI
http://hdl.handle.net/10203/284791
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=911421&flag=dissertation
Appears in Collection
EE-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0