이미지를 매개로 하는 멀티모달 반지도학습Image-Bridged Multimodal Half-Supervised Learning

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 39
  • Download : 0
멀티모달 데이터를 활용하는 학습 방법은 다양한 형태로 존재하는 데이터를 서로 연관 지어 상호검색을 위한 특징을 추출하거나, 다양한 형태의 데이터를 종합적으로 요구하는 새로운 태스크를 수행하기 위해 사용된다. 현재까지, 이미지와 텍스트 및 이미지와 소리 데이터 간의 멀티모달 학습을 수행하는 연구가 진행되어왔다. 이에 더 나아가, 본 논문에서는 이미지를 중심으로 소리 및 텍스트 데이터를 상호 고려하는 반지도학습 방법을 적용한 모델을 제시한다. 해당 모델은 이미지, 소리, 텍스트를 자유로이 수용하여 각각에 대한 특징을 추출할 수 있다. 덧붙여, 멀티모달 학습에 통상적으로 사용되는 단순 랭킹 손실함수의 한계점을 보완한, 마진값이 이미지 피처 간 유사도에 따라 변하는 가변 마진 랭킹 손실함수를 적용하여 모델을 학습시킨다. 최종적으로, 위 방법을 통해 학습한 모델의 표현력을 평가하기 위해, 제로-샷 텍스트-비디오 검색 성능을 중심으로 이종 데이터 간 상호검색 성능을 정량적으로 분석한다.
Publisher
한국정보과학회
Issue Date
2021-12
Language
Korean
Citation

정보과학회 컴퓨팅의 실제 논문지, v.27, no.12, pp.578 - 583

ISSN
2383-6318
DOI
10.5626/KTCP.2021.27.12.578
URI
http://hdl.handle.net/10203/296954
Appears in Collection
CS-Journal Papers(저널논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0