Billion-scale PARAFAC and tucker decompositions수십 억 규모의 PARAFAC과 Tucker 텐서 분해

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 668
  • Download : 0
네트워크 침입 로그 데이터(예: 출발지 IP, 목적지 IP, 포트번호, 시간)와 같이 다양한 특성을 지닌 대용량의 실제 세계 데이터에서 어떻게 유용한 패턴과 비정상 특성(예: 포트 스캐닝 공격, DDoS 공격 등)을 찾을 수 있을까? 텐서(tensor)는 2차원 배열(행렬)을 넘어선 다차원 배열로써, 실제 세계의 다차원의 데이터를 모델링하기 적합하기 때문에 소셜 네트워크 데이터, 웹 데이터, 네트워크 트래픽 데이터, 지식베이스 데이터 등과 같은 다양한 실제 세계의 데이터를 분석하는데 널리 활용되어왔다. 대표적인 텐서 분석 방법으로는, 텐서를 희소한 벡터들의 외적의 합으로 분해하여 데이터의 연관 관계를 살피는 텐서 분해 방법이 주로 사용된다. 그러나 기존의 텐서 분해 알고리즘은 확장성이 떨어지기 때문에 실제 세계의 대용량 텐서 데이터를 분석하기 어려웠다. 본 연구는 이러한 기존 방법의 문제점에서 출발하여, 실제 세계의 대용량 텐서 데이터를 분석하기 위한 맵리듀스 기반의 확장성이 높은 텐서 분해 알고리즘을 제안한다. 본 연구에서 제안한 HaTen2는 대용량 Tucker와 PARAFAC 텐서 분해 알고리즘 및 Tucker와 PARAFAC 기반의 비음 텐서 분해 알고리즘의 연산을 하나의 맵리듀스 기반의 프레임워크로 통합하였고, 효율적인 알고리즘 설계로 연산 시 중간 데이터의 크기와 실행시간을 최소화시켰다. 그리하여 제안한 HaTen2는 기존의 방법보다 최대 1000배 큰 크기의 텐서를 분해할 수 있을 뿐 아니라, 사용되는 머신의 수에 거의 선형적으로 비례하는 확장성을 갖추었다. 또한, 제안한 알고리즘을 지식 베이스 텐서와 네트워크 트래픽 로그, 통화 내역 등의 실제 데이터에 적용하여 숨겨진 개념 그룹과 비정상 공격 행위, 텔레마케터 등을 분석 해내었다.
Advisors
Kang, Uresearcher강유researcher
Description
한국과학기술원 :전산학과,
Publisher
한국과학기술원
Issue Date
2015
Identifier
325007
Language
eng
Description

학위논문(석사) - 한국과학기술원 : 전산학과, 2015.2 ,[vi, 47p. :]

Keywords

Tensor; Distributed Computing; Big Data; MapReduce; Hadoop; 텐서; 분산 컴퓨팅; 빅데이터; 맵리듀스; 하둡

URI
http://hdl.handle.net/10203/206653
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=608618&flag=dissertation
Appears in Collection
CS-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0