참고 아티클
https://meetup.nhncloud.com/posts/362
이상 탐지 1부-정상과 비정상, 그리고 이상 탐지 : NHN Cloud Meetup
이상 탐지 1부-정상과 비정상, 그리고 이상 탐지
meetup.nhncloud.com
이상 탐지란?
이상 탐지(anomaly detection)란 우리만의 기준을 세워 "특이한" 값, "보기 드문" 사건을 탐지하는 일이다.
이상 탐지의 목적은 적절한 모델을 통해 기준선을 생성하고, 이상 징후를 미리 감지하여 경고를 보내며, 근본적인 원인을 해결하고 대비하는 것이라고 할 수 있다.
이상(anomaly)이란?
이상(anomaly)은 1)'Novelty'와 2)'Outlier' 이렇게 두 가지로 정의될 수 있으며, 각각의 개념과 탐지 방법론에 차이가 있다.
1) Novelty : 이전과는 다른 새로운 형태의 본 적 없는 데이터
2) Otulier : 다른 데이터와 비교해 확연하게 다른 데이터
즉, Novelty의 특징은 "본 적 없다", Outlier의 특징은 "다르다"라고 볼 수 있다.
이 두 가지를 탐지하는 방법론의 차이는 학습 데이터의 특성과 탐지 대상 영역에 있다.
정의 | 학습 데이터 특성 | 탐지 대상 | 이상 탐지 | |
Novelty detection | 새로운 데이터가 학습된 데이터 분포에 포함되는지 여부를 판단 | 정상 데이터로만 구성 | 새로운 입력 데이터 | semi-supervised anomaly detection |
Outlier detection | 학습 데이터 내에서 데이터들이 가장 많이 집중된 영역을 찾아내고 그외의 데이터를 제거하는 것 | 정상/이상 데이터가 모두 존재 | 학습 데이터 내에서 제거 | unsupervised anomaly detection |
핵심은 어떤 데이터를 학습하고 어디서 이상 데이터를 찾을 것이냐의 차이이다.
다시 말해, Novelty detection은 정상 데이터들로 학습하여 새로운 데이터 중 이상 데이터를 찾아내는 것이며, Outlier detection은 정상/이상이 혼재되어 있는 데이터를 학습하고 그 안에서 이상 데이터를 찾아내는 것이다. 따라서 이상 탐지를 적용할 때, 현재 가지고 있는 데이터와 탐지하고자 하는 데이터의 특성을 고려하여 두 가지 방법론 중 적절히 선택하는 것이 중요하다.
데이터의 종류에 따라..
위에서 언급한 탐지 대상 및 목적에 따라 이상 탐지 방법론이 구분되는 것처럼, 데이터의 종류로도 구분할 수 있다.
첫 번째, 단변량(univariate) vs 다변량(multivariate)
이상 탐지에서는 변수 간의 연관성도 중요한 요소로 작용하기 때문에 단변량과 다변량을 구분할 필요가 있다.
두 번째, 시계열 데이터
시계열 데이터는 값 자체(평균, 최대, 최소)도 중요하지만 규칙성도 중요하며, 이상 데이터가 단기적으로 또는 장기적으로 나타날 수도 있다는 점에서 이상 데이터의 정의를 구체화할 필요가 있다.
1. Point time-sereis anomaly
1-1. Global anomaly: 전체 시계열(그림 예시에서는 100 steps)을 고려했을 때 그 값이 정상적인 범주를 크게 벗어나는 데이터
1-2. Contextual anomaly: 인접한 시계열 데이터를 고려했을 때 약간의 변칙이 존재하는 데이터
2. Pattern time-series anomaly
2-1. Shapelet anomaly: 전체 시계열에 존재하는 일반적인 모양(shapelet)과 다른 shapelete, cycle을 가진 부분
2-2. Seasonal anomaly: 모양이나 트랜드는 유사하지만 시계열의 계절성(Seasonal)에서 벗어나는 부분
2-3. Trend anomaly: 시계열의 추세(Trend)에 영구적인 변화를 주는 부분
'데이터 > 모델링' 카테고리의 다른 글
[모델링] 예측 모델링 근데 이제 시계열을 곁들인 _XGboost ① (0) | 2025.03.12 |
---|---|
[모델링] 이상 탐지 모델 4 - 시계열 이상 탐지 딥러닝 모델 (0) | 2025.02.21 |
[모델링] 이상 탐지 모델 3 - 시계열 이상 탐지와 딥러닝 네트워크 (0) | 2025.02.21 |
[모델링] 이상 탐지 모델 2 - 이상 탐지 머신러닝 모델 (0) | 2025.02.17 |