이번 글에서는 Sigma를 AI/ML 기반 탐지와 어떻게 결합할 수 있는지 실전 관점에서 정리해드리겠습니다.

Sigma는 원래 로그 기반 탐지를 표준화하기 위한 YAML 포맷이지만, SigmaHQ 공식 문서와 Picus 자료를 보면 이 포맷이 단순한 룰 저장 형식을 넘어 CI/CD, 대규모 룰 재사용, 플랫폼 간 변환에 적합하다는 점이 분명합니다.

여기에 AI/ML을 더하면, 단순 룰 탐지를 넘어 이상 징후 발견, 룰 초안 생성, 오탐 분류, 튜닝 자동화까지 확장할 수 있습니다.

 

◎ AI/ML을 붙이는 이유

  • 전통적인 Sigma 룰은 강력하지만, 이미 알고 있는 TTP를 빠르게 탐지하는 데 더 강합니다. 
  • 반면 AI/ML은 정상 행위의 패턴을 학습한 뒤 벗어나는 행동을 찾는 데 유리합니다. 
  • 즉, Sigma는 “무엇을 볼지”를 명확히 하고, AI/ML은 “무엇이 이상한지”를 넓게 보는 식으로 역할이 나뉩니다.
  • 실무에서는 이 둘을 경쟁시키기보다 전처리와 후처리로 엮는 방식이 가장 효과적입니다.

 

◎ Sigma와 AI/ML의 분업

 - 구조를 단순화하면 다음과 같습니다.

  • Sigma: 정형 로그에서 알려진 공격 패턴 탐지.
  • ML 이상탐지: 계정, 프로세스, 네트워크의 비정상 변화 탐지.
  • LLM 보조: 룰 초안 작성, 필드 추정, 설명 자동 생성.

 - SigmaHQ 문서도 Sigma가 기본적으로 행위 기반 탐지에 맞고, 룰은 YAML과 간단한 조건 조합으로 구성된다고 설명합니다.

 - 그렇기 때문에 AI/ML이 계산한 스코어를 바로 Sigma 조건에 넣거나, 반대로 Sigma hit을 학습 데이터로 쓰는 방식이 자연스럽습니다.

 

◎ 가장 실용적인 적용 지점

 - AI/ML과 Sigma를 섞을 때 가장 먼저 효과가 나는 영역은 다음 세 가지입니다.

1. 이상치 점수로 Sigma 트리거

  • ML 모델이 risk_score를 만들고, 그 점수가 특정 임계치를 넘으면 Sigma 룰이 작동하도록 합니다.
  • 예를 들어, 평소엔 보이지 않던 국가에서 로그인했고, 짧은 시간에 여러 호스트에서 PowerShell이 실행되면 점수가 급상승합니다. 
  • 이 값을 risk_score > 80 같은 조건으로 묶으면 Sigma의 정교함과 ML의 넓은 시야를 함께 가져갈 수 있습니다.

 

2. Sigma hit을 학습 라벨로 사용

  • 이미 잘 만들어진 Sigma 룰은 정답 라벨로 쓰기 좋습니다.
  • 예를 들어, Azure Sentinel의 Entra ID 룰이나 AWS CloudTrail 룰에서 잡힌 이벤트를 정상/비정상 라벨로 분류하면, 이후 ML 모델 학습 데이터로 활용할 수 있습니다.
  • 이 방식은 초기 데이터셋이 부족한 SOC 환경에서 특히 유용합니다.

 

3. LLM으로 룰 초안 생성

  • SigmaHQ는 15,000개 이상의 룰 생태계를 가진 만큼, 비슷한 공격 패턴을 참고해 새 룰을 빠르게 확장할 수 있습니다.
  • LLM은 여기서 초안 생성기 역할을 하기에 좋습니다. 예를 들어, “CloudTrail에서 IAM 권한 상승 탐지” 같은 설명을 입력하면 eventName, userIdentity, requestParameters 기반 초안을 뽑아낼 수 있습니다.
  • 다만 최종 검증은 반드시 사람이 하셔야 합니다.

 

 

 실전 아키텍처

  • 가장 현실적인 구조는 아래와 같습니다.
Raw Logs
  ↓
Feature Extraction
  ↓
ML Anomaly Scoring
  ↓
Sigma Rules / Correlation
  ↓
SIEM Alert / SOAR Response

 

  • 이 구조에서 Sigma는 “결정 규칙”을 담당하고, ML은 “우선순위 재조정”을 담당합니다.
  • Picus도 Sigma를 포함한 탐지 콘텐츠가 플랫폼에 종속되지 않고 변환 가능해야 운영 효율이 높다고 설명합니다.
  • 즉, AI/ML은 단독 운영보다 Sigma 파이프라인의 앞단과 뒷단에 붙일 때 가장 실용적입니다.

 

 예시 시나리오

예시 1. 랜섬웨어 전조
 - 모델이 다음 특징을 감지합니다.

  • 새로 생성된 서비스 계정.
  • 짧은 시간 내 다수 호스트 접속.
  • PsExec, WMI, PowerShell 실행 증가.

- 이때 Sigma는 알려진 패턴을 직접 잡고, ML은 그 조합의 비정상성을 점수화합니다.

 - 결과적으로 단일 IOC가 없어도 공격 전개를 놓치지 않게 됩니다.

 

예시 2. 클라우드 계정 탈취

  • AWS CloudTrail이나 Entra ID에서 평소와 다른 지역, 다른 User-Agent, 이상한 토큰 발급이 연속으로 발생하면, Sigma는 특정 API 호출을 잡고 ML은 행위 시퀀스 전체를 이상치로 판정합니다.
  • 이 방식은 공격자가 정상 사용자처럼 보이도록 위장할수록 더 유리해집니다.

 

 운영 시 주의점

 - AI/ML을 붙인다고 자동으로 좋아지지는 않습니다. 오히려 아래 세 가지가 중요합니다.

  • Feature drift 관리가 필요합니다.
  • 학습 데이터 편향을 확인하셔야 합니다.
  • 설명 가능성을 반드시 확보해야 합니다.

 - 특히 보안관제에서는 “왜 울렸는가”가 명확해야 하므로, ML 결과는 그대로 쓰기보다 Sigma 룰이나 상관분석으로 설명 가능한 형태로 바꾸는 편이 좋습니다.

 - 또한 Picus가 말하듯 Sigma는 CI/CD에 잘 맞기 때문에, 모델 변경과 룰 변경을 같은 파이프라인에서 검증하면 운영 안정성이 높아집니다.

 

 도입 순서

 - 실무에서는 아래 순서가 가장 무난합니다.

  • 기존 Sigma 룰을 먼저 정리합니다.
  • 룰 히트 데이터를 라벨로 저장합니다.
  • 간단한 이상치 탐지 모델부터 붙입니다.
  • ML 점수를 Sigma 조건 또는 상관분석에 연결합니다.
  • 오탐 사례를 다시 룰과 모델 양쪽에 반영합니다.

 - 이 순서를 따르면 AI/ML이 갑자기 독립 시스템이 되지 않고, 기존 SOC 흐름 안에 자연스럽게 녹아듭니다.

 

 마무리

  • Sigma와 AI/ML의 결합은 “룰 탐지 vs 머신러닝 탐지”의 대결이 아닙니다. 
  • 오히려 명확한 탐지 규칙과 유연한 이상탐지의 협업에 가깝습니다.
  • Sigma가 공격자의 알려진 행동을 빠르게 잡고, AI/ML이 그 주변의 이상한 흐름을 넓게 보완하면, SOC는 훨씬 촘촘한 탐지 체계를 갖출 수 있습니다.
  • 특히 랜섬웨어, 계정 탈취, 클라우드 권한 오용처럼 패턴은 같지만 변형이 많은 공격에서는 이 조합이 매우 강합니다.

 

 

 

반응형

+ Recent posts