1. 개요

  • 2019년 5월 개방된 과기정통부·한국지능정보사회진흥원(NIA)의 AI 플랫폼 ‘AI허브’ 내 A 데이터셋에서 자연어 처리용 대화문 데이터에 국민 개인정보가 여과 없이 포함된 채 공개된 사실이 2025년 8월 7일 확인되었습니다.

 

2. 피해범위

  • A 데이터셋 초기 버전에는 최소 수십 명의 국민 개인정보가 포함되었으며, 다운로드 수천 건을 통해 다수 이용자가 노출되었습니다.

 

3. 유출항목

  • 이름
  • 주소
  • 생년월일
  • 휴대전화번호
  • 이외 추가 항목은 확인되지 않았습니다.

 

4. 원인

  • 2018년 한국과학기술정보연구원(KISTI) 주도로 구축된 A 데이터셋 개방 전 개인정보 비식별화 검수가 미흡했습니다.
  • 1차~4차 비식별화 작업을 거쳤으나, 관리감독 부실로 완전 제거되지 못했습니다.

 

5. 대응

  • 2021년 2월 노출을 최초 인지한 뒤, 약 3개월에 걸쳐 개인정보 비식별화(알아볼 수 없게 수정) 작업을 1차 진행하고 데이터셋을 재개방했습니다.(A 데이터셋의 초기 버전에는 현 버전보다 개인정보 수가 많았다고 합니다)
  • 개인정보 비식별화는 완벽하지 않아 다시 2개월간 2차 수정했으나 역시 개인정보 보호가 미흡한 채로 재개방했습니다.
  • 이후 3개월 동안 3, 4차 수정과 재개방을 반복했습니다.
  • 2025년 7월 말 A 데이터셋 접근을 차단하고 5차 비식별화 작업을 즉시 시행했습니다.
  • AI허브 전체 915종 데이터셋에 대한 전수조사 및 재가명처리 절차를 진행 중입니다.
  • 과학기술정보통신부 관계자는 "해당 데이터는 창작된 재현 데이터 및 일부 작업 참여자 본인의 정보로, 2021년부터 2022년까지 경찰 조사 등을 통해 개인정보보호법상 개인정보 유출로 보기 어려운 점을 확인했다"고 밝혔습니다.
  • 향후에도 유사 사례가 재발하지 않도록 지속적인 점검과 필요한 경우 적절한 조치를 취해나갈 예정이라고 합니다.

 

6. 문제점

  • A 데이터셋에 속한 개인정보는 당국이 AI허브에 노출한 선에서 끝나지 않았습니다.
    - 거대 언어 모델을 개발하는 대기업 ㄱ사, 일선 금융사에 AI 챗봇을 공급하는 ㄴ사, 자연어 처리를 연구하는 사립 대학교 연구소 등이 AI 학습 용도로 사용했습니다.
    - 대기업 IT서비스 계열사 ㄷ사는 그룹사에 제공하는 IT서비스 고도화에 B 데이터셋을 활용했습니다다.(ㄷ사는 B 데이터셋을 구축한 수행기관이기도 합니다.)
  • 당국은 AI허브를 통해 개방한 데이터셋 활용에 따르는 법적 책임을 개인·단체에 돌리고 있으며, 구제해주지 않고 있습니다.
  • 당사자로부터 개인정보를 AI 학습 용도로 활용하겠다는 동의를 받지 않았습니다.
  • 동의를 받지 않았음에도 불구하고 개인정보를 비식별화하지 않았습니다.
  • 6년간 노출 사실을 모두 인지하지 못했고, 반복된 비식별화에도 불완전한 조치만 시행했으며, 책임 소재와 검수 기준이 불명확하여 재발 방지 시스템이 갖춰지지 않았습니다.
  • 당국이 아직도 A 데이터셋을 보유한 개인·단체들에게 활용 중지 및 자료 파기를 권하지 않고 있습니다.

+ Recent posts