과기부·KISA, 3년간 사이버보안 AI 데이터셋 20억건 구축

작년 침해사고·위협 헌팅·위협 인텔리전스 분야 6억건 구축
AI 데이터셋 실증 통해 사이버보안 대응체계 고도화

	2024011501001598700089191	0

과학기술정보통신부와 한국인터넷진흥원(KISA)이 사이버 위협 및 공격에 대응할 수 있도록 만든 '사이버보안 AI 데이터셋'이 지난 3년간 총 20억건 구축된 것으로 나타났다.

26일 과기정통부와 한국인터넷진흥원(KISA)에 따르면 양 기관은 AI 기술을 활용한 보안제품과 서비스 개발에 필요한 데이터셋을 2021년부터 구축했으며, 이를 기업 및 기관에서 실증·활용할 수 있도록 지원해 왔다.

'사이버보안 AI 데이터셋'은 AI기술을 활용한 보안제품·서비스 개발을 위해 필요한 악성코드와 IP 등 공격 데이터를 수집·분석·가공해 수집한 AI 학습용 데이터를 말한다.

연도별로 보면, 데이터셋은 지난 2021년 악성코드와 침해사고 등 2개 분야에 8억건을 구축했다. 악성코드는 AI 기반 백신 및 악성코드 분석 서비스에 활용된다. 침해사고는 방화벽 및 침입 탐지 시스템 등 솔루션 개발과 AI 기반 네트워크 이상 시나리오 분석 등에 사용한다.

2022년에는 △애플리케이션보안 △능동형 보안관제 △위협 프로파일링 등 3개 분야에 6억건을 구축했다. 애플리케이션 보안은 AI 기반 소스코드 취약점 진단 도구 개발 등에 이용한다. 능동형 보안관제는 기업 IT 인프라로 유입되는 공격행위 탐지와 위험도 산정 등에 쓰인다. 위협 프로파일링은 조직화한 공격그룹과 연관된 위협 정보를 수집 및 가공해 AI데이터로 구축한 후, 연관 공격 분류 및 공격그룹 식별 등에 적용한다.

지난해에는 △최신 침해사고 △위협 인텔리전스 △위협 헌팅 3개 분야에 6억건의 AI 데이터셋을 구축했다. 최신 침해사고는 2021년도 구축된 악성코드 및 침해사고 데이터를 업데이트했다. 위협 인텔리전스는 유사 공격의 예측·예방 기술 개발에 활용한다. 위협 헌팅은 알려지지 않은 신·변종 위협에 대해 자동으로 제작해주는 기술 개발에 사용한다.

올해는 지난해 구축된 데이터셋을 보완 및 업그레이드하는 방식으로 진행한다. 최광기 과기정통부 사이버침해대응과장은 "올해도 악성코드 위협 프로파일과 라자도스 등 해커조직 공격 패턴을 학습해 프로파일링 데이터 3억건 정도를 구축한다"며 "내년에는 올해 구축한 것을 포함해서 추가로 데이터를 구축하는 것"이라고 설명했다.

또 "사이버보안 AI 데이터셋 예산은 올해 40억원으로, 데이터 구축 실증을 포함한 예산"이라며 "지난해 예산은 60억원이었는데, 데이터셋이 어느 정도 구축됐다고 하면 새롭게 만드는 것보다는 기존 건을 업데이트하는 정도라 데이터셋이 축적될수록 예산이나 건수는 크게 늘지는 않는다"고 덧붙였다.

한편, 이날 서울 용산구 로얄파크컨벤션에서 과기정통부와 KISA 주최로 '사이버보안 AI 데이터셋 구축 성과 공유회'도 열렸다. 김호원 부산대 교수와 임완택 코난테크놀로지 상무가 AI시대의 사이버보안 기술 및 위협에 대해 강연했으며, 광주시와 '여기어때'의 AI데이터셋 활용 사례 발표도 진행했다.

광주시청은 지난해 랜섬웨어 감염 예방을 위해 직원 PC 보안 솔루션에 AI 데이터셋을 적용해 지방자치단체 중 최초로 AI 기반 보안체계 도입했다. 24종의 랜섬웨어 대응 모의훈련 결과, 24종 모두 정탐해 기존 대비 탐지성능이 40% 향상된 것으로 나타났다.

여기어때는 지난해 웹페이지 모니터링을 통해 수집되는 보안 이벤트를 탐지했는데, 약 2개월의 실증기간 중 웹방화벽에서 탐지된 약 52만 건의 공격 이벤트의 분류를 자동화하고, 분석 시간을 10분에서 1분으로 단축하는 성과를 얻었다.