인공지능 보안의 발전: 연합 학습과 완전동형암호
자연대 홍보기자단 자:몽 6기 | 배주영
세계는 요즘 인공지능의 파도에 올라타 있다. 당장 올해 1월 초에 진행된 CES(소비자 가전 전시회)의 기조연설자로 엔비디아의 CEO ‘젠슨 황’이 나와 인공지능과 관련된 여러 기술을 선보이기도 했고, 삼성전자는 갤럭시S25 시리즈를 공개하면서 “진정한 AI 스마트폰”이라고 언급하기도 했다.
그렇지만 아직 인공지능은 여러 한계점을 지니고 있다. 대표적으로 개인정보보호와 데이터 유출 문제가 있다. 인공지능의 가장 큰 특징은, 주어진 데이터를 통해 컴퓨터가 스스로 특정 과제를 수행할 알고리즘을 찾아내는, 즉 ‘학습’한다는 것이다. 학습이 원활하게 이루어지려면 일반적으로 방대한 양의 분산된 데이터가 필요하다. 그렇지만 의료 데이터와 같이, 개인정보보호를 이유로 데이터를 효과적으로 제공받지 못하는 경우도 있고, 실제로 대규모언어모델(LLM)이 개인정보를 유출할 가능성이 있다는 연구도 보고되고 있다.
이에 대한 대안으로 ‘연합 학습’(Federated Learning)이 거론되곤 한다. 기존에 인공지능을 학습시킬 때 다양한 소스에서 데이터를 수집해 중앙 서버로 모이게 했다면, 연합 학습은 스마트폰, 컴퓨터 등의 여러 기기에서 데이터를 이동시키지 않고 학습시키는 탈중앙화 학습법이다. 이러한 방식은 개인 정보 보호와 데이터 보안 측면에서 강력한 장점을 제공한다. 이러한 특징 덕분에 연합 학습은 의료, 금융, 스마트폰 애플리케이션 등 다양한 분야에서 주목받고 있다. 예를 들어, 의료 분야에서는 병원 간 협력 연구에서 환자의 민감한 의료 데이터를 공유하지 않고도 인공지능 모델을 공동으로 학습시킬 수 있다. 또한, 스마트폰의 키보드 입력 예측 기능에서도 연합 학습이 활용되는데, 사용자의 입력 데이터를 직접 서버로 보내지 않고도 개별 사용자에 맞춘 예측 모델을 개선할 수 있다.

연합 학습의 구조. (사진 = LeewayHertz)
연합 학습의 구체적 원리를 이해하기 위해서 일반적으로 인공지능이 학습하는 과정을 알 필요가 있다. 기울기와 상수항의 값에 따라 다양한 일차함수가 존재하는 것처럼, 인공지능에서도 매개변수라고도 불리는 여러 ‘파라미터 (Parameter)’ 값에 따라 성능이 좌우된다. 특정 파라미터 값들에서 AI의 성능이 얼마나 좋은지는 ‘손실함수 (Loss Function)’라고 불리는 일종의 성적표를 통해 계산되며, 성능이 안 좋게 나올수록 파라미터 값들을 크게 갱신한다. 이때 파라미터 값들을 변경하기 위해 ‘그래디언트 (Gradient)’라고 불리는 벡터를 구하게 된다. 수정된 파라미터 값들로 인해 AI의 성능이 달라지고, 위 과정을 반복하면 결국 인공지능의 성능을 올릴 수 있게 된다.
연합 학습에서는 여러 사용자들에게 인공지능 모델을 보내면, 사용자마다 각각이 가진 데이터로 손실함수를 통해 성능을 평가하고 그래디언트를 구해 파라미터 값을 수정한다. 그래디언트 혹은 수정된 파라미터 값을 서버로 보내면, 서버에서는 그것들을 이용해 모델을 업데이트한다. 이런 원리로 연합 학습에서는 데이터를 서버로 보내지 않고도 모델을 학습시킬 수 있는 것이다.
그렇지만 연합 학습이 무조건 안전하다고 볼 수 있는 것은 아니다. ‘(그래디언트 기반) 재복원 공격 (Gradient Inversion Attack)’이라고 불리는, 그래디언트만으로 원본 데이터를 유출할 수 있는 방법이 있기 때문이다. 이 공격 방식은 가짜 입력 데이터를 생성한 뒤, 해당 입력에 대한 모델의 그래디언트를 계산하여 서버가 수집한 그래디언트와 일치하도록 최적화하는 방식이다. 최적화가 완료되면 가짜 데이터는 원본 데이터와 유사한 형태를 띠게 된다. 또한, 최근에는 그래디언트 없이도 파라미터의 일종인 가중치(weight) 업데이트만을 분석하여 원본 데이터를 복원하는 기법이 연구되고 있어, 연합 학습의 보안 위협이 더욱 커지고 있다.
이를 위해 여러 해결책들이 개발되고 있고, 그중 대표적인 것이 ‘완전동형암호 (Fully Homomorphic Encryption)’가 있다. 완전동형암호란 암호화된 상태에서 덧셈과 곱셈 연산을 보존하는 암호화 방식이다. 가령 데이터를 암호화하는 함수 f가 있다고 하면, 임의의 데이터 x, y에 대하여 f(x+y) = f(x)+f(y), f(x*y) = f(x)*f(y)가 항상 성립하는 것이다. 암호화된 상태로 복잡한 연산을 수행할 수 있다는 장점 때문에 생체 인식, 금융 등 다양한 분야에서 연구되고 있고, 마찬가지로 보안이 중요한 연합 학습에서도 활용하기 위해 활발히 연구 중이다. 그렇지만 완전동형암호는 연산량이 많아 실시간 적용이 어렵다는 단점이 있어 아직 발전할 길이 많이 남아있다.

동형암호의 계산 보존. (사진 = 아이티데일리)
지금까지 보안과 관련된 인공지능의 진화 양상을 살펴보았다. 데이터 유출 문제를 해결하기 위해 개발된 연합 학습에서도 보안이 보장되지 않았고, 이에 완전동형암호도 적용하려 했지만 여전히 풀어야 할 문제들이 존재한다. 사실 더 연구가 진행돼도, 그때마다의 새로운 문제들이 발생해 다시 해결해야 하는 무한 루프에 빠져버린 것일지도 모른다. 그렇지만 과학은 늘 그래왔고, 우리는 그 과정 속에서 많은 기적들을 보며 한계를 극복했다. 결국, 끝없는 연구 속에서 혁신은 탄생하는 법이다. 인공지능과 보안의 균형을 찾으려는 노력 역시 그러할 것이다.
<참고 자료>
[1] NVIDIA Korea. (2025, January 8). CES 2025: NVIDIA 젠슨 황 CEO, “AI가 놀라운 속도로 진보하고 있다”. NVIDIA.
https://blogs.nvidia.co.kr/blog/ces-2025-jensen-huang/
[2] 김태종. (2025, January 23). 삼성, 최신 스마트폰 갤럭시 S25 공개…"진정한 AI 스마트폰"(종합). 연합뉴스.
https://www.yna.co.kr/view/AKR20250122136851091
[3] (2024, June 5). Data privacy poses challenges to AI in healthcare. Dakota State University.
https://dsu.edu/news/2024/06/data-privacy-ai.html
[4] 곽성순. (2025, January 8). "대규모언어모델, 의료 분야 적용시 보안 침해 위험". 청년의사.
https://www.docdocdoc.co.kr/news/articleView.html?idxno=3024859&utm_source=chatgpt.com
[5] Takyar, A. (n.d.). Federated learning: Unlocking the potential of secure, distributed AI. LeewayHertz.
https://www.leewayhertz.com/federated-learning/
[6] 권정수. (2020, April 8). [동형암호①] 데이터 보호·활용 모두 만족, 문제는 처리속도. IT DAILY.
http://www.itdaily.kr/news/articleView.html?idxno=100645
[7] Gronberg, E., D’Aliberti, L., Saebo, M., & Hook, A. (2025). BlindFL: Segmented Federated Learning with Fully Homomorphic Encryption. arXiv (Cornell University).
https://doi.org/10.48550/arxiv.2501.11659
카드뉴스는 자:몽 인스타그램 @grapefruit_snucns에서 확인할 수 있습니다.



