과거의 내가 미래의 나에게
개인정보 보호기술 공부중... 본문
AI가 물 밀듯이 밀려오는 시대에 AI에게 정보를 학습시키는 과정에서 개인정보를 보호하는 것에 대해서 꾸준히 관심이 필요하다 생각한다.
아직 감조차 잡지 못했지만 전시회에 다녀와서 얼핏 들은 2가지 단어들을 간단하게 정리해서 추후 다가올 나의 숙제에 미리 도움이 되어보려한다. 또 새로 익힐 때마다 글을 수정해보겠다.
데이터 비식별화
학습할 데이터에서 식별 가능한 요소를 미리 제거하거나 변경해서 학습용으로 만들어 놓는 방식이다. 원본 데이터를 가공한 후에 학습시킨다는 것이다. 비식별화는 고전적이고 흔하게 쓰이는 방식으로 데이터를 보호하기 위해 많이 쓰이는 데, 다만 이는 데이터끼리 모이면 재식별 가능성이 언제든 존재하고 또 AI 입장에서는 일부 데이터가 손실되는 것이기에 정밀한 학습이 아쉬워지는 상황이다.
차등정보보호기술
교육 데이터에 나의 정보가 들어가있을 때, 제 3자가 이를 빼갈 수 없어야하고 AI도 나를 특정해서 알 수 없게끔 해야한다. AI가 교육데이터 안에 있는 나를 특정하고 그 정보를 제 3자에게 노출시킬 수도 있는 노릇이니깐 말이다.
이를 위해 해당 기술이 등장했는데 핵심 개념으로는 내가 데이터셋에 들어있든 없든 분석 결과가 거의 같도록 한다는 것이다. 즉 누가 데이터 분석 결과를 봐도 그 곳에 내 정보가 들어갔는지 알아낼 수 없게 한다는 것이다.
차등정보보호기술은 데이터 분석이나 학습 결과에 작은 노이즈를 일부러 섞어넣는데 이 노이즈를 설계하는 과정 자체가 수학적 모델에 기반해있기에 수학적으로 보호를 보장한다고 한다.