김현정의 뉴스쇼

표준FM 월-금 07:10-09:00

"주요 인터뷰를 실시간 속기로 올려드립니다.
인터뷰를 인용 보도할 때는 프로그램명을 밝혀주십시오."
- CBS 라디오 <김현정의 뉴스쇼>

9/20(수) "'엄마, 나 납치 당했어' 울며 전화한 딸…알고보니 AI"
2023.09.20
조회 378
* 인터뷰를 인용보도할 때는
프로그램명 'CBS라디오 <김현정의 뉴스쇼>'를
정확히 밝혀주시기 바랍니다. 저작권은 CBS에 있습니다.

* 아래 텍스트는 실제 방송 내용과 차이가 있을 수 있으니 보다 정확한 내용은 방송으로 확인하시기 바랍니다.

======================================================
■ 방송 : CBS 라디오 <김현정의 뉴스쇼> FM 98.1 (07:20~09:00)
■ 진행 : 김현정 앵커
■ 대담 : 정수환 (숭실대 정보통신전자공학부 교수)



딥페이크 보이스, 2초 샘플만 있어도 가능
CEO 목소리로 피싱…24만불 송금 사례도
AI 구분 더 어려워져…탐지 기술력 높여야
딥보이스 피싱 방어책? 돌발질문 던져보라


저희가 며칠 전 놓지 마 뉴스에서 AI 음성 보이스피싱이 성행하고 있다. 주의들 하셔라, 이런 소식 전해드렸죠. 이런 식입니다. 아내가 영국에 여행을 갔는데 울면서 남편한테 전화가 온 거예요. 납치를 당했어요. '옆에 총 들고 있는 사람이 있어요. 얼른 돈 부쳐요.' 분명히 100% 아내 목소리였기 때문에 이 남편은 돈을 보냈습니다. 그런데 알고 보니 아내의 목소리를 복제한 AI의 목소리였다는 거죠. 이 소식을 전해드린 후에 저희가 좀 찾아봤더니 이런 사례가 요 사이 꽤 많았습니다. 진화하고 있는 보이스피싱, 지금부터 잘 들으시고 여러분 조심 또 조심하셔야겠습니다. 한국정보보호학회 회장이세요. 숭실대학교 정보통신전자공학부 정수환 교수 나오셨습니다. 어서 오십시오.

◆ 정수환> 예, 안녕하세요. 반갑습니다.

◇ 김현정> 교수님, 본격적인 이야기를 하기에 앞서서 일단 사례를 좀 들었으면 좋겠거든요. 여러분 지금부터 들려드릴 음성은 실제로 한 어머니에게 걸려온 딸의 전화입니다. 들어보시죠.

★엄마, 엄마, 큰일 났어.
★왜?
★친구가 수익금을 준다고 해서.
★수익금? 어.
★대부업체에서 돈을 빌려줬는데 걔가 연락이 안 돼. (아야. 울지 말고 똑바로 얘기해래이!)
★누가? 네가?
★어..
★누구세요?
★나 지금 대부업자한테 잡혀왔어. 엄마 나 한 번만 도와줘.

◇ 김현정> 여러분, 이거 실제 사례입니다. 실제 녹음된 겁니다. 딸이 울면서 엄마, 큰일 났어 나 지금 대부업자한테 잡혀왔어. 울면서 얘기를 해요. 이게 지금 딸의 목소리랑 100% 같았다고 엄마는 얘기하시는데 딸이 한 게 아니에요?

◆ 정수환> 예. (이런 방법이) 가능합니다.

◇ 김현정> 그럼 딸의 목소리를 채취를 해서 그걸로 AI가 만든 거예요?

◆ 정수환> 예, 그렇게 봐야 됩니다.

◇ 김현정> 세상에, 그럼 중간에 똑바로 해 하는 그 남자 목소리는요?

◆ 정수환> 그 목소리도 이거 저희가 사실 분석을 해본,.. 녹음된 건데 그 중간에 얘기한 그 사람 목소리도 지금 딥페이크로 탐지됐습니다.

◇ 김현정> 그것도 만든 목소리예요? 이게 도대체 무슨 기술입니까? 교수님.

◆ 정수환> 이거 지금 사실 아마 많이들 언론에서 들어보셨을 텐데 딥페이크라고 일반적으로 하면 영상을 많이들 생각을 하시는데.

◇ 김현정> 그래서 트럼프 대통령 영상 있었잖아요. 오바마 대통령 영상.

◆ 정수환> 그런데 이거는 특별히 음성으로도 또 만드는 게 가능한데 우리가 딥보이스라고 보통 부릅니다.

◇ 김현정> 딥보이스.

◆ 정수환> 그러니까 딥페이크보이스를 줄여가지고 딥보이스라고 하는데 우리가 흔히 그냥 AI 보이스라고 많이들 말씀하시는데 전문적으로 저희가 딥보이스라고 부르는 거는 AI의 딥러닝 기술이라고 많이 사용되는 기술.

◇ 김현정> 딥러닝.

◆ 정수환> 딥러닝 기술에다가 그 보이스를 합쳐서 딥보이스라고 얘기를 하는데. 지금 사실 최근에 와가지고 이게 기술이 굉장히 발전하면서 일반 우리가 들었을 때 도저히 원래 그 사람 목소리인지 합성음인지를 구분을 못하는 단계까지 와 있습니다.

◇ 김현정> 그럼 원래 그 사람 목소리 샘플은 있어야 되잖아요.

◆ 정수환> 그렇습니다.

◇ 김현정> 샘플이 어느 정도 있어야 이렇게 똑같이 만들어요?

◆ 정수환> 그게 사실은 샘플이 더 많이 있으면 좀 더 퀄리티가 좋은, 품질이 좋은 음성을 만들 수가 있는데 그게 예전에는 몇 시간 목소리가 필요하다, 30분 목소리가 필요하다 하다가 최근에 기술이 급격하게 발전하면서 5초 샘플만 있어도 된다. 최근에는 2초 샘플 가지고도 어느 정도 퀄리티가 나온다. 품질이.

◇ 김현정> 세상에… 그러면 예를 들어서 어디 슈퍼 가서 물건 사다가 여기 카드요. 이것만 녹음해도 이 사람 목소리로 딥보이스를 만들 수 있다? 가짜 목소리를 만들 수 있다?

◆ 정수환> 물론 그 목소리만 가지고 되는 건 아니고 그전에 합성 모델의 굉장히 많은 데이터를 가지고 트레이닝을 미리 시켜놓거든요. 여러 사람의 목소리나 이런 걸 갖고 트레이닝 시켜놔서 기본 모델을 만들고 그 짧은 샘플에서 그 사람의 목소리 특징만 추출된 게 입혀지는 거죠. 그러면 그 사람 목소리처럼 비슷하게 들리는 겁니다.

◇ 김현정> 소름이 끼치네요. 소름 끼치는데. 저희가 한번 시연을 해봤습니다. 제 목소리. 김현정, 제 목소리를 가지고 만들면 어떻게 나올까? 그런데 고급 프로그램으로 만든 건 아니고 시중에서 쉽게 구할 수 있는 저렴한 프로그램을 돌렸어요. 여러분 일부러. 저희가 막 고급이 아니라 저렴한 그냥 아주 쉽게 구할 수 있는 프로그램으로 돌리면 어느 정도 퀄리티가 나오나, 어느 정도 질이 나오나. 들어보시죠.

★선배 큰일 났어요. 앞에서 사고가 났거든요. 정말 죄송하지만 100만 원만 보내주실 수 있으세요? 회사 들어가서 바로 드릴게요. 네, 사고 처리하는 대로 들어가겠습니다.

◇ 김현정> (웃음) 저 이렇게 말한 적 없어요. 이거, 이거 전화를 통해서 언뜻 들으면 제 목소리 특징이 있거든요. 선배, 선배, 지금 사고가 났거든요. 100만 원만 보내주세요. 비슷해요. 저도 어제 이거 듣고선 샘플 듣고서 깜짝 놀랐어요. 하나만 더 뭐가 준비가 돼 있죠? 준비돼 있는 게 뭔가요? 한번 들어보세요. 이것도 제가 말한 게 아니고 AI로 만든 겁니다. 들어보시죠.

★알뜰재정, 살뜰 민생에 빨간불이 켜진 상황. 심각하게 봐야겠습니다. 김현정의 뉴스쇼 출발합니다.

◇ 김현정> 이건 약간 덜 비슷하다. (웃음) 이건 약간 덜 비슷한데 아까 100만 원만 보내주세요, 선배. 여러분, 여기다가 만약 고급 프로그램을 돌리면 비싼 프로그램을 돌리면 막 울면서 얘기한다는 거죠?

◆ 정수환> 지금 아까 말씀드린 대로 샘플이 좀 더 많으면 좀 더 긴 시간이 있으면 훨씬 더 본인의 목소리에 가깝게 재생을 만들 수가 있고요. 예전에는 사실 감정이라든가 이런 거를 쏟는 게 굉장히 어려웠습니다. 최근까지도 어려웠는데 요즘 워낙 기술이 발전하면서 새로운 합성 모델들이 계속 나오거든요. 그래서 최근에 나온 디퓨전 모델이라든가 이런 걸 사용하면 상당히 감정을 실은 목소리도 자연스럽게 합성을 할 수가 있습니다.

◇ 김현정> 아니, 어떻게 울면서 얘기하는 감정까지 실어 넣을까. 제가 전에 보이스피싱 사례로 인터뷰했던 건 어떤 거냐면 진짜 딸이 아니에요. 가짜 다른 사람이 흉내 내면서 그냥 해도 전화를 받은 분들은 워낙 당황했기 때문에 진짜 딸 목소리로 착각한다.

◆ 정수환> 맞습니다.

◇ 김현정> 여기까지는 제가 전달했는데. 그런데 정말 많은 분들이 착각하신다고. 엄마, 100만 원만 보내… 이걸 다른 사람이 얘기해도 자기 딸인 것처럼 생각하는 경우가 많다고 하더라고요. 그럴진대 심지어 딸 목소리로 흉내를 내니 이거는 그냥 백발백중 넘어가는 거네요.

◆ 정수환> 훨씬 더, 사실 보이스피싱범들이 검찰을 사칭하고 은행을 사칭하고 하는 이유가 신뢰를 얻기 위한 건데 사실은 이렇게 지인의 목소리나 가족의 목소리로 하면 그 신뢰를 얻는 긴 통화 과정을 생략하고 바로 신뢰를 얻을 수 있기 때문에 훨씬 더 용이해질 수 있습니다.

◇ 김현정> 지금 이런 식의 피해 규모가 얼마나 됩니까?

◆ 정수환> 지금 사실 전 세계적으로는 최근에 이런 딥 보이스에 의한 보이스피싱 사례들이 보고들이 좀 되고 있는데 2019년도에 영국 에너지 회사가 CEO 목소리 딥페이크에 속아가지고.

◇ 김현정> CEO요? 사장님 목소리를.

◆ 정수환> 그러니까 24만 3000불을 송금했는데, 이런 사례들이 사실은 갑자기 전화가 와서 송금 한다고 하는 건 아니고 그전에 약간 사전 작업들을 조금 해놓는 거죠. 그러니까 상황을 만들어 놓고 그러고 나서 딱 마지막에 전화가 와가지고 사장님 목소리로 야, 빨리 송금해 하면 사실 직원 입장에서는 당연히 송금할 수밖에 없죠.

◇ 김현정> 저기 정 과장 지금 저기 24만 얼마? 24만 3000불 저기 미국에다가 좀 빨리 빨리빨리 해요. 입금해요. 계약 체결해야 됩니다.

◆ 정수환> 2021년에 UAE 은행에서 또 대기업 임원의 전화를 받고 3500만 불 송금 사례도 있었고. 올해 3월에 캐나다에서 아들이 교통사고 났다고 막 이렇게 하면서 또 딥보이스로 2만 1000불 송금 사례 이런 식으로 사실은 이게 완전히 갑자기 그냥 전화만 받았을 때는 약간 의심할 수도 있는데 지금 우리나라에서 이 아까 들려주신 사례 같은 경우는 이제 갑자기 아마 전화를 좀 한번, 제가 볼 때 약간 테스트 용도로 한번 해보는 게 아닌가 싶기도 합니다. 아직 성공을 못했는데 우리나라에서는 사실 아직까지는 딥보이스로 보이스피싱이 성공한 사례는 없는 걸로 저는 알고 있고요.

◇ 김현정> 저렇게 적발이 됐어요?

◆ 정수환> 적발이 돼서 송금까지 안 간 거죠. 안 가고. 약간 이상하다… 이렇게 되는데 저게 우리가 흔히 얘기하는 타깃을 정해놓고 그 사람에 대한 정보를 많이 수집을 해서 딱 상황을 만들어놓고 했을 때는 굉장히 당하기가 쉬운 거죠.

◇ 김현정> 그러네요. 아직 우리나라에서는 초기 단계다. 너무 다행입니다. 하지만 전 세계적으로는 이런 특히 큰돈의 사기 케이스들이 있단 말씀인데요. 아까 그러셨어요. 영상통화로 또 이 사기를 치는 경우도 있다.

◆ 정수환> 맞습니다.

◇ 김현정> 그거는 속아 넘어가기가 더 쉬울 것 같은데 만약 기술이 정교하다면 더 쉬울 것 같은데 어떤 식입니까? 이건.

◆ 정수환> 중국의 올해 4월에 중국의 네이멍구 거기 한 회사에서 사실 네이멍구에서 발생한 일인데 친구가 영상통화를 친구랑 했는데 그래서 돈을 보내 달라 해서 약 한 430만 위안, 한 8억 정도를 송금을 했는데 그게 알고 보니까 딥페이크였던 거예요. 그래서 일부는 회수를 했고 일부는 이미 찾아가 가지고 못 돌려받았는데 사실 영상 같은 경우도 우리가 영상하고 음성이 같이 합성을 해서 맞추는 경우인데 예전에는 영상들도 상당히 약간은 조금 이상하다든가 이런 것들이 있었는데 지금은 굉장히 정교해졌습니다. 그래서 사실 영상도 구분이 굉장히 어려운 상황까지 왔고요. 음성은 더더군다나 우리가 눈으로 보는 게 아니라 귀로 들으니까 음성만 들었을 때는 더 구분이 어렵습니다.

◇ 김현정> 그러면 이렇게 목소리 샘플 5초, 1분 이걸 가지고선 가짜 목소리를 만들어낼 정도로 기술이 발달했다면 그걸 잡아내는, 즉 구분해내는 기술도 같이 발달해야 될 텐데 어떻습니까?

◆ 정수환> 그래서 사실 저는 그거를 탐지하는 가짜 목소리를 탐지하는 쪽을 주로 연구를 하고 있는데 그게 사실은 합성 기술이 자꾸 발달하다 보니까 그전에 예를 들면 굉장히 잘 탐지를 하다가 또 새로운 합성 기술이 나오면서 더 정교해지면 특징이 달라집니다. 이게 합성기가 달라지면 우리가 사실 자연 목소리랑 합성에서 나온 목소리의 차이점, 그러니까 합성 목소리의 특징들을 잡아서 하는데 그 특징들이 자꾸 변하고 지금은 합성기가 수십 종류 이상 이미 나와 있거든요. 그래서 그런 것들을 다 잘 탐지하기가 좀 어려워지고 있고 그다음에 또 음성 같은 경우는 깨끗한 목소리, 깨끗한 상태에서 녹음된 거나 이런 것들은 탐지가 비교적 잘 됩니다. 90% 이상 되는데 잡음이 많이 실리거나 목소리가 작거나 여러 사람 목소리가 중첩되거나 이런 경우에는 또 탐지율이 많이 떨어지는 문제들이 있어요.

◇ 김현정> 한마디로 뛰는 놈 위에 나는 놈이군요.

◆ 정수환> 그러니까 사실 공격자들도 그냥 클린한 목소리가 아니라 요즘 약간 잡음을 일부러 싣습니다. 실어서 더 탐지를 어렵게 하는 그런 기법들도 가능합니다.

◇ 김현정> 아니, 그럼 이거를 우리가 탐지기를 돌려가지고 늘 통화할 수도 없는 거고 가짜 목소리로 작정하고 내 딸인 양, 아들인 양, 어머니, 아버지인 양 전화를 걸어오면 우리가 어떻게 구분해 낼 것인가 팁을 좀 주세요.

◆ 정수환> 목소리만 들어가지고 구분하기는 이게 합성이냐 아니냐 구분하기는 지금 어려운 단계에 와 있고요. 이제 본인 확인을 위해서 예를 들면 본인들만이 아는 질문을 한다든가 약간 인터랙션을 가지면 서로 이렇게 대화를 하면 사실 약간 준비가 안 된 답변이라든가 이런 데서는 조금 품질이 떨어질 수도 있고 또 답변을 못 할 수도 있고.

◇ 김현정> 누구누구야, 너 화장대에 화장품이 몇 개 있지? 평소에 10개, 5개, 이렇게 정해놓는 거예요. 너 필통에 샤프 몇 자루지? 세 자루. 이런 식으로 뭔가 서로의 암호를 만들어 놔라.

◆ 정수환> 그러니까 이걸 대화를 하게 되면 내가 물어본 거에 대해서 저쪽이 답변을 해야 되는데 사실 그 답변이라는 게 지금 실시간으로 완전히 음성을 막 만들어내기는 어려워서 제가 생각할 때는 텍스트 스피치라고 해서 문자를 집어넣어가지고 음성을 얼른 합성해서 답변을 줄 수 있거든요. 그런데 그 답변 내용을 모를 수도 있고.

◇ 김현정> 답변 내용을 모를 수 있죠.

◆ 정수환> 그리고 그 단어나 이런 것들이 준비가 전혀 안 되고 트레이닝이 잘 안 된 만약에 답변 같으면 좀 어색하게 들립니다.

◇ 김현정> 예를 들어서 생년월일 같은 거는 미리 치밀하게 준비해 놓을 수 있어요. 너 생일 며칠이지? 5월 31일. 이런 거 말고 나와 우리 가족만이 답할 수 있는 어떤 질문을 꼭 만들어 놔라.

◆ 정수환> 좀 약간 일종의 그런 어떤 패스워드 비슷하게 그렇게 본인들만이 아는 거를 사실 본인 확인해보겠다. 내 아들인지 딸인지 하고는 너 누구 맞냐? 그러면 너 지난번에 이렇게 했는데 그때 어떻게 했어? 예를 들면 이런 식으로 했을 때는 저쪽에서는 답을 모르면 답할 수가 없겠죠.

◇ 김현정> 너 등에 점 몇 개야?

◆ 정수환> 예를 들어서.

◇ 김현정> 예를 들면.

◆ 정수환> 그런 식으로. 그래서 당황하지 마시고 사실은 그런 본인 확인을 반드시 한번 하는 단계를 거치는 것이 이런 범죄에 대응하는 방법이다라고 생각을 합니다.

◇ 김현정> 이게 듣고 웃으면서 우리가 참 기가 막히다 웃으면서 얘기했지만 이게 섬뜩한 일이에요. 숭실대학교 정보통신 전자공학부 정수환 교수님 고맙습니다.

◆ 정수환> 감사합니다.