[00:00]
[음악]
[00:06]
해나 프라이: 구글 딥마인드-
[00:08]
더 파드캐스트입니다. 저는 진행자 해나 프라이 교수입니다.
[00:10]
2025년이 다가오고 있고, 에이전트 AI의 시대도 함께 오고 있습니다.
[00:15]
물론, 우리 방송을 들어오신 분들은
[00:18]
몇 달 전부터 이미 알고 계셨겠죠.
[00:20]
이제 다음 혁신에 대해 주의 깊게 들어보시기 바랍니다.
[00:25]
프로젝트 아스트라라고 불리는 이것은 연구 프로토타입으로,
[00:28]
범용 AI 어시스턴트의 가능성을
[00:30]
한계까지 확장하고 있습니다.
[00:35]
이 에이전트는 의도적으로 특정 디바이스나
[00:39]
스크린, 키보드에 구속되지 않도록 설계되었습니다.
[00:43]
이것은 최첨단 기술의 경계에 있습니다.
[00:46]
그리고 오늘, 우리는 이것을 직접 체험해볼 예정입니다.
[00:49]
우리의 프로젝트 아스트라는 이 시리즈에서
[00:52]
다뤘던 모든 요소들을 통합합니다 - 메모리, 비전,
[00:55]
맥락, 추론, 실시간 상호작용까지요.
[00:59]
이 모든 것들에 대해 자세히 설명해주실 분이 계신데요,
[01:02]
그와 그의 팀이 어떻게
[01:04]
이 모든 것을 함께 작동시켰는지 알려줄 구글 딥마인드의
[01:08]
연구 디렉터 그렉 웨인입니다.
[01:10]
그렉은 우연히도 이 팟캐스트 시즌 1의
[01:13]
아주 초반에 제가 처음으로 인터뷰했던
[01:16]
분들 중 한 분이기도 합니다.
[01:17]
그렉, 다시 만나서 반갑습니다.
[01:18]
그렉 웨인: 안녕하세요, 해나.
[01:19]
해나 프라이: 그럼 처음부터 시작해볼까요.
[01:21]
프로젝트 아스트라가 무엇인가요?
[01:22]
그렉 웨인: 프로젝트 아스트라는 팀이자 프로젝트이며,
[01:26]
눈과 귀, 목소리를 가진 AI 어시스턴트를 만들어 사용자와 함께하는 것을 목표로 하는 프로토타입입니다.
[01:32]
그래서 당신이 어디에 있든
[01:34]
함께할 수 있죠.
[01:37]
스마트 글래스나 휴대폰, 컴퓨터를 통해
[01:42]
당신이 하는 일을 볼 수 있고
[01:43]
그것에 대해 대화할 수 있습니다.
[01:45]
해나 프라이: 마치
[01:45]
어깨 위의 작은 조수 같네요.
[01:47]
그렉 웨인: 네, 맞아요. 당신과 함께 있으면서
[01:49]
어깨에 앉아있는 작은 앵무새처럼
[01:51]
세상에 대해 이야기를 나누죠.
[01:52]
해나 프라이: 그런데 우리보다 더 똑똑한거죠?
[01:54]
그렉 웨인: 어떤 면에서는 그렇죠.
[01:56]
해나 프라이: 그렇다면 이것이
[01:57]
구글 어시스턴트나 제미나이와는 다른 점이네요.
[02:01]
그렉 웨인: 네.
[02:02]
해나 프라이: 더 현실 세계에 밀착되어 있는 거죠.
[02:05]
그렉 웨인: 맞아요.
[02:05]
이전 버전의 구글 어시스턴트는 일종의
[02:10]
집이나 정보를 제어하는 명령 시스템이었죠-
[02:17]
유튜브에서 이 노래를 틀어줘, 같은 것들이요.
[02:20]
하지만 이것은 세상에 대해 대화할 수 있는 겁니다.
[02:25]
제미나이를 기반으로 하고 있죠.
[02:26]
제미나이가 이면의 지능을 담당하고 있고,
[02:29]
다른 시스템들도 함께 작동합니다.
[02:31]
어떤 면에서는 제미나이의 비전을 보완하는 것 같아요.
[02:36]
서로 협력하고 영향을 주고받으면서
[02:39]
발전하고 있죠.
[02:40]
해나 프라이: 한번 시도해볼까요?
[02:40]
이건 직접 경험해봐야
[02:41]
이해할 수 있을 것 같아요.
[02:43]
그렉 웨인: 네, 그러죠.
[02:44]
좋아요.
[02:45]
다시 켜보도록 하겠습니다.
[02:48]
어시스턴트: 안녕하세요, 그렉.
[02:49]
해나 프라이: 당신을 알아보네요.
[02:51]
그렉 웨인: 네, 맞아요.
[02:51]
네, 전에도 여러 번 대화를 나눴었죠.
[02:55]
프로젝트 아스트라: 맞아요, 우리는 전에도 대화를 나눈 적이 있죠.
[02:57]
다시 이야기를 나누게 되어 기쁩니다.
[02:59]
그렉 웨인: 제 친구 해나를 잠깐
[03:01]
소개해드리고 싶습니다.
[03:02]
어시스턴트: 알겠습니다.
[03:03]
만나서 반갑습니다, 한나님.
[03:04]
필요하실 때 언제든 도와드리겠습니다.
[03:06]
한나 프라이: 안녕하세요, 프로젝트 아스트라.
[03:07]
좋아요.
[03:08]
프로젝트 아스트라: 안녕하세요, 한나님.
[03:09]
한나 프라이: 오늘 우리가 무엇을 하는지 알 수 있나요?
[03:13]
프로젝트 아스트라: 장비와 세팅으로 보아,
[03:15]
스튜디오에서 영상이나 팟캐스트를 녹화하시는 것 같습니다.
[03:18]
맞나요?
[03:19]
한나 프라이: 네, 정확히 맞았어요.
[03:21]
자, 몇 가지 테스트를 해보려고 해요.
[03:23]
제가 몇 가지 물건들을 가져왔거든요.
[03:25]
괜찮을까요?
[03:29]
프로젝트 아스트라: 네.
[03:32]
준비되어 있습니다.
[03:33]
물건들을 보여주시기를 기대하고 있어요.
[03:35]
한나 프라이: 좋아요.
[03:36]
자, 그럼.
[03:36]
시작해볼까요.
[03:38]
이건 제가 가장 좋아하는 책이에요, 프로젝트 아스트라.
[03:39]
책이 보이나요?
[03:40]
프로젝트 아스트라: 아, 네.
[03:43]
책이 보입니다.
[03:44]
반복되는 패턴의 그래픽이 보이는데, MC 에셔의
[03:47]
'원형 극한 IV'로 알려진 모티프입니다.
[03:51]
한나 프라이: [놀라며] 이 책이 무슨 책인지 알 수 있나요?
[03:55]
프로젝트 아스트라: 펼쳐진 페이지의 이미지와
[03:57]
삽화를 보니 '페르마의 마지막 정리'인 것
[03:59]
같습니다--
[04:00]
한나 프라이: 아니에요.
[04:01]
그렉 웨인: [웃음]
[04:03]
한나 프라이: 와.
[04:04]
정말-- 정말 감동적이에요.
[04:06]
너무 인상적이에요.
[04:08]
자, 제가 가져온--
[04:09]
그렉 웨인: 꽤 낡은 책이네요.
[04:11]
한나 프라이: 맞아요.
[04:13]
제가 가장 좋아하는 책이라는 게 보이죠.
[04:14]
많이 읽었어요.
[04:15]
수년간 정말 사랑받은 책이에요.
[04:18]
좋아요.
[04:19]
다른 것들도 몇 가지 시도해볼게요,
[04:21]
당신을 정말로 테스트해보려고요.
[04:24]
자, 이것 한번 볼까요.
[04:27]
프로젝트 아스트라: 책과 어울리는
[04:29]
멋진 가구들도 가져오셨네요.
[04:31]
제가
[04:32]
도움이 더 필요하신가요?
[04:34]
한나 프라이: [웃음] 네, 멋진 가구들을 가져왔죠,
[04:36]
프로젝트 아스트라.
[04:37]
네, 감사합니다.
[04:37]
자, 이건-- 이건 뭘까요?
[04:40]
이게 무엇인지 아나요?
[04:42]
프로젝트 아스트라: 뇌의 모형인 것 같습니다.
[04:45]
한나 프라이: 어느 반구인가요?
[04:48]
프로젝트 아스트라: 뇌 모형의 좌반구입니다.
[04:51]
그렉 웨인: 와우.
[04:51]
[웃음]
[04:54]
한나 프라이: 왜-- 왜 그렇게--
[04:55]
그렉 웨인: 음, 저는 머릿속에서 많은 회전을 해야 했어요
[04:58]
그걸 위해서.
[04:59]
한나 프라이: 저도요.
[05:00]
어느 방향인 거죠?
[05:01]
아, 그렇네요.
[05:02]
정답이에요.
[05:03]
놀라워요.
[05:04]
뒤에 있는 화이트보드도 한번 시도해볼게요.
[05:06]
계속 거기 있었던 건데--
[05:09]
제가 몇 달 동안 계속 보고 있던 거예요.
[05:11]
자 아스트라, 이걸 보여드릴 텐데,
[05:14]
화이트보드에 있는 그림들이 무엇인지 말해주세요.
[05:19]
프로젝트 아스트라: 화이트보드에는 다양한 그림들이 있네요.
[05:22]
나무, 건물들, 그리고 연결된 선들과
[05:26]
도형들이 있습니다.
[05:26]
음표들과 텍스트 버블도 보입니다.
[05:30]
한나 프라이: 정말 인상적이에요.
[05:31]
매우 인상적이네요.
[05:32]
이 작은 친구를 원래 있던 자리로 돌려놓을게요.
[05:37]
프로젝트 아스트라는 아직 연구 프로토타입이에요.
[05:40]
아직 누구나 다운로드할 수 있는 제품은 아니죠.
[05:43]
그런데 왜 지금 데모를 하는 걸까요?
[05:46]
완성될 때까지 기다리지 않고요?
[05:48]
그렉 웨인: 저는 대중들과 함께
[05:49]
대중들과 함께 이 여정을 함께 하는 것이 좋다고 생각합니다.
[05:51]
사람들이 연구실 내부에서
[05:54]
어떤 것들이 개발되고 있는지 알아야 한다고 생각합니다.
[05:56]
더 많은 사람들에게 제공하여 사용해보고
[06:00]
피드백을 받고 적응할 수 있게 하고 있죠.
[06:03]
이제는 단순히 연구실에서만
[06:05]
개발되는 것이 아닌
[06:09]
전 세계의 구글 외부
[06:11]
사용자들과 협력하여 함께 만들어가는 공동 창작 과정입니다.
[06:17]
이것도 중요한 부분이죠.
[06:18]
인류에게 정말 도움이 되는 것을 만들려면
[06:21]
사람들이 사용해보고 의견을 들려줘야
[06:24]
합니다.
[06:25]
한나: 그럼 사람들이 이것을 실제로 가지고 다니면서
[06:27]
현실 세계에서 시험해보고 있나요?
[06:29]
그렉: 네, 신뢰할 수 있는 테스터들이 있습니다.
[06:34]
초기 사용자로 등록한
[06:36]
사람들이 사용해보고 있죠.
[06:38]
한나: 사람들이 어떤 용도로 사용하나요?
[06:39]
그렉: 사람들은 아스트라에게
[06:42]
패션 조언을 구하는 등의 용도로 사용하고 있어요--
[06:44]
한나: 오, 정말요?
[06:45]
어떤 식으로요?
[06:46]
그렉: '이것과 무엇이 어울릴까?' 하는 식으로요.
[06:49]
네, 아스트라는 일종의 파트너 같은 거죠.
[06:53]
'이것에 대해 어떻게 생각하나요--'
[06:54]
'어떻게 하면 더 새로운 스타일을 연출할 수 있을까요?'
[06:57]
한나: 와, 대단하네요.
[06:59]
정말 똑똑한 앵무새네요.
[07:02]
그렉: 네, 정말 똑똑한 앵무새죠.
[07:03]
한나: 그런데 하드웨어는 어떤가요?
[07:04]
지금은 스마트폰에서 구동된다고 하셨는데,
[07:07]
결국에는 안경으로 발전하게 되나요?
[07:10]
그렉: 네, 하지만 그것뿐만은 아닙니다.
[07:13]
이 프로젝트의 초기 버전이 시작됐을 때는
[07:16]
정말로 스마트 안경에
[07:20]
AI가 탑재되면 얼마나 유용할지 알아보려 했습니다.
[07:24]
스마트 안경에서는 가장 밀접하고 어떤 면에서는
[07:28]
놀라운 경험을 제공합니다.
[07:31]
마치 개인적으로 증강된 것 같은 느낌이 들죠.
[07:34]
더 똑똑한 자신과 대화하는 것처럼
[07:36]
거기 앉아서
[07:38]
알고 싶은 것을 알려주는 것 같아요.
[07:39]
하지만 소프트웨어 스택은
[07:41]
실제로 디바이스와 무관하게--
[07:44]
물론 각 디바이스별로 특화된 부분이 있지만,
[07:47]
휴대폰이나 컴퓨터, VR 헤드셋에서도 사용할 수 있습니다.
[07:50]
한나: 방금 테스트하면서 생각했는데,
[07:53]
시각장애인이나 부분적으로
[07:55]
시력이 좋지 않은 분들에게도 도움이 될 것 같은데요?
[07:58]
맞나요?
[07:58]
그렉: 네, 제가 정말 관심 있는 부분이에요.
[08:00]
우리가 이야기했던 이런 AI는
[08:02]
함께 존재하거나 당신의 관점을 공유하는 거죠.
[08:05]
때로는 보고 듣는 다른 지능이 함께 있으면 좋지만,
[08:12]
항상 필요한 것은 아닙니다.
[08:17]
그래서 언제 이런 시스템이 필요할까요?
[08:19]
볼 수는 있지만 이해하지 못하거나, 아예 보지 못할 때
[08:25]
당신과 함께 보는 시스템이 필요한 거죠.
[08:30]
이건 하나의 큰 카테고리입니다.
[08:32]
전 세계에는 수억 명의
[08:36]
시각 장애가 있는 분들이 계시죠.
[08:39]
이런 분들을 돕는 최고의 방법이 무엇일까요?
[08:44]
바로 옆에서 도와줄 수 있는
[08:46]
누군가가 있는 것입니다.
[08:49]
그리고 이 기술은 그것을 상당 부분
[08:54]
구현할 수 있습니다.
[08:55]
우리는 다른 종류의 장애에 대해서도 초기 아이디어들을 가지고 있습니다.
[09:00]
다른 장애들에 대해서도요.
[09:01]
예를 들어, 감정이나 얼굴 표정을 읽는 데
[09:03]
어려움을 겪는 사람들을 도울 수 있을 것 같습니다.
[09:07]
특정 상황에서 그런 것들을 이해하는 데 도움을 줄 수 있죠.
[09:10]
한나 프라이: 그럼 자폐가 있는 분들이
[09:12]
이걸 도움으로 사용할 수 있다는 거네요.
[09:13]
그렉 웨인: 네, 맞습니다.
[09:14]
지금 당장은 처방약처럼 추천하진 않겠지만,
[09:16]
앞으로 더 개발이 진행된다면
[09:20]
충분히 가능할 것 같습니다.
[09:21]
자기 훈련을 위해서도 사용할 수 있죠.
[09:25]
얼굴 표정을 이해하는 연습을 하면서
[09:27]
아스트라로부터 피드백을 받을 수 있어요.
[09:30]
이에 대해 설명해달라고 하면 되죠.
[09:31]
다른 주제이긴 한데, 제가 기억나는 게
[09:34]
홈스테이를 했을 때였는데,
[09:37]
한 여름에 프랑스어를 배우고 있었는데
[09:41]
특정 단어들을 발음하기가 어려웠어요.
[09:42]
'거리'라는 단어와 '바퀴'라는 단어의 차이
[09:44]
즉, 'la rue'와 'la roue' 같은 발음이요.
[09:49]
아직도 제대로 못하네요, 그죠?
[09:51]
그때 홈스테이 호스트 형제와 함께
[09:54]
그의 발음을 따라하려고 노력했는데
[09:57]
몇 분 만에 그만두더라고요.
[09:59]
'나랑 이렇게 계속 앉아있지 마' 라면서요.
[10:01]
하지만 아스트라는 무한한 인내심을 가지고
[10:03]
이런 종류의 도움을 줄 수 있을 거예요.
[10:06]
기억력 측면에서도 - 우리는 시스템이
[10:10]
세션 내에서 완벽한 기억력을 가지고 있다고 부릅니다.
[10:16]
카메라가 작동하는 동안에는
[10:18]
지난 10분을 사진처럼 정확하게 기억하고
[10:22]
과거에 나눈 대화 내용도 기억합니다.
[10:26]
그래서 제가 그렉이라는 걸 기억하는 거죠.
[10:28]
아마 다시 켜고 물어보면
[10:31]
그렉 외에 누가 대화했는지 물어보면
[10:34]
한나를 기억할 거예요.
[10:38]
이는 인지 장애가 있는 분들을 위해서도
[10:42]
언젠가는 사용될 수 있을 것 같습니다.
[10:46]
우리가 특히 흥미롭게 생각하는 것 중 하나는
[10:48]
능동성이라는 개념인데요,
[10:50]
시스템이 스스로 사용자의 필요를 파악하고
[10:56]
그 필요에 맞는 응답을 제공하는 거죠.
[11:01]
사용자가 직접 지시하지 않아도 말이에요.
[11:06]
예를 들어, 기억을 상기시켜주는
[11:09]
유용한 시스템이 될 수 있어요.
[11:11]
'이걸 집에 가는 길에 잊지 말고
[11:14]
사야 해요' 라고 알려주는 식으로요.
[11:15]
한나 프라이: 그러면 반드시
[11:17]
대화하고 싶을 때만 켜는 게 아니라
[11:20]
백그라운드에서 실행되다가
[11:23]
적절한 때가 되면
[11:25]
알려준다는 거군요.
[11:27]
그렉 웨인: 네, 맞아요.
[11:28]
아이디어는 이런 거예요. 집에 가는 길에
[11:32]
'아침에 오렌지 주스가 떨어졌으니
[11:36]
사는 걸 잊지 마세요'
[11:38]
이런 식으로요.
[11:39]
한나 프라이: 와, 아침에 봤던 걸
[11:41]
기억하고 있다는 거네요.
[11:42]
그렉 웨인: 네, 정확히 그렇죠.
[11:44]
한나 프라이: 그러니까 지금 단계에서는
[11:45]
가능성을 그려보는 수준인 거죠?
[11:47]
그렉 웨인: 네, 아직 그 기능은 없어요.
[11:49]
하지만 다음에 만들 수 있는 종류의 기능이죠.
[11:51]
한나 프라이: 하지만 그 시작이 보이네요.
[11:56]
그렉 웨인: 네.
[11:57]
제가 쉽게 '여기 내 냉장고가 있는데'
[12:01]
'아, 오렌지 주스가 얼마 없네요'라고 하면
[12:03]
그리고 '어떻게 하면 좋을까요?'라고 물어보면
[12:05]
나중에 슈퍼마켓에서 뭘 사야 할까요?
[12:06]
그리고 그것을 기억하겠죠.
[12:09]
하지만 좀 더 맥락을 제공해야 할 것 같아요.
[12:12]
한나 프라이: 말하자면 좀 더 안내가 필요하다는 거군요.
[12:14]
그렉 웨인: 네.
[12:15]
한나 프라이: 그렇군요.
[12:16]
자주 수정해야 하나요?
[12:18]
오류가 많이 발생하나요?
[12:22]
그렉 웨인: 네, 그렇죠.
[12:23]
가끔 발생하는 한 가지 문제는
[12:27]
명백히 볼 수 있는 것을
[12:29]
못 본다고 말할 때가 있어요.
[12:30]
예를 들어 책장을 볼 때-
[12:33]
책장에서요.
[12:34]
'책 제목들을 읽을 수 있나요?'라고 물으면
[12:37]
'아니요, 제목들을 잘 못 보겠어요'라고 하죠.
[12:40]
그러면 마치 제다이의 마인드 트릭처럼
[12:43]
말해요.
[12:43]
'아니야, 너는 볼 수 있어'라고 하면
[12:46]
'네, 볼 수 있네요'라고 해요.
[12:47]
그러면 [웃음]
[12:49]
이건 좀 이상한 한계점인데-
[12:53]
네, 순응성은
[12:56]
영향을 줄 수 있어요.
[12:57]
한나 프라이: 그러면 격려에 반응하나요?
[12:59]
그렉 웨인: 네.
[13:00]
한나 프라이: 정말요?
[13:01]
그렉 웨인: [웃음]
[13:02]
한나 프라이: 인간도 마찬가지죠.
[13:04]
조금만 격려해주면
[13:07]
불가능해 보였던 일도 할 수 있게 되죠.
[13:09]
그럼 다른 어떤 환경에서
[13:12]
어려움을 겪나요?
[13:13]
여기는 꽤 조용하고
[13:15]
조명도 잘 되어 있잖아요.
[13:17]
복잡한 상황도 없고요.
[13:21]
다른 환경에서도 잘 작동하나요-
[13:24]
복잡하고, 시끄럽고, 어두운 곳에서요?
[13:26]
그렉 웨인: 더 많은 환경에서 작동하게 하는 것은
[13:29]
우리가 개발해야 할 중요한 부분이에요.
[13:32]
특히 소음이 있는 환경에서요.
[13:34]
제가 말씀드렸듯이, Astra는 실제로 들을 수 있어요.
[13:40]
오디오를 직접 입력받아서
[13:44]
신경망이 소리를 처리하고 정보 패키지로
[13:49]
변환해서
[13:53]
언어 모델인
[13:56]
Gemini가 직접 처리합니다.
[13:59]
하지만 시스템이 서로 다른 목소리를
[14:05]
구분하도록 훈련되지 않아서
[14:09]
우리가 대화할 때 당신의 목소리와 제 목소리를
[14:12]
구분하기 어려워해요.
[14:12]
그래서 주변에 다른 사람들이 대화하고 있으면
[14:17]
Astra는 그것을 사용자의 발화로 잘못 인식할 수 있죠.
[14:24]
또한 시스템에는 누군가가 충분한 강도로
[14:31]
말할 때 깨어나서
[14:33]
잠시 듣는 기능이 있어요.
[14:37]
그래서 자신에게 향하지 않은 발화를 듣게 되면
[14:43]
혼란스러워할 수 있죠.
[14:45]
네, 시끄러운 환경은 혼란을 줄 수 있어요.
[14:47]
한나 프라이: 다른 목소리를 구분한다는 건
[14:48]
파형 자체를 구분한다는 의미인가요?
[14:55]
그렉 웨인: 칵테일 파티 문제라고 불리는
[14:58]
오래된 문제가 있는데, 이는 더 기술적으로
[15:04]
음원 분리라고 알려져 있죠.
[15:06]
서로 다른 소리를 구분하는 문제예요.
[15:11]
예를 들어 기타와 노래가 있다면
[15:14]
기타 트랙과 노래 트랙으로
[15:17]
분리할 수 있죠.
[15:20]
마찬가지로 서로 다른 화자의
[15:22]
음성 트랙을 구분하고 싶을 수 있어요.
[15:28]
이는 단일 모달리티 내에서도
[15:34]
또는 오디오라는 감각 내에서도 가능할 수 있죠.
[15:38]
여러 감각을 통합하는 멀티모달 방식으로도 가능할 것입니다.
[15:43]
여러 감각을 통합해서 말이죠.
[15:44]
예를 들어, 당신이 말하고 있다는 것을 알 때
[15:48]
다른 사람의 입술이 아닌
[15:50]
당신의 입술 움직임도 볼 수 있죠.
[15:53]
결국에는 이런 시스템이
[15:56]
소리를 인식하는 방식을 바꾸는데
[15:59]
모든 종류의 단서를 사용할 수 있을 것입니다.
[16:01]
한나 프라이: 이것이 어떤 면에서
[16:03]
프로젝트 아스트라를 어렵게 만드는 점이면서도
[16:06]
동시에 잠재력을 주는 것 같네요.
[16:09]
말씀하신 칵테일 파티 효과처럼
[16:11]
인간은 이런 상황에서 정말 뛰어나잖아요. 칵테일 파티에서
[16:15]
주변에 많은 소리가 있음에도 불구하고
[16:17]
옆 사람의 말을 정확히 들을 수 있죠.
[16:19]
그레그 웨인: 사실 저는 어려워요.
[16:20]
한나 프라이: 아.
[16:21]
실은 그러고 보니,
[16:22]
솔직히 저도 그래요.
[16:23]
그레그 웨인: 그래서 이게 문제인 거죠.
[16:25]
[웃음]
[16:26]
한나 프라이: 하지만 전반적으로 인간은
[16:28]
이런 것들을 꽤 잘 하는 편이에요.
[16:30]
오디오만 가지고 문제를 해결하려고 하면
[16:32]
정말 어렵죠.
[16:34]
하지만 이건 멀티모달이라서, 비디오도 있고
[16:37]
오디오도 있고, 백그라운드에서 실행되는
[16:42]
텍스트 언어 모델도 있어서
[16:44]
활용할 수 있는 요소들이 더 많죠.
[16:47]
그레그 웨인: 네, 맞아요.
[16:47]
더 많은 맥락을 통해 모호성을
[16:51]
해결할 수 있을 것 같습니다.
[16:53]
한나 프라이: 다른 언어는 어떤가요?
[16:56]
지금은 영어로만 되나요?
[16:58]
그것도 매우 명확한 억양으로만?
[17:01]
그레그 웨인: 제가 주로 영어를 사용하지만
[17:04]
아니요, 다국어를 지원합니다.
[17:06]
이것은 네이티브 오디오의 기능이에요.
[17:09]
약 20개 언어를 상당히 능숙하게 다룰 수 있죠.
[17:13]
같은 대화 중에서도
[17:15]
언어를 바꿀 수 있어요.
[17:17]
한나 프라이: 그럼 한번
[17:18]
다른 언어로 데모를 보여주세요.
[17:20]
프로젝트 아스트라: 안녕하세요, 그레고리.
[17:21]
다시 대화를 나누게 되어 반갑습니다.
[17:24]
그레그 웨인: 봉주르, 아스트라.
[17:25]
[프랑스어로 대화]
[17:45]
한나 프라이: 오.
[17:47]
"빨간 머리"
[17:48]
알겠네요.
[17:48]
그레그 웨인: [프랑스어로 계속]
[17:55]
한나 프라이: 잠깐만요.
[17:56]
저는 학교에서 러시아어를 배웠어요.
[17:58]
아직도 러시아어 문장 하나는 기억나요.
[18:00]
미리 알리지 않고도 중간에
[18:05]
언어를 바꿀 수 있나요?
[18:07]
예를 들어, 제가 [러시아어로] 라고 하면?
[18:12]
프로젝트 아스트라: 물론 그 문구를 사용하실 수 있지만,
[18:14]
그 문구에 대해 무엇을 알고 싶으신가요?
[18:17]
한나 프라이: 무슨 뜻인가요?
[18:20]
프로젝트 아스트라: [러시아어]는 "몇 시에 여나요?"라는 뜻입니다.
[18:25]
무언가의 개장 시간을 묻는 질문이에요.
[18:30]
한나 프라이: 알겠어요.
[18:31]
정확히는 "가게가 몇 시에 여나요?"예요.
[18:35]
제 생각에는요.
[18:37]
그런데 주목할 만한 점은, 당신이
[18:41]
이제 영어로, 이제 프랑스어로, 이제 러시아어로 하지 않았다는 거예요.
[18:43]
그레그 웨인: 시스템이
[18:44]
처음 시작한 언어로 응답하도록 설정된 것 같아요.
[18:47]
실제로 당신이 영어로 말씀하시다가
[18:49]
러시아어를 사용하셨잖아요.
[18:50]
만약 처음부터 러시아어로 시작했다면
[18:52]
러시아어로 응답했을 거예요.
[18:53]
하지만 지금은 '영어로 대화 중이구나'라고 생각하고 있었죠.
[18:57]
하지만 제가 러시아어를 듣고 있었죠.
[18:58]
그래서 그걸 바꿀 필요가 없었어요.
[19:00]
만약 처음부터 러시아어로 말씀하셨다면,
[19:02]
아마 조금 더 나았을 것 같네요.
[19:04]
한나 프라이: 하지만 이건 우리가 지금 가지고 있는
[19:06]
일반적인 채팅 박스와는 다르죠.
[19:08]
이건 추가된 기능이에요.
[19:10]
그렉 웨인: 저는 이 시스템으로 하는 언어 학습에
[19:12]
정말 흥분됩니다. 주변을 걸어다니면서
[19:14]
'이게 뭐지?' 하고 물어보면, 마치 학교에서 배웠던 것처럼
[19:17]
프랑스어 수업에서 실제 물건을 가져와서
[19:21]
그 물건들에 대해 이야기하면서
[19:23]
함께 있는 것들에 대해 배우고 언어를 익혔던 것처럼요.
[19:28]
한나 프라이: 외국 도시에서 길을 잃었을 때
[19:30]
꽤 도움이 될 것 같네요.
[19:32]
그렉 웨인: 맞아요.
[19:33]
그리고 다른 사람들이
[19:34]
자연스럽게 하는 말도 이해할 수 있을 거예요.
[19:37]
한나 프라이: 그렇다면
[19:37]
이것과 상호작용할 때
[19:39]
내부적으로는 실제로 어떤 일이 일어나나요?
[19:42]
어떤 구성 요소들이 있나요?
[19:43]
그렉 웨인: 네,
[19:44]
우선 앱이 있습니다.
[19:47]
이 앱이 실제로 영상을 수집하고
[19:51]
마이크를 통해 오디오를 입력받고 있죠.
[19:55]
그리고 이것이 서버와 연결되어 있는데,
[19:57]
서버에는 여러 종류의
[20:00]
신경망 모델들이 있습니다.
[20:01]
한나 프라이: 어떤 것들이요?
[20:03]
그렉 웨인: 비전 인코더와 오디오 인코더가 있고,
[20:07]
또한 특수한 오디오 시스템이 있는데
[20:10]
이는 사용자가 말을 멈췄을 때를
[20:15]
감지하는 역할을 합니다.
[20:17]
이것들은 대규모 언어 모델인 제미니 옆에 있습니다.
[20:22]
이 센서 인코더들이 제미니에 직접 정보를 전송하고,
[20:27]
제미니가 응답하는 방식이죠.
[20:29]
우리는 제미니 팀들과 협력하여
[20:31]
제미니 모델을 대화와 오디오 처리에
[20:35]
더 적합하게 변경했습니다.
[20:36]
오디오를 사용하고, 입력받고,
[20:39]
말하는 능력을 향상시켰죠.
[20:43]
처음 모델 작업을 시작했을 때는
[20:46]
사실 관계 오류가 많았어요.
[20:49]
그래서 대화의 자연스러움을 유지하면서도
[20:51]
사실 관계의 정확성을 높일 수 있는
[20:55]
방법을 찾아야 했습니다.
[20:58]
이것이 제미니 작업의 한 측면이었죠.
[21:01]
이 모든 것 위에는 '에이전트'라고 불리는 것이 있습니다.
[21:05]
에이전트는 비디오와 오디오를
[21:09]
모델에 전송하고,
[21:11]
필요할 때 구글 렌즈나 구글 검색, 구글 맵스 같은
[21:17]
검색 도구를 호출해서 질문에 답변합니다.
[21:24]
예를 들어, 가격을 물어보면 검색을 실행하죠.
[21:28]
또한 메모리 시스템이 있는데,
[21:34]
이것도 에이전트의 일부입니다.
[21:37]
세션과 세션 사이에 오프라인에서
[21:40]
메모리 시스템이 세션에서 나온
[21:44]
사용자와 대화 내용에 대한 중요 정보를 요약합니다.
[21:48]
이런 것들이 주요 구성 요소들이죠.
[21:50]
한나 프라이: 책을 인식하는 데 사용하는 것만 생각해봐도,
[21:55]
여기에 관여하는 요소들이
[21:57]
얼마나 많은지 상상이 되네요.
[21:59]
컴퓨터 비전이 있고,
[22:02]
거기에
[22:03]
음성 인식도 있고.
[22:04]
대규모 언어 모델도 있고,
[22:06]
밑단에는 구글 검색 기능도 있죠.
[22:09]
실제로 의사 결정을 하는
[22:11]
에이전트 레이어도 있고요.
[22:12]
그리고 이 모든 것이 답변을 할 때 거의
[22:17]
지연 없이 이루어지고 있죠.
[22:18]
정말 엄청나게 복잡한 시스템이에요.
[22:21]
그렉 웨인: 네,
[22:21]
정말 엄청나게 복잡하죠.
[22:22]
물론 엔지니어로서 우리는 추상화 계층을 만들어서
[22:25]
모든 복잡성을 한 번에
[22:27]
생각하지 않아도 되게 했지만,
[22:29]
전반적으로 정말 매우 복잡합니다.
[22:32]
모델에 들어가는 데이터는
[22:35]
극소수만이 이해하고 있죠.
[22:37]
그리고 왜 이런 결과가 나오는지는
[22:39]
아마 아무도 정확히
[22:40]
이해하지 못할 겁니다. 벤치마크에만 의존하니까요.
[22:43]
한나 프라이: 이것의 역사에 대해
[22:44]
이야기해보죠.
[22:45]
이 팟캐스트의 첫 시리즈에서,
[22:48]
당신이 첫 에피소드의 게스트였죠.
[22:50]
그때 당신은 지능 연구에 대한
[22:53]
영감을 동물의 세계에서 얻었다고 했어요.
[22:58]
특히 서부 덤불 까치에 대해
[23:02]
이야기해주셨는데, 이를 통해
[23:06]
AI의 더 정교한 메모리를
[23:08]
구상하셨다고요. 잠깐 그 클립을 들려드리죠.
[23:10]
[오디오 재생]
[23:11]
- 당신이 했던 일과 본 것들의 큰 데이터베이스를
[23:15]
접근하고 사용할 수 있게 하여
[23:19]
나중에 목표 지향적 행동을 안내하는 데 사용하는 것-
[23:23]
배고프다.
[23:25]
지금 구더기가 먹고 싶은데,
[23:27]
어디서 찾을 수 있을까?
[23:29]
이런 종류의 것을 복제하고 싶습니다.
[23:32]
[오디오 종료]
[23:33]
한나 프라이: 성공하셨나요?
[23:34]
그렉 웨인: [웃음]
[23:38]
안녕하세요, 프로젝트 아스트라.
[23:39]
구더기를 좀 찾아주실래요?
[23:41]
한나 프라이: 그게 아까 오렌지 주스
[23:43]
예시와 비슷하게 들리네요, 그렇죠?
[23:45]
그렉 웨인: 네, 선제적 메모리의 예시죠.
[23:47]
한나 프라이: 네.
[23:48]
그게 프로젝트 아스트라에서 구현하신 거군요.
[23:51]
그렉 웨인: 네.
[23:52]
지능이란 것은 사실 하나의
[23:54]
통합된 것이라고 봅니다.
[23:56]
커리어를 쌓으면서 지능이 무엇인지 연구하게 되죠.
[24:01]
여러 각도에서 접근하면서
[24:03]
이해하려 노력하고 한 방향이나
[24:06]
다른 방향으로 시도해보죠.
[24:07]
이 프로젝트는 아마도 제 인생의 모든 연구
[24:14]
분야를 가장 강력하게 통합한 것일 겁니다.
[24:18]
하지만 사실 중요한 한 가지가 빠졌는데,
[24:20]
물리적 의미에서 구현되지 않았다는 거예요.
[24:22]
실제 세계에서 행동할 수 없죠-
[24:24]
한나 프라이: 아직은요.
[24:24]
그렉 웨인: 제가-
[24:27]
아마도요.
[24:28]
[웃음] 네.
[24:30]
그래서 네, 메모리와 인식은
[24:35]
오랫동안 관심을 가져온 분야에요.
[24:36]
그리고 이것은 이러한 것들을
[24:39]
통합하는 방식인데, 사람들도 흥미롭게 받아들이는 것 같아요.
[24:44]
그들도 이에 공감하는 것 같습니다.
[24:46]
한나 프라이: 그럼 신경과학 배경이
[24:49]
프로젝트 아스트라에 얼마나 영향을 미쳤나요?
[24:51]
그렉 웨인: 신경과학은 두 가지 방식으로 사용됐어요.
[24:53]
하나는 우리가 어떤 의미에서
[24:55]
우리가 뇌과학을 활용하는 방식은
[24:57]
충분히 잘 수행했는지 판단하고
[24:58]
기억이 실제로 무엇을 의미하는지
[25:00]
그리고 우리가 이를 달성했는지 확인하는 것입니다.
[25:03]
그리고 이는 또한 하나의 원동력이 되는데,
[25:05]
만약 우리가 인간과 호환되는 무언가를
[25:09]
만들고 싶다면, 어떤 면에서 우리와 비슷한
[25:14]
단순한 텍스트 인터페이스보다는
[25:19]
우리와 더 비슷한 형태의 지능을
[25:22]
구현하는 것이죠.
[25:23]
예를 들어, 저는 마이클 토마셀로의
[25:26]
연구에 관심이 많았습니다.
[25:30]
그는 위대한 유인원들과 비교하여 인간의 의사소통을 연구합니다.
[25:36]
그는 제게 있어서
[25:39]
상황적 대화의 개념에 대한
[25:43]
가장 중요한 사상가인데, 그는 의사소통의 기본 전제를
[25:49]
같은 공간에 있는 두 개인이
[25:54]
같은 곳에 주의를 기울이고
[25:58]
함께 목표를 추론하며
[26:01]
협력할 수 있다고 설명합니다.
[26:03]
그리고 이것이 우리가 이 기술에서 모델링한 방식입니다.
[26:07]
한나 프라이: 그럼 이론적 수준에서
[26:08]
실제 설계를 직접 복사하기보다는
[26:14]
영감을 얻은 것이라고 볼 수 있겠네요.
[26:17]
그레그 웨인: 문제 해결이나 엔지니어링 자체를 위해서는
[26:19]
그렇죠.
[26:20]
기술 자체에 맞는
[26:22]
다른 해결책을 찾아야 합니다.
[26:24]
한나 프라이: 프로젝트 아스트라가
[26:27]
우리가 수년 전에 논의했던 것들과 연결된다면,
[26:30]
이 프로젝트의 첫 시작은 어디서 왔나요?
[26:34]
실제로 언제 시작된 건가요?
[26:35]
그레그 웨인: 네.
[26:36]
제가 알기로는-
[26:38]
딥마인드의 CEO인 데미스 하사비스가
[26:44]
회사에 일종의 도전과제를 던졌습니다.
[26:47]
그것은 우리가 초기 인공 일반 지능이
[26:53]
무엇인지 생각해보라는 것이었죠.
[26:56]
이게 무슨 의미일까요?
[26:58]
초기 인공 일반 지능이란
[27:01]
우리가 만들어서 기술적으로 식견 있는
[27:05]
사람들이 검토하고, 조사하고, 사용하고
[27:08]
경험했을 때
[27:10]
진정한 의미의 일반 지능을 가진
[27:16]
컴퓨터 장치가 결국 등장할 것이라고
[27:21]
확신하게 만드는 시스템입니다.
[27:23]
구체적인 시기는 정해지지 않았지만요.
[27:24]
당시에는 '이것일 수도 있고,
[27:28]
저것일 수도 있다'는 식의
[27:30]
많은 창의적인 생각들이 있었습니다.
[27:36]
알파제로처럼
[27:38]
세상과 상호작용하면서
[27:39]
지능이 발현될 것이라고
[27:41]
생각한 사람들도 있었고, 제 생각은
[27:46]
지능의 사회성에 초점을 맞췄습니다.
[27:49]
인간은 다른 사람에게서
[27:51]
배우거나 책에서 배우지 않으면
[27:53]
그다지 똑똑하지 않습니다.
[27:57]
그리고 이것이 바로 제가 생각한
[27:59]
초기 AGI의 개념이었고, 또한
[28:03]
인간과 상호작용하면서 도움을 주는 것을
[28:07]
주요 목표로 하는
[28:08]
도우미의 개념과 통합할 수 있다고 봤습니다.
[28:13]
이 두 가지를 합쳐서 방향을 잡았고,
[28:17]
더 자연스럽게 만들기 위해 비디오를 활용하는 쪽으로
[28:20]
시스템을 연결하는 궁극적인 매개체로서의 비디오를 생각하게 되었죠.
[28:24]
한나 프라이: 개발 과정에서 큰 돌파구가 있었나요?
[28:27]
그렉 웨인: 큰 돌파구요?
[28:28]
네, 있었습니다.
[28:30]
프로젝트에는 여러 단계가 있었어요.
[28:31]
첫 번째 단계는
[28:34]
기본적으로 해커톤이었는데
[28:35]
2주 동안 첫 버전을 만들었죠.
[28:40]
그때 영상도 있습니다.
[28:43]
꽤 조잡했죠.
[28:45]
말콤 레이놀즈라고
[28:48]
여기 있는 동료이자 엔지니어인데,
[28:52]
그가 아스트라를 가지고 놀면서
[28:56]
사무실을 돌아다니며 물었어요.
[29:00]
'이게 뭐지?'
[29:00]
시스템이 '식물입니다'라고 대답했죠.
[29:03]
'어떤 종류의 식물이지?'라고 물으면
[29:05]
'식물입니다'라고만 했어요.
[29:06]
[웃음]
[29:07]
그다지 유연하지 않았죠.
[29:09]
제가 본 첫 데모는 7초의 지연 시간이 있었어요.
[29:13]
한나 프라이: '안녕, 프로젝트 아스트라'라고 하면
[29:15]
그때는 그렇게 불렀나요?
[29:17]
그렉 웨인: 아니요, 그때는...
[29:18]
한나 프라이: 그리고 7초 후에...
[29:20]
그렉 웨인: 네.
[29:20]
사용하기가 매우 어려웠죠. 시스템이
[29:23]
꺼진 줄 알았다가
[29:25]
7초 후에 갑자기 응답이 오니까요.
[29:27]
[웃음]
[29:29]
그 당시 주요 발견 중 하나는
[29:31]
프롬프트라는 개념이었어요.
[29:35]
프롬프트는 시스템 작동에 필요한 지시사항입니다.
[29:40]
이런 시스템들은 언어를 정말 이해해요.
[29:41]
읽을 수 있고
[29:45]
'네 이름은 아스트라야'
[29:45]
'넌 지능적이고 도움이 되는 AI 어시스턴트야'
[29:48]
이런 걸 말할 수 있죠.
[29:52]
이런 정보 중 일부는 지금 Gemini 모델에
[29:55]
내장되어 있지만
[29:56]
일부는 우리의 프롬프트에 포함되어 있어요.
[29:58]
멀티모달 시스템에서
[30:00]
프롬프트를 잘 활용할 수 있을지 확신하지 못했죠.
[30:04]
놀라운 통찰 중 하나는
[30:09]
시스템에게 사용자의 카메라를 통해
[30:12]
세상을 볼 수 있다고 알려주는 것만으로도
[30:16]
자신만의 관점을 가지게 되었다는 점이에요.
[30:18]
정보의 출처에 대해
[30:21]
이해하게 된 거죠.
[30:23]
그전에는 이해하지 못했어요.
[30:24]
계속 실수를 했죠.
[30:26]
'뭐가 보이니?'라고 물으면
[30:27]
항상 잘못된 답변을 줬어요.
[30:29]
하지만 '너는 사용자의 카메라를 통해
[30:31]
보는 AI 시스템이야'라고 하니까
[30:34]
이 카메라가 자신이 보는 것이라는 걸
[30:37]
이해하고
[30:38]
정확하게 대답하기 시작했죠.
[30:39]
한나 프라이: 와.
[30:40]
그렉 웨인: 물론 할 일이 많았지만,
[30:42]
프롬프트로 효과적으로 지시할 수 있다는 걸 깨달은 게
[30:45]
이전에 만들었던 시스템과는 달랐지만
[30:47]
텍스트를 사용해서 상황 맥락이나
[30:50]
더 구체화된 이해를 이끌어낼 수 있다는 점이...
[30:55]
한나 프라이: 정말 흥미롭네요.
[30:56]
초기 AGI를 만들라는 과제가 주어졌을 때,
[31:01]
이런 것이 가능할지에 대해
[31:04]
의심하거나 회의적인 사람들이 있었나요?
[31:06]
그렉 웨인: 네.
[31:07]
AI는 너무 빠르게 발전하다 보니 과거를 돌아보는 게 참 흥미롭습니다.
[31:13]
사람들이 '당연하다'고 생각하는 것도 너무 빠르게 바뀌죠.
[31:17]
지금은 많은 사람들에게 당연해 보이는데
[31:19]
그걸 생각하면 정말 놀랍습니다.
[31:22]
얼마나 많은 역경이 있었고, 얼마나 많은 설득이
[31:26]
필요했는지 아시나요?
[31:28]
한나 프라이: 말씀해 주세요.
[31:30]
얼마나 많았나요?
[31:31]
그렉 웨인: 여러 관점에서
[31:33]
사람들은 이것이 이상한 시도라고 생각했죠.
[31:37]
시스템이 과연 세상을 이해할 수 있을까 하는 관점에서 봤을 때
[31:41]
당시의 비전 시스템은
[31:45]
픽셀 수로 봤을 때
[31:47]
96x96 픽셀 정도의 이미지 패치만 처리했어요.
[31:49]
모르시는 분들을 위해 말씀드리면, 우리 화면은 최소
[31:53]
1000x1000 픽셀인데 말이죠.
[31:58]
그래서 시스템에는
[32:00]
매우 흐린 입력만 들어갔던 거죠.
[32:04]
어떤 식물인지 구분하지 못한 것도
[32:06]
당연했죠.
[32:07]
제대로 볼 수도 없었으니까요.
[32:08]
이런 시스템이 보는 것을 단순히 식별하거나 분류하는 것을 넘어
[32:13]
실제로 보는 것에 대해 정보를 알고
[32:16]
깊이 있는 대화를 나눌 수 있다는 것은
[32:19]
시기상조로 보였죠.
[32:21]
시스템이 어느 수준에서 작동하려면
[32:23]
얼마나 많은 데이터가 필요한지에 대한
[32:27]
기본적인 지식조차 없었으니까요.
[32:29]
한나 프라이: 그렇다면
[32:30]
이 모든 게 터무니없어 보였는데도
[32:32]
시작하셨잖아요.
[32:36]
혹시 불가능하다고
[32:38]
생각하신 적은 없으셨나요?
[32:40]
그렉 웨인: 아니요.
[32:41]
절대 아니요.
[32:42]
항상 가능할 거라 생각했습니다.
[32:46]
포기하고 싶었던 순간은 있었지만요.
[32:48]
한나 프라이: 정말요?
[32:49]
그렉 웨인: 네.
[32:50]
제미나이 이전에
[32:51]
진전이 더뎠던 시기가 있었어요.
[32:55]
잘 작동하지 않았거든요.
[32:56]
힘든 시기였죠.
[32:58]
당시에는 일부 사람들에게
[33:00]
이런 연구가 성과가 없어 보였을 거예요.
[33:04]
하지만 저는 이것이 가능하다는 사실에
[33:07]
흔들림이 없었어요.
[33:10]
제가 더 고집스럽고 완고하게,
[33:14]
어쩌면 바보 같은 방식으로 접근했던 것 같아요.
[33:17]
그냥 '충분히 오래 연구하면 반드시 성공할 거야'라는 생각으로요.
[33:19]
[웃음]
[33:21]
한나 프라이: 테스트 단계에서
[33:24]
프로젝트 아스트라 룸이 있다고 들었는데요.
[33:28]
거기서는 뭘 하나요?
[33:30]
방 안에는 뭐가 있죠?
[33:31]
그렉 웨인: 네, 특별한 방이 있죠.
[33:32]
한나 프라이: 특별한 방 안에는 뭐가 있나요?
[33:34]
그렉 웨인: 그 방에는 재미있는 것들이
[33:36]
많이 있어요.
[33:37]
바가 있어서 아스트라가 음료를 만드는 걸 도와줄 수 있고요.
[33:42]
한나 프라이: 아 그렇군요.
[33:43]
네, 할 수 있죠.
[33:43]
그렉 웨인: 미술관도 있어서
[33:46]
스크린에 다양한 그림을 띄우고
[33:48]
갤러리를 돌아다니며 예술에 대해 질문할 수 있어요.
[33:51]
한나 프라이: 알겠어요.
[33:52]
아스트라의 뒤에서 일어나는
[33:54]
일들을 좀 더 자세히 살펴볼까요?
[33:56]
지연 시간이 핵심적인 문제인 것 같은데요.
[33:59]
아까 7초의 지연이 있었다고 하셨잖아요.
[34:02]
그걸
[34:03]
어떻게 개선하셨나요?
[34:05]
GREG WAYNE: 여러 가지 측면에서 개선했습니다.
[34:07]
실제 스트리밍 비디오를 개선했고,
[34:09]
앱을 통해 정보를 더 빠르게 전송하고 있습니다.
[34:13]
앱을 통해서 말이죠.
[34:15]
이 시스템들은 함께 훈련되었지만,
[34:18]
비전 시스템과 오디오 시스템,
[34:20]
그리고 이 두 가지로부터 정보를 받는
[34:22]
언어 모델 시스템이 있습니다.
[34:25]
서로 연결되어 있죠.
[34:26]
이것을 '콜로케이팅'이라고 하는데
[34:28]
기술적인 용어이지만, 기본적으로
[34:30]
우리는 항상 이미지를 처리하고 있습니다.
[34:32]
예를 들어, 비디오가 비전 시스템으로
[34:35]
들어올 때, 최대한 빠른 속도로
[34:38]
계속 실행되고 있습니다.
[34:40]
그리고 대규모 언어 모델과
[34:43]
같은 컴퓨터 클러스터 내에
[34:46]
함께 위치해 있어서
[34:48]
다른 국가나 대륙을 거쳐 호출할 필요가 없습니다.
[34:54]
HANNAH FRY: 그러면...
[34:55]
죄송합니다.
[34:56]
GREG WAYNE: 네, 서로 바로 옆에서 실행되고 있죠.
[34:57]
HANNAH FRY: 그러니까 이런 실시간 이해를 위해서는
[35:00]
이 모델들을 실행하는 컴퓨터 하드웨어를
[35:03]
물리적으로 가까이 위치시켜야 한다는 건가요?
[35:05]
그게 차이를 만드나요?
[35:08]
GREG WAYNE: 네, 맞습니다.
[35:09]
HANNAH FRY: 그게 주된 개선점이었나요?
[35:10]
모델을 실행하는 위치를 바꾼 것이?
[35:13]
GREG WAYNE: 아니요.
[35:13]
위치를 옮기는 것은...
[35:15]
모델들을 함께 배치하는 것은 한 가지 방법이고,
[35:18]
컨텍스트를 캐싱하는 것도 중요합니다.
[35:21]
시스템이 사용자와 상호작용하는 맥락의 기록이
[35:24]
시간이 지남에 따라 점진적으로 업데이트되도록 하는 거죠.
[35:29]
네이티브 오디오로 작업하는 개념도 있는데,
[35:32]
이전 시스템들은 텍스트 인식 시스템 또는
[35:38]
음성-텍스트 변환 시스템을 사용했습니다.
[35:41]
오디오를 입력받아서
[35:44]
먼저 텍스트로 변환하고,
[35:46]
그 다음 언어 모델을 호출해서 응답을 받았죠.
[35:48]
그런 다음에야 응답이 나왔습니다.
[35:50]
하지만 이 시스템은 오디오를 직접 입력받아서,
[35:53]
그런 중간 시스템이 필요 없어졌고,
[35:55]
시간이나 지연을 추가로 발생시키지 않습니다.
[35:58]
실제로 네이티브 오디오를 통해
[36:00]
가능해진 간단한 효과가 있는데,
[36:01]
희귀 단어나 발음을 이해할 수 있게 된 겁니다.
[36:05]
더 이상 그렇게 희귀하진 않지만,
[36:08]
'데미스 하사비스'라는 이름이 있습니다.
[36:11]
오디오를 직접 이해하지 못하는 이전 시스템들은
[36:14]
제가 '다마스커스'라고 말한다고 생각했는데,
[36:17]
이제는 데미스 하사비스라는 것을 알고,
[36:19]
맥락을 통해 이를 해결할 수 있습니다.
[36:21]
딥마인드의 CEO가 데미스 하사비스죠.
[36:24]
최근에 누군가 발견한 또 다른 예시로,
[36:26]
우리가 데모로 보여줄 수 있는 것이 있는데,
[36:29]
'스칸'과 '스콘'이라는 단어를
[36:31]
구분하는 것입니다. 같은 비스킷을 다르게 발음하는 거죠.
[36:34]
프로젝트 아스트라는 실제로
[36:37]
'스콘'과 '스칸'의 차이가 뭐냐고 물으면,
[36:39]
단순히 같은 단어로 옮기는 것이 아니라
[36:42]
다른 단어를 말했다는 것을 인식합니다.
[36:44]
마지막으로 팀이 엔드포인팅이라는
[36:46]
매우 기술적인 용어에 대해 많은 작업을 했는데,
[36:50]
간단히 말하자면, 시스템이
[36:52]
사용자가 정확히 언제 말을 멈췄는지 알 수 있게 됐습니다.
[36:54]
그래서 시스템은 사용자가 언제
[36:57]
말을 완전히 마쳤는지 정확히 감지합니다.
[36:59]
거기에 더해 훨씬 더 정교한 기능이 있는데,
[37:01]
사용자가 아직 말을 끝내지 않았더라도
[37:03]
미리 응답을 계획하는 겁니다.
[37:05]
일종의 추측을 통해
[37:08]
'이렇게 대답하면 되겠다'라고 미리 준비하는 거죠.
[37:11]
그리고 사용자가 정말로
[37:15]
말을 끝냈다고 판단되면 바로 응답을 합니다.
[37:17]
이미 다 준비가 된 거죠.
[37:18]
사용자가 말을 끝내기도 전에
[37:20]
무슨 말을 할지
[37:22]
이미 결정해 놓은 겁니다.
[37:24]
한나 프라이: 정말 흥미롭네요.
[37:25]
실제로 대부분의 경우
[37:27]
사람들이 하는 말의
[37:28]
중요한 부분은 문장 중간에 있고
[37:31]
끝부분으로 갈수록 흐려지잖아요.
[37:34]
그래서 그 시간을 활용해서
[37:37]
답변을 준비할 수 있군요.
[37:38]
그렉 웨인: 네, 정확히 그렇습니다.
[37:39]
맞아요.
[37:40]
[웃음]
[37:42]
아, 그렇죠.
[37:42]
우리가 이것에 대해 논의했는데--
[37:44]
사실 3년 전에 이런 것들을 논의했었어요.
[37:47]
그때는 너무 어려운 목표라고 생각했는데,
[37:50]
올해 들어서야 작동하기 시작했죠.
[37:52]
한나 프라이: 대화가
[37:53]
그 지점까지 가기도 전에 답변을
[37:56]
미리 예측하는 거군요.
[37:57]
그렉 웨인: 네.
[37:58]
어려운 작업이에요.
[37:58]
우리는 문장 중간에 긴 휴지를 둡니다.
[38:03]
그래서 우리 시스템은 소위
[38:07]
'의미론적 이해'라고 하는 것을 사용해야 하는데,
[38:10]
맥락과 소리에 대한
[38:14]
이해를 바탕으로 사용자가 말을 끝냈는지 추측합니다.
[38:17]
한나 프라이: 문장이 끝났는지 판단하는 것과는
[38:19]
별개로, 시스템이 수행하는
[38:21]
추론에 대해 궁금한데요.
[38:22]
프로젝트 아스트라가 추론 능력이 있다고 보시나요?
[38:27]
그렉 웨인: 네.
[38:28]
주로 신경망 내부 구조를 통해 추론을 하는데,
[38:33]
관찰하기 어렵고--
[38:36]
매우 복잡한 방식으로 이루어집니다.
[38:38]
그리고 대화 자체를 통해서도 추론을 합니다.
[38:41]
때로는 대화를 통해 추론하죠.
[38:44]
답변을 소리 내어 생각하는 것을 들을 수 있습니다.
[38:47]
사람들은 또한
[38:49]
내면의 대화가 가능한 시스템을
[38:51]
개발하고 있는데, 이는 사용자와 대화하지 않고
[38:53]
혼자 생각하는 거죠.
[38:53]
현재 아스트라는 그런 기능은 많지 않습니다.
[38:56]
한나 프라이: 하지만 추론 모델의
[38:58]
발전이 프로젝트 아스트라와 별개일 필요는 없겠네요.
[39:03]
이것이 바로 이 프로젝트의
[39:05]
핵심이라고 할 수 있죠.
[39:07]
모든 것을 통합해서 궁극적으로 초기 단계의
[39:10]
AGI를 만드는 것이니까요.
[39:11]
그렉 웨인: 네.
[39:12]
어떤 면에서는
[39:14]
이것이 추론의 특정 측면에 대해
[39:19]
더 활발한 연구를 촉진하길 바랍니다.
[39:21]
프로젝트 아스트라의 제품 관리자인
[39:24]
비보 쉬가 어느 날 점심시간에 아스트라를 꺼내서
[39:27]
'내 접시에 칼로리가 얼마나 되지?'라고 물었어요.
[39:30]
그녀의 접시는 매우 복잡하고 아름답게 차려져 있었는데
[39:33]
가운데 아몬드가 있고 여섯 가지 종류의 음식이 있었죠.
[39:37]
저기에 돼지 안심이 있고, 방울양배추도 있고, 그런 식으로요.
[39:42]
그리고 시스템이 약간 망설이면서 대답했죠.
[39:46]
그런데 그녀가 계속해서 합계를 내달라고 했어요.
[39:49]
이 방울양배추에는 얼마나 있나요?
[39:51]
그러자 시스템이 '음, 방울양배추가 7개이니'
[39:54]
따라서 칼로리는 이만큼입니다.
[39:56]
그리고 나서, '자, 이제 돼지 안심을 더해보죠.'
[39:58]
제가 특히 주목했던 점 중 하나는
[40:00]
Bibo가 자신의 사고 과정을 하나하나 설명했다는 거예요.
[40:04]
말씀하신 것처럼, 때로는 약간의 안내가 필요하죠.
[40:06]
하지만 우리는 시스템이 스스로
[40:09]
이렇게 말할 수 있는 단계와
[40:11]
저기 아몬드가 7개 있고,
[40:13]
방울양배추가 이만큼, 돼지 안심이 있으니
[40:16]
전부 합치면 이만큼이다, 라고 할 수 있는
[40:18]
단계와 그리 멀지 않은 것 같아요. 어떤 면에서 시스템이 이런 것들을 잘 못하는 이유는
[40:21]
우리가 아직 그런 것들에 대해
[40:23]
추론할 수 있는 시스템을 만들려고 시도해보지 않았기 때문이에요.
[40:25]
해나 프라이: 이제 메모리에 대해 좀 더 이야기해보고 싶은데요.
[40:28]
시스템이 기억하고 마음속에 저장하는 것들에 대해 말씀하셨는데,
[40:33]
의인화를 용서하신다면,
[40:34]
구글 I/O에서 이 시스템이 지난 45초 동안 일어난 일을 기억할 수 있다고 했잖아요.
[40:38]
이제는 그 시간을 늘리셨다고 들었어요.
[40:42]
지금은 10분까지 가능하다고요?
[40:45]
이제 10분이 가능한 거죠?
[40:47]
그레그 웨인: 네, 약 10분 정도예요.
[40:48]
사실 어떤 면에서는 좀 더 길기도 한데,
[40:50]
10분이 적절한 수준이라고 봐야 할 것 같아요.
[40:54]
해나 프라이: 왜 10분이 한계인가요?
[40:56]
그레그 웨인: 네,
[40:56]
기본적으로 지난 10분 동안의 영상에 대한 원본 기록을 가지고 있어요
[41:03]
영상 데이터를요.
[41:04]
초당 한 프레임 정도로 작동하고,
[41:06]
시간 순서대로 모든 프레임들의 스택을 가지고 있으며
[41:11]
그 프레임들 사이에 들어온 모든 오디오도 포함돼 있어요.
[41:14]
대략 600프레임 정도가 되겠네요.
[41:17]
한계는 실제로 칩의 메모리 때문이라고 생각해요.
[41:20]
지난 10년 정도를 보면
[41:22]
이런 종류의 빠른 활성 메모리는
[41:24]
크게 확장되지 않았거든요.
[41:26]
해나 프라이: 그럼 현재로서는
[41:28]
일종의 비디오 레코더처럼 작동하고 있다는 거군요.
[41:31]
지난 10분 동안 일어난 모든 일의
[41:33]
실제 기록을 보관하고 있는 거죠.
[41:34]
그레그 웨인: 네.
[41:34]
네, 매우 활발하게 작동하고 있어요.
[41:36]
그 정보를 바로 사용할 수 있죠.
[41:38]
또 일종의 보조 시스템이 있는데,
[41:40]
시스템을 끄면
[41:44]
그 대화를 요약하고 관련된 사실들을 추출해서
[41:47]
저장합니다.
[41:49]
해나 프라이: 가장 중요한 부분들을요.
[41:50]
그레그 웨인: 네.
[41:51]
시스템이 스스로 판단해서 중요한 것을 결정하죠.
[41:54]
해나 프라이: 말하자면 핵심을 추출하는 거군요.
[41:56]
그레그 웨인: 네.
[41:56]
해나 프라이: 하지만 현재로서는, 최근 상호작용에서
[41:59]
중요한 것들을 기억할 수 있다는 말씀이신가요?
[42:02]
그레그 웨인: 네.
[42:02]
일종의 이중 메모리 시스템을 가지고 있어요.
[42:05]
한 쪽은 당신이라는 사람에 대한 메모리예요.
[42:10]
당신에 대한 이해가 점점 발전하고 있는 거죠.
[42:15]
마치 '아, 이 사람은 아이스크림을 좋아하는구나'
[42:19]
초콜릿 아이스크림이구나, 하는 식으로요.
[42:21]
이렇게 당신에 대해 발견한 것들의 목록이 될 거예요.
[42:24]
그리고 이것은 매 세션마다 실제로 업데이트됩니다.
[42:28]
만약 당신이 '알다시피, 사실 나는
[42:31]
이제 아이스크림을 좋아하지 않게 됐어.
[42:33]
나는 케이크를 정말 좋아해.
[42:34]
내가 아이스크림 좋아했던 걸 잊어줘.'라고 하면
[42:37]
그러면 시스템은 '사용자가 더 이상 아이스크림을 좋아하지 않고,
[42:41]
케이크를 좋아한다'고 기록합니다.
[42:42]
이러한 정보들은 일종의 고정된
[42:45]
당신이 누구인지, 또는 무엇을 좋아하는지에 대한 이해라고 할 수 있죠.
[42:49]
당신의 선호도입니다.
[42:51]
또한 대화 요약도 있는데
[42:54]
'화요일 8시 50분에 우리가 이 체스 게임에 대해 이야기했다'와 같은
[42:59]
식으로 기록됩니다.
[43:00]
한나 프라이: 그럼 어떤 내용이 어디에 들어갈지는 어떻게 결정하나요?
[43:03]
어떤 것이 충분히 중요해서
[43:05]
기억해야 할 정보인지 어떻게 판단하나요?
[43:09]
그렉 웨인: 휴리스틱을 사용합니다.
[43:11]
이 시스템들은 실제로 휴리스틱이 주어져 있어요.
[43:13]
휴리스틱이란 기본적으로
[43:16]
무엇을 기억할지에 대한 경험적 규칙입니다.
[43:18]
사용하는 휴리스틱 중 하나는, 우리가 시스템에게 지시한 건데,
[43:23]
만약 당신이 뭔가를 기억해달라고 요청하면
[43:25]
반드시 그것을 기억해야 합니다.
[43:27]
아주 명확한 규칙이죠.
[43:28]
예를 들어 제가 '내 도어 코드를 기억해줘'라고 하면,
[43:32]
시스템은 그걸 기억할 거예요. 왜냐하면
[43:35]
그게 관련된 지시사항이라는 걸 이해하니까요.
[43:37]
그 외에는 최선의 추측을 합니다.
[43:40]
시스템은 이렇게 판단하죠--
[43:41]
사용자가 흥미로운 선호도를 표현했는지,
[43:44]
또는 이전에 표현한 것과 다른
[43:47]
선호도를 표현했는지 확인합니다.
[43:49]
그리고 그에 따라 업데이트를 하게 됩니다.
[43:51]
한나 프라이: 그렇다면
[43:52]
개인정보 보호 문제에 대해 이야기해볼까요.
[43:53]
이러한 개인정보 보호 문제를 어떻게 해결하시나요?
[43:56]
그렉 웨인: 네.
[43:57]
주요 기준 중 하나는 동의의 원칙입니다.
[44:02]
사용자들은 자신의 이전 기록된 데이터에 접근할 수 있습니다.
[44:07]
그리고 그것을 삭제하거나 저장된 내용을 볼 수 있죠.
[44:11]
뭔가를 삭제할 때마다,
[44:13]
시스템은 당신에 대한 전체 지식을 재구성합니다.
[44:16]
한나 프라이: 오.
[44:16]
그렉 웨인: 당신에 대해 알고 있는 것을
[44:19]
새롭게 요약하는 전체 과정을 거칩니다.
[44:20]
한나 프라이: 그렇다면
[44:22]
결국 사용자가 시스템이 자신에 대해 알고 있는 것을
[44:26]
어느 정도 통제할 수 있다는 거네요.
[44:27]
그렉 웨인: 네, 맞습니다.
[44:29]
한나 프라이: 실은 이 팟캐스트에서 몇 회 전에
[44:32]
딥마인드의 윤리학자인 이아손 가브리엘과 이야기를 나눴어요.
[44:38]
그는 정말 대단한 사람이에요.
[44:39]
그는 AI 어시스턴트의 윤리와
[44:43]
이런 어려운 문제들을 고려해
[44:45]
어떻게 형성되어야 하는지에 대해 설명했어요.
[44:48]
그의 연구가 아스트라 개발에
[44:52]
얼마나 영향을 미쳤나요?
[44:53]
그렉 웨인: 그의 243페이지 보고서를 아스트라에 입력했죠.
[44:57]
그러자 아스트라가 '알겠어요'라고 했어요.
[44:59]
한나 프라이: 정말요?
[45:00]
그렉 웨인: 아니요, 농담이에요.
[45:01]
한나 프라이: 아, 그랬다면 정말--
[45:02]
그렉 웨인: [웃음] 네,
[45:04]
우리는 이아손과 많은 대화를 나눴습니다.
[45:06]
그리고 그가 속한 팀과 많은 작업을 했죠.
[45:10]
그들은 모델과 에이전트 전체를 조사하면서
[45:15]
다양한 상황에서 어떻게 작동할지
[45:17]
탐구했고, 또한 외부
[45:19]
레드팀들과도 협력했습니다
[45:21]
어쩌면 선입견이 적고
[45:24]
시스템에 대해 더 다양한 종류의 적대적 공격을 시도할 수 있는
[45:27]
사람들과 함께 작업하고 있습니다.
[45:28]
우리는 또한 안전 필터 레이어를 가지고 있습니다.
[45:30]
이는 사용자 피해를 방지하기 위한 것으로, 예를 들어
[45:35]
특정한 말을 하거나 음란물을 보여주면
[45:38]
이러한 필터가 작동하여
[45:42]
응답하지 않게 됩니다.
[45:44]
자체 발화에도 필터가 작동하여
[45:46]
특정 내용을 말할 수 없게 되는데, 이는 사실
[45:49]
매우 드물게 발생합니다.
[45:50]
하지만 글쎄요.
[45:51]
네, 다뤄야 할 문제의 범위가 꽤 광범위합니다.
[45:55]
다행히도 이러한 문제들을 해결할 시간이 아직 있습니다.
[45:58]
한나 프라이: 알겠습니다.
[45:59]
그렇다면 앞으로의 우선순위는 무엇인가요?
[46:01]
앞으로 몇 달 동안 주로
[46:03]
어떤 작업을 하실 계획인가요?
[46:04]
그렉 웨인: 저는 특히
[46:06]
선제적 비디오 작업이라는 것에 매우 관심이 있습니다.
[46:09]
이는 단순히 대화에 응답하는 것뿐만 아니라
[46:14]
지속적으로 도움을 줄 수 있는
[46:16]
시스템을 말합니다.
[46:18]
예를 들어, 시각장애인을 위한
[46:20]
시각 통역 문제의 일부입니다.
[46:21]
걸어다닐 때 시야가 없다면
[46:23]
저기 테이블이 있으니 조심하라고 알려줄 수 있죠.
[46:27]
지속적인 안내가 가능합니다.
[46:29]
또한 더 많은 오디오 출력 작업을 하고 있는데,
[46:33]
풀 듀플렉스라고 합니다.
[46:35]
이는 동시에 처리하는 것으로--
[46:38]
듣고 말하는 것을 동시에 할 수 있는데,
[46:41]
이게 좀 성가실 수도 있죠.
[46:42]
말을 끊을 수도 있으니까요.
[46:45]
하지만 이게 더 자연스러운 대화방식이에요.
[46:47]
당신이 말할 때 제가 '음, 음' 하고
[46:50]
맞장구를 치는 것처럼 말이죠.
[46:53]
이것도 언어의 일부니까요.
[46:55]
말씀하신 대로 추론, 더 깊은 종류의 기억,
[47:01]
특정 종류의 성찰도 더 필요합니다.
[47:04]
도구를 사용해서 더 깊이 있는 조사와
[47:09]
연구를 할 수 있게 하는 것까지,
[47:12]
개선할 것이 정말 많죠.
[47:14]
한나 프라이: 그렉님, 함께 해주셔서 감사합니다.
[47:15]
그렉 웨인: 감사합니다, 한나.
[47:17]
한나 프라이: AI에 대한 우리의 기대치가 얼마나 빠르게 변하는지 놀랍습니다.
[47:21]
여러분,
[47:22]
지난 에피소드에서
[47:23]
오리올이 한 말을 기억하시나요?
[47:25]
5년 전에 누군가가 이런 것들이 가능하다고 했다면,
[47:29]
우리가 이미 AGI로 가는 길에
[47:32]
있다고 생각했을 거라고 했죠.
[47:34]
그리고 이제 우리는 이 멀티모달 에이전트의 프로토타입을 가지고 있습니다.
[47:39]
보고, 듣고,
[47:41]
기억력과 맥락, 추론 능력을 가지고
[47:44]
다국어로 실시간 대화가 가능한 시스템이죠.
[47:47]
이론적으로는 일상생활에서 당신과 함께하면서
[47:51]
지식을 향상시키고,
[47:54]
장애인을 지원하고,
[47:56]
우리의 능력을 확장시켜주는 에이전트입니다.
[47:59]
물론, 이것이 AGI는 아닙니다.
[48:02]
하지만 확실히 2년 전에 우리가 이야기했던
[48:06]
시스템들과 비교하면
[48:08]
상당한 도약을 이룬 것 같습니다.
[48:11]
구글 딥마인드 팟캐스트 시리즈에
[48:13]
함께해
[48:14]
주셔서 감사합니다.
[48:15]
여기서 잠시 휴식을 취하려고 하는데,
[48:17]
이전 에피소드를 다시 보고 싶으시다면,
[48:20]
우리 백 카탈로그에 정말 흥미진진한
[48:24]
AI 대화의 즐거움이 가득하니
[48:27]
즐겨보세요.
[48:28]
유튜브나 여러분이 즐겨 사용하는 팟캐스트 플랫폼에서
[48:31]
[음악]
[48:34]