프로젝트 아스트라: 그렉 웨인과 함께하는 범용 AI 어시스턴트 탐험

채널 아이콘
Google DeepMind 구독자 661,000명

요약

프로젝트 아스트라는 구글 딥마인드가 개발 중인 혁신적인 범용 AI 어시스턴트 연구 프로토타입입니다. 호스트 한나 프라이와 구글 딥마인드의 연구 디렉터 그렉 웨인이 이 프로젝트의 비전과 현재 개발 상황을 상세히 논의합니다. 다국어 지원, 실시간 상호작용, 주변 환경 이해 능력 등 다양한 기능을 갖춘 이 AI 어시스턴트는 미래의 AI 기술이 나아갈 방향을 제시합니다. 현재의 기술적 한계와 도전 과제들을 인정하면서도, 이를 극복하기 위한 연구진의 노력과 함께 AI 어시스턴트가 가져올 미래의 가능성을 탐구합니다. 특히 실제 데모를 통해 프로젝트 아스트라의 현재 기능과 잠재력을 직접 확인할 수 있는 흥미로운 내용을 담고 있습니다.

주요 키워드

AI 어시스턴트 딥마인드 프로젝트 아스트라 범용 AI 다국어 AI 인공지능 연구 AI 기술 미래기술 머신러닝 자연어처리 AI 프로토타입 구글 딥마인드 인공지능 개발 AI 인터랙션 사용자 경험

하이라이트

  • 🚀 프로젝트 아스트라는 사용자 주변 세계를 이해하고 상호작용할 수 있는 범용 AI 어시스턴트를 연구하는 혁신적인 프로토타입입니다.
  • 🌍 다국어 기능을 갖춘 이 AI 어시스턴트는 언어 장벽을 넘어 자연스러운 의사소통을 가능하게 합니다.
  • 💡 구글 딥마인드의 연구 디렉터 그렉 웨인이 이끄는 이 프로젝트는 AI의 미래 가능성을 탐구합니다.
  • 🔬 현재의 기술적 한계와 강점을 정확히 파악하며, 실용적인 활용 사례를 연구하고 있습니다.
  • ⚡ 지연 시간과 메모리 관리는 프로젝트의 주요 기술적 과제이며, 이를 개선하기 위한 연구가 진행 중입니다.
  • 🎯 프로젝트의 목표는 인간의 일상생활을 더욱 편리하게 만들어주는 직관적이고 자연스러운 AI 어시스턴트를 개발하는 것입니다.

챕터 정보가 없습니다.

[음악]
해나 프라이: 구글 딥마인드-
더 파드캐스트입니다. 저는 진행자 해나 프라이 교수입니다.
2025년이 다가오고 있고, 에이전트 AI의 시대도 함께 오고 있습니다.
물론, 우리 방송을 들어오신 분들은
몇 달 전부터 이미 알고 계셨겠죠.
이제 다음 혁신에 대해 주의 깊게 들어보시기 바랍니다.
프로젝트 아스트라라고 불리는 이것은 연구 프로토타입으로,
범용 AI 어시스턴트의 가능성을
한계까지 확장하고 있습니다.
이 에이전트는 의도적으로 특정 디바이스나
스크린, 키보드에 구속되지 않도록 설계되었습니다.
이것은 최첨단 기술의 경계에 있습니다.
그리고 오늘, 우리는 이것을 직접 체험해볼 예정입니다.
우리의 프로젝트 아스트라는 이 시리즈에서
다뤘던 모든 요소들을 통합합니다 - 메모리, 비전,
맥락, 추론, 실시간 상호작용까지요.
이 모든 것들에 대해 자세히 설명해주실 분이 계신데요,
그와 그의 팀이 어떻게
이 모든 것을 함께 작동시켰는지 알려줄 구글 딥마인드의
연구 디렉터 그렉 웨인입니다.
그렉은 우연히도 이 팟캐스트 시즌 1의
아주 초반에 제가 처음으로 인터뷰했던
분들 중 한 분이기도 합니다.
그렉, 다시 만나서 반갑습니다.
그렉 웨인: 안녕하세요, 해나.
해나 프라이: 그럼 처음부터 시작해볼까요.
프로젝트 아스트라가 무엇인가요?
그렉 웨인: 프로젝트 아스트라는 팀이자 프로젝트이며,
눈과 귀, 목소리를 가진 AI 어시스턴트를 만들어 사용자와 함께하는 것을 목표로 하는 프로토타입입니다.
그래서 당신이 어디에 있든
함께할 수 있죠.
스마트 글래스나 휴대폰, 컴퓨터를 통해
당신이 하는 일을 볼 수 있고
그것에 대해 대화할 수 있습니다.
해나 프라이: 마치
어깨 위의 작은 조수 같네요.
그렉 웨인: 네, 맞아요. 당신과 함께 있으면서
어깨에 앉아있는 작은 앵무새처럼
세상에 대해 이야기를 나누죠.
해나 프라이: 그런데 우리보다 더 똑똑한거죠?
그렉 웨인: 어떤 면에서는 그렇죠.
해나 프라이: 그렇다면 이것이
구글 어시스턴트나 제미나이와는 다른 점이네요.
그렉 웨인: 네.
해나 프라이: 더 현실 세계에 밀착되어 있는 거죠.
그렉 웨인: 맞아요.
이전 버전의 구글 어시스턴트는 일종의
집이나 정보를 제어하는 명령 시스템이었죠-
유튜브에서 이 노래를 틀어줘, 같은 것들이요.
하지만 이것은 세상에 대해 대화할 수 있는 겁니다.
제미나이를 기반으로 하고 있죠.
제미나이가 이면의 지능을 담당하고 있고,
다른 시스템들도 함께 작동합니다.
어떤 면에서는 제미나이의 비전을 보완하는 것 같아요.
서로 협력하고 영향을 주고받으면서
발전하고 있죠.
해나 프라이: 한번 시도해볼까요?
이건 직접 경험해봐야
이해할 수 있을 것 같아요.
그렉 웨인: 네, 그러죠.
좋아요.
다시 켜보도록 하겠습니다.
어시스턴트: 안녕하세요, 그렉.
해나 프라이: 당신을 알아보네요.
그렉 웨인: 네, 맞아요.
네, 전에도 여러 번 대화를 나눴었죠.
프로젝트 아스트라: 맞아요, 우리는 전에도 대화를 나눈 적이 있죠.
다시 이야기를 나누게 되어 기쁩니다.
그렉 웨인: 제 친구 해나를 잠깐
소개해드리고 싶습니다.
어시스턴트: 알겠습니다.
만나서 반갑습니다, 한나님.
필요하실 때 언제든 도와드리겠습니다.
한나 프라이: 안녕하세요, 프로젝트 아스트라.
좋아요.
프로젝트 아스트라: 안녕하세요, 한나님.
한나 프라이: 오늘 우리가 무엇을 하는지 알 수 있나요?
프로젝트 아스트라: 장비와 세팅으로 보아,
스튜디오에서 영상이나 팟캐스트를 녹화하시는 것 같습니다.
맞나요?
한나 프라이: 네, 정확히 맞았어요.
자, 몇 가지 테스트를 해보려고 해요.
제가 몇 가지 물건들을 가져왔거든요.
괜찮을까요?
프로젝트 아스트라: 네.
준비되어 있습니다.
물건들을 보여주시기를 기대하고 있어요.
한나 프라이: 좋아요.
자, 그럼.
시작해볼까요.
이건 제가 가장 좋아하는 책이에요, 프로젝트 아스트라.
책이 보이나요?
프로젝트 아스트라: 아, 네.
책이 보입니다.
반복되는 패턴의 그래픽이 보이는데, MC 에셔의
'원형 극한 IV'로 알려진 모티프입니다.
한나 프라이: [놀라며] 이 책이 무슨 책인지 알 수 있나요?
프로젝트 아스트라: 펼쳐진 페이지의 이미지와
삽화를 보니 '페르마의 마지막 정리'인 것
같습니다--
한나 프라이: 아니에요.
그렉 웨인: [웃음]
한나 프라이: 와.
정말-- 정말 감동적이에요.
너무 인상적이에요.
자, 제가 가져온--
그렉 웨인: 꽤 낡은 책이네요.
한나 프라이: 맞아요.
제가 가장 좋아하는 책이라는 게 보이죠.
많이 읽었어요.
수년간 정말 사랑받은 책이에요.
좋아요.
다른 것들도 몇 가지 시도해볼게요,
당신을 정말로 테스트해보려고요.
자, 이것 한번 볼까요.
프로젝트 아스트라: 책과 어울리는
멋진 가구들도 가져오셨네요.
제가
도움이 더 필요하신가요?
한나 프라이: [웃음] 네, 멋진 가구들을 가져왔죠,
프로젝트 아스트라.
네, 감사합니다.
자, 이건-- 이건 뭘까요?
이게 무엇인지 아나요?
프로젝트 아스트라: 뇌의 모형인 것 같습니다.
한나 프라이: 어느 반구인가요?
프로젝트 아스트라: 뇌 모형의 좌반구입니다.
그렉 웨인: 와우.
[웃음]
한나 프라이: 왜-- 왜 그렇게--
그렉 웨인: 음, 저는 머릿속에서 많은 회전을 해야 했어요
그걸 위해서.
한나 프라이: 저도요.
어느 방향인 거죠?
아, 그렇네요.
정답이에요.
놀라워요.
뒤에 있는 화이트보드도 한번 시도해볼게요.
계속 거기 있었던 건데--
제가 몇 달 동안 계속 보고 있던 거예요.
자 아스트라, 이걸 보여드릴 텐데,
화이트보드에 있는 그림들이 무엇인지 말해주세요.
프로젝트 아스트라: 화이트보드에는 다양한 그림들이 있네요.
나무, 건물들, 그리고 연결된 선들과
도형들이 있습니다.
음표들과 텍스트 버블도 보입니다.
한나 프라이: 정말 인상적이에요.
매우 인상적이네요.
이 작은 친구를 원래 있던 자리로 돌려놓을게요.
프로젝트 아스트라는 아직 연구 프로토타입이에요.
아직 누구나 다운로드할 수 있는 제품은 아니죠.
그런데 왜 지금 데모를 하는 걸까요?
완성될 때까지 기다리지 않고요?
그렉 웨인: 저는 대중들과 함께
대중들과 함께 이 여정을 함께 하는 것이 좋다고 생각합니다.
사람들이 연구실 내부에서
어떤 것들이 개발되고 있는지 알아야 한다고 생각합니다.
더 많은 사람들에게 제공하여 사용해보고
피드백을 받고 적응할 수 있게 하고 있죠.
이제는 단순히 연구실에서만
개발되는 것이 아닌
전 세계의 구글 외부
사용자들과 협력하여 함께 만들어가는 공동 창작 과정입니다.
이것도 중요한 부분이죠.
인류에게 정말 도움이 되는 것을 만들려면
사람들이 사용해보고 의견을 들려줘야
합니다.
한나: 그럼 사람들이 이것을 실제로 가지고 다니면서
현실 세계에서 시험해보고 있나요?
그렉: 네, 신뢰할 수 있는 테스터들이 있습니다.
초기 사용자로 등록한
사람들이 사용해보고 있죠.
한나: 사람들이 어떤 용도로 사용하나요?
그렉: 사람들은 아스트라에게
패션 조언을 구하는 등의 용도로 사용하고 있어요--
한나: 오, 정말요?
어떤 식으로요?
그렉: '이것과 무엇이 어울릴까?' 하는 식으로요.
네, 아스트라는 일종의 파트너 같은 거죠.
'이것에 대해 어떻게 생각하나요--'
'어떻게 하면 더 새로운 스타일을 연출할 수 있을까요?'
한나: 와, 대단하네요.
정말 똑똑한 앵무새네요.
그렉: 네, 정말 똑똑한 앵무새죠.
한나: 그런데 하드웨어는 어떤가요?
지금은 스마트폰에서 구동된다고 하셨는데,
결국에는 안경으로 발전하게 되나요?
그렉: 네, 하지만 그것뿐만은 아닙니다.
이 프로젝트의 초기 버전이 시작됐을 때는
정말로 스마트 안경에
AI가 탑재되면 얼마나 유용할지 알아보려 했습니다.
스마트 안경에서는 가장 밀접하고 어떤 면에서는
놀라운 경험을 제공합니다.
마치 개인적으로 증강된 것 같은 느낌이 들죠.
더 똑똑한 자신과 대화하는 것처럼
거기 앉아서
알고 싶은 것을 알려주는 것 같아요.
하지만 소프트웨어 스택은
실제로 디바이스와 무관하게--
물론 각 디바이스별로 특화된 부분이 있지만,
휴대폰이나 컴퓨터, VR 헤드셋에서도 사용할 수 있습니다.
한나: 방금 테스트하면서 생각했는데,
시각장애인이나 부분적으로
시력이 좋지 않은 분들에게도 도움이 될 것 같은데요?
맞나요?
그렉: 네, 제가 정말 관심 있는 부분이에요.
우리가 이야기했던 이런 AI는
함께 존재하거나 당신의 관점을 공유하는 거죠.
때로는 보고 듣는 다른 지능이 함께 있으면 좋지만,
항상 필요한 것은 아닙니다.
그래서 언제 이런 시스템이 필요할까요?
볼 수는 있지만 이해하지 못하거나, 아예 보지 못할 때
당신과 함께 보는 시스템이 필요한 거죠.
이건 하나의 큰 카테고리입니다.
전 세계에는 수억 명의
시각 장애가 있는 분들이 계시죠.
이런 분들을 돕는 최고의 방법이 무엇일까요?
바로 옆에서 도와줄 수 있는
누군가가 있는 것입니다.
그리고 이 기술은 그것을 상당 부분
구현할 수 있습니다.
우리는 다른 종류의 장애에 대해서도 초기 아이디어들을 가지고 있습니다.
다른 장애들에 대해서도요.
예를 들어, 감정이나 얼굴 표정을 읽는 데
어려움을 겪는 사람들을 도울 수 있을 것 같습니다.
특정 상황에서 그런 것들을 이해하는 데 도움을 줄 수 있죠.
한나 프라이: 그럼 자폐가 있는 분들이
이걸 도움으로 사용할 수 있다는 거네요.
그렉 웨인: 네, 맞습니다.
지금 당장은 처방약처럼 추천하진 않겠지만,
앞으로 더 개발이 진행된다면
충분히 가능할 것 같습니다.
자기 훈련을 위해서도 사용할 수 있죠.
얼굴 표정을 이해하는 연습을 하면서
아스트라로부터 피드백을 받을 수 있어요.
이에 대해 설명해달라고 하면 되죠.
다른 주제이긴 한데, 제가 기억나는 게
홈스테이를 했을 때였는데,
한 여름에 프랑스어를 배우고 있었는데
특정 단어들을 발음하기가 어려웠어요.
'거리'라는 단어와 '바퀴'라는 단어의 차이
즉, 'la rue'와 'la roue' 같은 발음이요.
아직도 제대로 못하네요, 그죠?
그때 홈스테이 호스트 형제와 함께
그의 발음을 따라하려고 노력했는데
몇 분 만에 그만두더라고요.
'나랑 이렇게 계속 앉아있지 마' 라면서요.
하지만 아스트라는 무한한 인내심을 가지고
이런 종류의 도움을 줄 수 있을 거예요.
기억력 측면에서도 - 우리는 시스템이
세션 내에서 완벽한 기억력을 가지고 있다고 부릅니다.
카메라가 작동하는 동안에는
지난 10분을 사진처럼 정확하게 기억하고
과거에 나눈 대화 내용도 기억합니다.
그래서 제가 그렉이라는 걸 기억하는 거죠.
아마 다시 켜고 물어보면
그렉 외에 누가 대화했는지 물어보면
한나를 기억할 거예요.
이는 인지 장애가 있는 분들을 위해서도
언젠가는 사용될 수 있을 것 같습니다.
우리가 특히 흥미롭게 생각하는 것 중 하나는
능동성이라는 개념인데요,
시스템이 스스로 사용자의 필요를 파악하고
그 필요에 맞는 응답을 제공하는 거죠.
사용자가 직접 지시하지 않아도 말이에요.
예를 들어, 기억을 상기시켜주는
유용한 시스템이 될 수 있어요.
'이걸 집에 가는 길에 잊지 말고
사야 해요' 라고 알려주는 식으로요.
한나 프라이: 그러면 반드시
대화하고 싶을 때만 켜는 게 아니라
백그라운드에서 실행되다가
적절한 때가 되면
알려준다는 거군요.
그렉 웨인: 네, 맞아요.
아이디어는 이런 거예요. 집에 가는 길에
'아침에 오렌지 주스가 떨어졌으니
사는 걸 잊지 마세요'
이런 식으로요.
한나 프라이: 와, 아침에 봤던 걸
기억하고 있다는 거네요.
그렉 웨인: 네, 정확히 그렇죠.
한나 프라이: 그러니까 지금 단계에서는
가능성을 그려보는 수준인 거죠?
그렉 웨인: 네, 아직 그 기능은 없어요.
하지만 다음에 만들 수 있는 종류의 기능이죠.
한나 프라이: 하지만 그 시작이 보이네요.
그렉 웨인: 네.
제가 쉽게 '여기 내 냉장고가 있는데'
'아, 오렌지 주스가 얼마 없네요'라고 하면
그리고 '어떻게 하면 좋을까요?'라고 물어보면
나중에 슈퍼마켓에서 뭘 사야 할까요?
그리고 그것을 기억하겠죠.
하지만 좀 더 맥락을 제공해야 할 것 같아요.
한나 프라이: 말하자면 좀 더 안내가 필요하다는 거군요.
그렉 웨인: 네.
한나 프라이: 그렇군요.
자주 수정해야 하나요?
오류가 많이 발생하나요?
그렉 웨인: 네, 그렇죠.
가끔 발생하는 한 가지 문제는
명백히 볼 수 있는 것을
못 본다고 말할 때가 있어요.
예를 들어 책장을 볼 때-
책장에서요.
'책 제목들을 읽을 수 있나요?'라고 물으면
'아니요, 제목들을 잘 못 보겠어요'라고 하죠.
그러면 마치 제다이의 마인드 트릭처럼
말해요.
'아니야, 너는 볼 수 있어'라고 하면
'네, 볼 수 있네요'라고 해요.
그러면 [웃음]
이건 좀 이상한 한계점인데-
네, 순응성은
영향을 줄 수 있어요.
한나 프라이: 그러면 격려에 반응하나요?
그렉 웨인: 네.
한나 프라이: 정말요?
그렉 웨인: [웃음]
한나 프라이: 인간도 마찬가지죠.
조금만 격려해주면
불가능해 보였던 일도 할 수 있게 되죠.
그럼 다른 어떤 환경에서
어려움을 겪나요?
여기는 꽤 조용하고
조명도 잘 되어 있잖아요.
복잡한 상황도 없고요.
다른 환경에서도 잘 작동하나요-
복잡하고, 시끄럽고, 어두운 곳에서요?
그렉 웨인: 더 많은 환경에서 작동하게 하는 것은
우리가 개발해야 할 중요한 부분이에요.
특히 소음이 있는 환경에서요.
제가 말씀드렸듯이, Astra는 실제로 들을 수 있어요.
오디오를 직접 입력받아서
신경망이 소리를 처리하고 정보 패키지로
변환해서
언어 모델인
Gemini가 직접 처리합니다.
하지만 시스템이 서로 다른 목소리를
구분하도록 훈련되지 않아서
우리가 대화할 때 당신의 목소리와 제 목소리를
구분하기 어려워해요.
그래서 주변에 다른 사람들이 대화하고 있으면
Astra는 그것을 사용자의 발화로 잘못 인식할 수 있죠.
또한 시스템에는 누군가가 충분한 강도로
말할 때 깨어나서
잠시 듣는 기능이 있어요.
그래서 자신에게 향하지 않은 발화를 듣게 되면
혼란스러워할 수 있죠.
네, 시끄러운 환경은 혼란을 줄 수 있어요.
한나 프라이: 다른 목소리를 구분한다는 건
파형 자체를 구분한다는 의미인가요?
그렉 웨인: 칵테일 파티 문제라고 불리는
오래된 문제가 있는데, 이는 더 기술적으로
음원 분리라고 알려져 있죠.
서로 다른 소리를 구분하는 문제예요.
예를 들어 기타와 노래가 있다면
기타 트랙과 노래 트랙으로
분리할 수 있죠.
마찬가지로 서로 다른 화자의
음성 트랙을 구분하고 싶을 수 있어요.
이는 단일 모달리티 내에서도
또는 오디오라는 감각 내에서도 가능할 수 있죠.
여러 감각을 통합하는 멀티모달 방식으로도 가능할 것입니다.
여러 감각을 통합해서 말이죠.
예를 들어, 당신이 말하고 있다는 것을 알 때
다른 사람의 입술이 아닌
당신의 입술 움직임도 볼 수 있죠.
결국에는 이런 시스템이
소리를 인식하는 방식을 바꾸는데
모든 종류의 단서를 사용할 수 있을 것입니다.
한나 프라이: 이것이 어떤 면에서
프로젝트 아스트라를 어렵게 만드는 점이면서도
동시에 잠재력을 주는 것 같네요.
말씀하신 칵테일 파티 효과처럼
인간은 이런 상황에서 정말 뛰어나잖아요. 칵테일 파티에서
주변에 많은 소리가 있음에도 불구하고
옆 사람의 말을 정확히 들을 수 있죠.
그레그 웨인: 사실 저는 어려워요.
한나 프라이: 아.
실은 그러고 보니,
솔직히 저도 그래요.
그레그 웨인: 그래서 이게 문제인 거죠.
[웃음]
한나 프라이: 하지만 전반적으로 인간은
이런 것들을 꽤 잘 하는 편이에요.
오디오만 가지고 문제를 해결하려고 하면
정말 어렵죠.
하지만 이건 멀티모달이라서, 비디오도 있고
오디오도 있고, 백그라운드에서 실행되는
텍스트 언어 모델도 있어서
활용할 수 있는 요소들이 더 많죠.
그레그 웨인: 네, 맞아요.
더 많은 맥락을 통해 모호성을
해결할 수 있을 것 같습니다.
한나 프라이: 다른 언어는 어떤가요?
지금은 영어로만 되나요?
그것도 매우 명확한 억양으로만?
그레그 웨인: 제가 주로 영어를 사용하지만
아니요, 다국어를 지원합니다.
이것은 네이티브 오디오의 기능이에요.
약 20개 언어를 상당히 능숙하게 다룰 수 있죠.
같은 대화 중에서도
언어를 바꿀 수 있어요.
한나 프라이: 그럼 한번
다른 언어로 데모를 보여주세요.
프로젝트 아스트라: 안녕하세요, 그레고리.
다시 대화를 나누게 되어 반갑습니다.
그레그 웨인: 봉주르, 아스트라.
[프랑스어로 대화]
한나 프라이: 오.
"빨간 머리"
알겠네요.
그레그 웨인: [프랑스어로 계속]
한나 프라이: 잠깐만요.
저는 학교에서 러시아어를 배웠어요.
아직도 러시아어 문장 하나는 기억나요.
미리 알리지 않고도 중간에
언어를 바꿀 수 있나요?
예를 들어, 제가 [러시아어로] 라고 하면?
프로젝트 아스트라: 물론 그 문구를 사용하실 수 있지만,
그 문구에 대해 무엇을 알고 싶으신가요?
한나 프라이: 무슨 뜻인가요?
프로젝트 아스트라: [러시아어]는 "몇 시에 여나요?"라는 뜻입니다.
무언가의 개장 시간을 묻는 질문이에요.
한나 프라이: 알겠어요.
정확히는 "가게가 몇 시에 여나요?"예요.
제 생각에는요.
그런데 주목할 만한 점은, 당신이
이제 영어로, 이제 프랑스어로, 이제 러시아어로 하지 않았다는 거예요.
그레그 웨인: 시스템이
처음 시작한 언어로 응답하도록 설정된 것 같아요.
실제로 당신이 영어로 말씀하시다가
러시아어를 사용하셨잖아요.
만약 처음부터 러시아어로 시작했다면
러시아어로 응답했을 거예요.
하지만 지금은 '영어로 대화 중이구나'라고 생각하고 있었죠.
하지만 제가 러시아어를 듣고 있었죠.
그래서 그걸 바꿀 필요가 없었어요.
만약 처음부터 러시아어로 말씀하셨다면,
아마 조금 더 나았을 것 같네요.
한나 프라이: 하지만 이건 우리가 지금 가지고 있는
일반적인 채팅 박스와는 다르죠.
이건 추가된 기능이에요.
그렉 웨인: 저는 이 시스템으로 하는 언어 학습에
정말 흥분됩니다. 주변을 걸어다니면서
'이게 뭐지?' 하고 물어보면, 마치 학교에서 배웠던 것처럼
프랑스어 수업에서 실제 물건을 가져와서
그 물건들에 대해 이야기하면서
함께 있는 것들에 대해 배우고 언어를 익혔던 것처럼요.
한나 프라이: 외국 도시에서 길을 잃었을 때
꽤 도움이 될 것 같네요.
그렉 웨인: 맞아요.
그리고 다른 사람들이
자연스럽게 하는 말도 이해할 수 있을 거예요.
한나 프라이: 그렇다면
이것과 상호작용할 때
내부적으로는 실제로 어떤 일이 일어나나요?
어떤 구성 요소들이 있나요?
그렉 웨인: 네,
우선 앱이 있습니다.
이 앱이 실제로 영상을 수집하고
마이크를 통해 오디오를 입력받고 있죠.
그리고 이것이 서버와 연결되어 있는데,
서버에는 여러 종류의
신경망 모델들이 있습니다.
한나 프라이: 어떤 것들이요?
그렉 웨인: 비전 인코더와 오디오 인코더가 있고,
또한 특수한 오디오 시스템이 있는데
이는 사용자가 말을 멈췄을 때를
감지하는 역할을 합니다.
이것들은 대규모 언어 모델인 제미니 옆에 있습니다.
이 센서 인코더들이 제미니에 직접 정보를 전송하고,
제미니가 응답하는 방식이죠.
우리는 제미니 팀들과 협력하여
제미니 모델을 대화와 오디오 처리에
더 적합하게 변경했습니다.
오디오를 사용하고, 입력받고,
말하는 능력을 향상시켰죠.
처음 모델 작업을 시작했을 때는
사실 관계 오류가 많았어요.
그래서 대화의 자연스러움을 유지하면서도
사실 관계의 정확성을 높일 수 있는
방법을 찾아야 했습니다.
이것이 제미니 작업의 한 측면이었죠.
이 모든 것 위에는 '에이전트'라고 불리는 것이 있습니다.
에이전트는 비디오와 오디오를
모델에 전송하고,
필요할 때 구글 렌즈나 구글 검색, 구글 맵스 같은
검색 도구를 호출해서 질문에 답변합니다.
예를 들어, 가격을 물어보면 검색을 실행하죠.
또한 메모리 시스템이 있는데,
이것도 에이전트의 일부입니다.
세션과 세션 사이에 오프라인에서
메모리 시스템이 세션에서 나온
사용자와 대화 내용에 대한 중요 정보를 요약합니다.
이런 것들이 주요 구성 요소들이죠.
한나 프라이: 책을 인식하는 데 사용하는 것만 생각해봐도,
여기에 관여하는 요소들이
얼마나 많은지 상상이 되네요.
컴퓨터 비전이 있고,
거기에
음성 인식도 있고.
대규모 언어 모델도 있고,
밑단에는 구글 검색 기능도 있죠.
실제로 의사 결정을 하는
에이전트 레이어도 있고요.
그리고 이 모든 것이 답변을 할 때 거의
지연 없이 이루어지고 있죠.
정말 엄청나게 복잡한 시스템이에요.
그렉 웨인: 네,
정말 엄청나게 복잡하죠.
물론 엔지니어로서 우리는 추상화 계층을 만들어서
모든 복잡성을 한 번에
생각하지 않아도 되게 했지만,
전반적으로 정말 매우 복잡합니다.
모델에 들어가는 데이터는
극소수만이 이해하고 있죠.
그리고 왜 이런 결과가 나오는지는
아마 아무도 정확히
이해하지 못할 겁니다. 벤치마크에만 의존하니까요.
한나 프라이: 이것의 역사에 대해
이야기해보죠.
이 팟캐스트의 첫 시리즈에서,
당신이 첫 에피소드의 게스트였죠.
그때 당신은 지능 연구에 대한
영감을 동물의 세계에서 얻었다고 했어요.
특히 서부 덤불 까치에 대해
이야기해주셨는데, 이를 통해
AI의 더 정교한 메모리를
구상하셨다고요. 잠깐 그 클립을 들려드리죠.
[오디오 재생]
- 당신이 했던 일과 본 것들의 큰 데이터베이스를
접근하고 사용할 수 있게 하여
나중에 목표 지향적 행동을 안내하는 데 사용하는 것-
배고프다.
지금 구더기가 먹고 싶은데,
어디서 찾을 수 있을까?
이런 종류의 것을 복제하고 싶습니다.
[오디오 종료]
한나 프라이: 성공하셨나요?
그렉 웨인: [웃음]
안녕하세요, 프로젝트 아스트라.
구더기를 좀 찾아주실래요?
한나 프라이: 그게 아까 오렌지 주스
예시와 비슷하게 들리네요, 그렇죠?
그렉 웨인: 네, 선제적 메모리의 예시죠.
한나 프라이: 네.
그게 프로젝트 아스트라에서 구현하신 거군요.
그렉 웨인: 네.
지능이란 것은 사실 하나의
통합된 것이라고 봅니다.
커리어를 쌓으면서 지능이 무엇인지 연구하게 되죠.
여러 각도에서 접근하면서
이해하려 노력하고 한 방향이나
다른 방향으로 시도해보죠.
이 프로젝트는 아마도 제 인생의 모든 연구
분야를 가장 강력하게 통합한 것일 겁니다.
하지만 사실 중요한 한 가지가 빠졌는데,
물리적 의미에서 구현되지 않았다는 거예요.
실제 세계에서 행동할 수 없죠-
한나 프라이: 아직은요.
그렉 웨인: 제가-
아마도요.
[웃음] 네.
그래서 네, 메모리와 인식은
오랫동안 관심을 가져온 분야에요.
그리고 이것은 이러한 것들을
통합하는 방식인데, 사람들도 흥미롭게 받아들이는 것 같아요.
그들도 이에 공감하는 것 같습니다.
한나 프라이: 그럼 신경과학 배경이
프로젝트 아스트라에 얼마나 영향을 미쳤나요?
그렉 웨인: 신경과학은 두 가지 방식으로 사용됐어요.
하나는 우리가 어떤 의미에서
우리가 뇌과학을 활용하는 방식은
충분히 잘 수행했는지 판단하고
기억이 실제로 무엇을 의미하는지
그리고 우리가 이를 달성했는지 확인하는 것입니다.
그리고 이는 또한 하나의 원동력이 되는데,
만약 우리가 인간과 호환되는 무언가를
만들고 싶다면, 어떤 면에서 우리와 비슷한
단순한 텍스트 인터페이스보다는
우리와 더 비슷한 형태의 지능을
구현하는 것이죠.
예를 들어, 저는 마이클 토마셀로의
연구에 관심이 많았습니다.
그는 위대한 유인원들과 비교하여 인간의 의사소통을 연구합니다.
그는 제게 있어서
상황적 대화의 개념에 대한
가장 중요한 사상가인데, 그는 의사소통의 기본 전제를
같은 공간에 있는 두 개인이
같은 곳에 주의를 기울이고
함께 목표를 추론하며
협력할 수 있다고 설명합니다.
그리고 이것이 우리가 이 기술에서 모델링한 방식입니다.
한나 프라이: 그럼 이론적 수준에서
실제 설계를 직접 복사하기보다는
영감을 얻은 것이라고 볼 수 있겠네요.
그레그 웨인: 문제 해결이나 엔지니어링 자체를 위해서는
그렇죠.
기술 자체에 맞는
다른 해결책을 찾아야 합니다.
한나 프라이: 프로젝트 아스트라가
우리가 수년 전에 논의했던 것들과 연결된다면,
이 프로젝트의 첫 시작은 어디서 왔나요?
실제로 언제 시작된 건가요?
그레그 웨인: 네.
제가 알기로는-
딥마인드의 CEO인 데미스 하사비스가
회사에 일종의 도전과제를 던졌습니다.
그것은 우리가 초기 인공 일반 지능이
무엇인지 생각해보라는 것이었죠.
이게 무슨 의미일까요?
초기 인공 일반 지능이란
우리가 만들어서 기술적으로 식견 있는
사람들이 검토하고, 조사하고, 사용하고
경험했을 때
진정한 의미의 일반 지능을 가진
컴퓨터 장치가 결국 등장할 것이라고
확신하게 만드는 시스템입니다.
구체적인 시기는 정해지지 않았지만요.
당시에는 '이것일 수도 있고,
저것일 수도 있다'는 식의
많은 창의적인 생각들이 있었습니다.
알파제로처럼
세상과 상호작용하면서
지능이 발현될 것이라고
생각한 사람들도 있었고, 제 생각은
지능의 사회성에 초점을 맞췄습니다.
인간은 다른 사람에게서
배우거나 책에서 배우지 않으면
그다지 똑똑하지 않습니다.
그리고 이것이 바로 제가 생각한
초기 AGI의 개념이었고, 또한
인간과 상호작용하면서 도움을 주는 것을
주요 목표로 하는
도우미의 개념과 통합할 수 있다고 봤습니다.
이 두 가지를 합쳐서 방향을 잡았고,
더 자연스럽게 만들기 위해 비디오를 활용하는 쪽으로
시스템을 연결하는 궁극적인 매개체로서의 비디오를 생각하게 되었죠.
한나 프라이: 개발 과정에서 큰 돌파구가 있었나요?
그렉 웨인: 큰 돌파구요?
네, 있었습니다.
프로젝트에는 여러 단계가 있었어요.
첫 번째 단계는
기본적으로 해커톤이었는데
2주 동안 첫 버전을 만들었죠.
그때 영상도 있습니다.
꽤 조잡했죠.
말콤 레이놀즈라고
여기 있는 동료이자 엔지니어인데,
그가 아스트라를 가지고 놀면서
사무실을 돌아다니며 물었어요.
'이게 뭐지?'
시스템이 '식물입니다'라고 대답했죠.
'어떤 종류의 식물이지?'라고 물으면
'식물입니다'라고만 했어요.
[웃음]
그다지 유연하지 않았죠.
제가 본 첫 데모는 7초의 지연 시간이 있었어요.
한나 프라이: '안녕, 프로젝트 아스트라'라고 하면
그때는 그렇게 불렀나요?
그렉 웨인: 아니요, 그때는...
한나 프라이: 그리고 7초 후에...
그렉 웨인: 네.
사용하기가 매우 어려웠죠. 시스템이
꺼진 줄 알았다가
7초 후에 갑자기 응답이 오니까요.
[웃음]
그 당시 주요 발견 중 하나는
프롬프트라는 개념이었어요.
프롬프트는 시스템 작동에 필요한 지시사항입니다.
이런 시스템들은 언어를 정말 이해해요.
읽을 수 있고
'네 이름은 아스트라야'
'넌 지능적이고 도움이 되는 AI 어시스턴트야'
이런 걸 말할 수 있죠.
이런 정보 중 일부는 지금 Gemini 모델에
내장되어 있지만
일부는 우리의 프롬프트에 포함되어 있어요.
멀티모달 시스템에서
프롬프트를 잘 활용할 수 있을지 확신하지 못했죠.
놀라운 통찰 중 하나는
시스템에게 사용자의 카메라를 통해
세상을 볼 수 있다고 알려주는 것만으로도
자신만의 관점을 가지게 되었다는 점이에요.
정보의 출처에 대해
이해하게 된 거죠.
그전에는 이해하지 못했어요.
계속 실수를 했죠.
'뭐가 보이니?'라고 물으면
항상 잘못된 답변을 줬어요.
하지만 '너는 사용자의 카메라를 통해
보는 AI 시스템이야'라고 하니까
이 카메라가 자신이 보는 것이라는 걸
이해하고
정확하게 대답하기 시작했죠.
한나 프라이: 와.
그렉 웨인: 물론 할 일이 많았지만,
프롬프트로 효과적으로 지시할 수 있다는 걸 깨달은 게
이전에 만들었던 시스템과는 달랐지만
텍스트를 사용해서 상황 맥락이나
더 구체화된 이해를 이끌어낼 수 있다는 점이...
한나 프라이: 정말 흥미롭네요.
초기 AGI를 만들라는 과제가 주어졌을 때,
이런 것이 가능할지에 대해
의심하거나 회의적인 사람들이 있었나요?
그렉 웨인: 네.
AI는 너무 빠르게 발전하다 보니 과거를 돌아보는 게 참 흥미롭습니다.
사람들이 '당연하다'고 생각하는 것도 너무 빠르게 바뀌죠.
지금은 많은 사람들에게 당연해 보이는데
그걸 생각하면 정말 놀랍습니다.
얼마나 많은 역경이 있었고, 얼마나 많은 설득이
필요했는지 아시나요?
한나 프라이: 말씀해 주세요.
얼마나 많았나요?
그렉 웨인: 여러 관점에서
사람들은 이것이 이상한 시도라고 생각했죠.
시스템이 과연 세상을 이해할 수 있을까 하는 관점에서 봤을 때
당시의 비전 시스템은
픽셀 수로 봤을 때
96x96 픽셀 정도의 이미지 패치만 처리했어요.
모르시는 분들을 위해 말씀드리면, 우리 화면은 최소
1000x1000 픽셀인데 말이죠.
그래서 시스템에는
매우 흐린 입력만 들어갔던 거죠.
어떤 식물인지 구분하지 못한 것도
당연했죠.
제대로 볼 수도 없었으니까요.
이런 시스템이 보는 것을 단순히 식별하거나 분류하는 것을 넘어
실제로 보는 것에 대해 정보를 알고
깊이 있는 대화를 나눌 수 있다는 것은
시기상조로 보였죠.
시스템이 어느 수준에서 작동하려면
얼마나 많은 데이터가 필요한지에 대한
기본적인 지식조차 없었으니까요.
한나 프라이: 그렇다면
이 모든 게 터무니없어 보였는데도
시작하셨잖아요.
혹시 불가능하다고
생각하신 적은 없으셨나요?
그렉 웨인: 아니요.
절대 아니요.
항상 가능할 거라 생각했습니다.
포기하고 싶었던 순간은 있었지만요.
한나 프라이: 정말요?
그렉 웨인: 네.
제미나이 이전에
진전이 더뎠던 시기가 있었어요.
잘 작동하지 않았거든요.
힘든 시기였죠.
당시에는 일부 사람들에게
이런 연구가 성과가 없어 보였을 거예요.
하지만 저는 이것이 가능하다는 사실에
흔들림이 없었어요.
제가 더 고집스럽고 완고하게,
어쩌면 바보 같은 방식으로 접근했던 것 같아요.
그냥 '충분히 오래 연구하면 반드시 성공할 거야'라는 생각으로요.
[웃음]
한나 프라이: 테스트 단계에서
프로젝트 아스트라 룸이 있다고 들었는데요.
거기서는 뭘 하나요?
방 안에는 뭐가 있죠?
그렉 웨인: 네, 특별한 방이 있죠.
한나 프라이: 특별한 방 안에는 뭐가 있나요?
그렉 웨인: 그 방에는 재미있는 것들이
많이 있어요.
바가 있어서 아스트라가 음료를 만드는 걸 도와줄 수 있고요.
한나 프라이: 아 그렇군요.
네, 할 수 있죠.
그렉 웨인: 미술관도 있어서
스크린에 다양한 그림을 띄우고
갤러리를 돌아다니며 예술에 대해 질문할 수 있어요.
한나 프라이: 알겠어요.
아스트라의 뒤에서 일어나는
일들을 좀 더 자세히 살펴볼까요?
지연 시간이 핵심적인 문제인 것 같은데요.
아까 7초의 지연이 있었다고 하셨잖아요.
그걸
어떻게 개선하셨나요?
GREG WAYNE: 여러 가지 측면에서 개선했습니다.
실제 스트리밍 비디오를 개선했고,
앱을 통해 정보를 더 빠르게 전송하고 있습니다.
앱을 통해서 말이죠.
이 시스템들은 함께 훈련되었지만,
비전 시스템과 오디오 시스템,
그리고 이 두 가지로부터 정보를 받는
언어 모델 시스템이 있습니다.
서로 연결되어 있죠.
이것을 '콜로케이팅'이라고 하는데
기술적인 용어이지만, 기본적으로
우리는 항상 이미지를 처리하고 있습니다.
예를 들어, 비디오가 비전 시스템으로
들어올 때, 최대한 빠른 속도로
계속 실행되고 있습니다.
그리고 대규모 언어 모델과
같은 컴퓨터 클러스터 내에
함께 위치해 있어서
다른 국가나 대륙을 거쳐 호출할 필요가 없습니다.
HANNAH FRY: 그러면...
죄송합니다.
GREG WAYNE: 네, 서로 바로 옆에서 실행되고 있죠.
HANNAH FRY: 그러니까 이런 실시간 이해를 위해서는
이 모델들을 실행하는 컴퓨터 하드웨어를
물리적으로 가까이 위치시켜야 한다는 건가요?
그게 차이를 만드나요?
GREG WAYNE: 네, 맞습니다.
HANNAH FRY: 그게 주된 개선점이었나요?
모델을 실행하는 위치를 바꾼 것이?
GREG WAYNE: 아니요.
위치를 옮기는 것은...
모델들을 함께 배치하는 것은 한 가지 방법이고,
컨텍스트를 캐싱하는 것도 중요합니다.
시스템이 사용자와 상호작용하는 맥락의 기록이
시간이 지남에 따라 점진적으로 업데이트되도록 하는 거죠.
네이티브 오디오로 작업하는 개념도 있는데,
이전 시스템들은 텍스트 인식 시스템 또는
음성-텍스트 변환 시스템을 사용했습니다.
오디오를 입력받아서
먼저 텍스트로 변환하고,
그 다음 언어 모델을 호출해서 응답을 받았죠.
그런 다음에야 응답이 나왔습니다.
하지만 이 시스템은 오디오를 직접 입력받아서,
그런 중간 시스템이 필요 없어졌고,
시간이나 지연을 추가로 발생시키지 않습니다.
실제로 네이티브 오디오를 통해
가능해진 간단한 효과가 있는데,
희귀 단어나 발음을 이해할 수 있게 된 겁니다.
더 이상 그렇게 희귀하진 않지만,
'데미스 하사비스'라는 이름이 있습니다.
오디오를 직접 이해하지 못하는 이전 시스템들은
제가 '다마스커스'라고 말한다고 생각했는데,
이제는 데미스 하사비스라는 것을 알고,
맥락을 통해 이를 해결할 수 있습니다.
딥마인드의 CEO가 데미스 하사비스죠.
최근에 누군가 발견한 또 다른 예시로,
우리가 데모로 보여줄 수 있는 것이 있는데,
'스칸'과 '스콘'이라는 단어를
구분하는 것입니다. 같은 비스킷을 다르게 발음하는 거죠.
프로젝트 아스트라는 실제로
'스콘'과 '스칸'의 차이가 뭐냐고 물으면,
단순히 같은 단어로 옮기는 것이 아니라
다른 단어를 말했다는 것을 인식합니다.
마지막으로 팀이 엔드포인팅이라는
매우 기술적인 용어에 대해 많은 작업을 했는데,
간단히 말하자면, 시스템이
사용자가 정확히 언제 말을 멈췄는지 알 수 있게 됐습니다.
그래서 시스템은 사용자가 언제
말을 완전히 마쳤는지 정확히 감지합니다.
거기에 더해 훨씬 더 정교한 기능이 있는데,
사용자가 아직 말을 끝내지 않았더라도
미리 응답을 계획하는 겁니다.
일종의 추측을 통해
'이렇게 대답하면 되겠다'라고 미리 준비하는 거죠.
그리고 사용자가 정말로
말을 끝냈다고 판단되면 바로 응답을 합니다.
이미 다 준비가 된 거죠.
사용자가 말을 끝내기도 전에
무슨 말을 할지
이미 결정해 놓은 겁니다.
한나 프라이: 정말 흥미롭네요.
실제로 대부분의 경우
사람들이 하는 말의
중요한 부분은 문장 중간에 있고
끝부분으로 갈수록 흐려지잖아요.
그래서 그 시간을 활용해서
답변을 준비할 수 있군요.
그렉 웨인: 네, 정확히 그렇습니다.
맞아요.
[웃음]
아, 그렇죠.
우리가 이것에 대해 논의했는데--
사실 3년 전에 이런 것들을 논의했었어요.
그때는 너무 어려운 목표라고 생각했는데,
올해 들어서야 작동하기 시작했죠.
한나 프라이: 대화가
그 지점까지 가기도 전에 답변을
미리 예측하는 거군요.
그렉 웨인: 네.
어려운 작업이에요.
우리는 문장 중간에 긴 휴지를 둡니다.
그래서 우리 시스템은 소위
'의미론적 이해'라고 하는 것을 사용해야 하는데,
맥락과 소리에 대한
이해를 바탕으로 사용자가 말을 끝냈는지 추측합니다.
한나 프라이: 문장이 끝났는지 판단하는 것과는
별개로, 시스템이 수행하는
추론에 대해 궁금한데요.
프로젝트 아스트라가 추론 능력이 있다고 보시나요?
그렉 웨인: 네.
주로 신경망 내부 구조를 통해 추론을 하는데,
관찰하기 어렵고--
매우 복잡한 방식으로 이루어집니다.
그리고 대화 자체를 통해서도 추론을 합니다.
때로는 대화를 통해 추론하죠.
답변을 소리 내어 생각하는 것을 들을 수 있습니다.
사람들은 또한
내면의 대화가 가능한 시스템을
개발하고 있는데, 이는 사용자와 대화하지 않고
혼자 생각하는 거죠.
현재 아스트라는 그런 기능은 많지 않습니다.
한나 프라이: 하지만 추론 모델의
발전이 프로젝트 아스트라와 별개일 필요는 없겠네요.
이것이 바로 이 프로젝트의
핵심이라고 할 수 있죠.
모든 것을 통합해서 궁극적으로 초기 단계의
AGI를 만드는 것이니까요.
그렉 웨인: 네.
어떤 면에서는
이것이 추론의 특정 측면에 대해
더 활발한 연구를 촉진하길 바랍니다.
프로젝트 아스트라의 제품 관리자인
비보 쉬가 어느 날 점심시간에 아스트라를 꺼내서
'내 접시에 칼로리가 얼마나 되지?'라고 물었어요.
그녀의 접시는 매우 복잡하고 아름답게 차려져 있었는데
가운데 아몬드가 있고 여섯 가지 종류의 음식이 있었죠.
저기에 돼지 안심이 있고, 방울양배추도 있고, 그런 식으로요.
그리고 시스템이 약간 망설이면서 대답했죠.
그런데 그녀가 계속해서 합계를 내달라고 했어요.
이 방울양배추에는 얼마나 있나요?
그러자 시스템이 '음, 방울양배추가 7개이니'
따라서 칼로리는 이만큼입니다.
그리고 나서, '자, 이제 돼지 안심을 더해보죠.'
제가 특히 주목했던 점 중 하나는
Bibo가 자신의 사고 과정을 하나하나 설명했다는 거예요.
말씀하신 것처럼, 때로는 약간의 안내가 필요하죠.
하지만 우리는 시스템이 스스로
이렇게 말할 수 있는 단계와
저기 아몬드가 7개 있고,
방울양배추가 이만큼, 돼지 안심이 있으니
전부 합치면 이만큼이다, 라고 할 수 있는
단계와 그리 멀지 않은 것 같아요. 어떤 면에서 시스템이 이런 것들을 잘 못하는 이유는
우리가 아직 그런 것들에 대해
추론할 수 있는 시스템을 만들려고 시도해보지 않았기 때문이에요.
해나 프라이: 이제 메모리에 대해 좀 더 이야기해보고 싶은데요.
시스템이 기억하고 마음속에 저장하는 것들에 대해 말씀하셨는데,
의인화를 용서하신다면,
구글 I/O에서 이 시스템이 지난 45초 동안 일어난 일을 기억할 수 있다고 했잖아요.
이제는 그 시간을 늘리셨다고 들었어요.
지금은 10분까지 가능하다고요?
이제 10분이 가능한 거죠?
그레그 웨인: 네, 약 10분 정도예요.
사실 어떤 면에서는 좀 더 길기도 한데,
10분이 적절한 수준이라고 봐야 할 것 같아요.
해나 프라이: 왜 10분이 한계인가요?
그레그 웨인: 네,
기본적으로 지난 10분 동안의 영상에 대한 원본 기록을 가지고 있어요
영상 데이터를요.
초당 한 프레임 정도로 작동하고,
시간 순서대로 모든 프레임들의 스택을 가지고 있으며
그 프레임들 사이에 들어온 모든 오디오도 포함돼 있어요.
대략 600프레임 정도가 되겠네요.
한계는 실제로 칩의 메모리 때문이라고 생각해요.
지난 10년 정도를 보면
이런 종류의 빠른 활성 메모리는
크게 확장되지 않았거든요.
해나 프라이: 그럼 현재로서는
일종의 비디오 레코더처럼 작동하고 있다는 거군요.
지난 10분 동안 일어난 모든 일의
실제 기록을 보관하고 있는 거죠.
그레그 웨인: 네.
네, 매우 활발하게 작동하고 있어요.
그 정보를 바로 사용할 수 있죠.
또 일종의 보조 시스템이 있는데,
시스템을 끄면
그 대화를 요약하고 관련된 사실들을 추출해서
저장합니다.
해나 프라이: 가장 중요한 부분들을요.
그레그 웨인: 네.
시스템이 스스로 판단해서 중요한 것을 결정하죠.
해나 프라이: 말하자면 핵심을 추출하는 거군요.
그레그 웨인: 네.
해나 프라이: 하지만 현재로서는, 최근 상호작용에서
중요한 것들을 기억할 수 있다는 말씀이신가요?
그레그 웨인: 네.
일종의 이중 메모리 시스템을 가지고 있어요.
한 쪽은 당신이라는 사람에 대한 메모리예요.
당신에 대한 이해가 점점 발전하고 있는 거죠.
마치 '아, 이 사람은 아이스크림을 좋아하는구나'
초콜릿 아이스크림이구나, 하는 식으로요.
이렇게 당신에 대해 발견한 것들의 목록이 될 거예요.
그리고 이것은 매 세션마다 실제로 업데이트됩니다.
만약 당신이 '알다시피, 사실 나는
이제 아이스크림을 좋아하지 않게 됐어.
나는 케이크를 정말 좋아해.
내가 아이스크림 좋아했던 걸 잊어줘.'라고 하면
그러면 시스템은 '사용자가 더 이상 아이스크림을 좋아하지 않고,
케이크를 좋아한다'고 기록합니다.
이러한 정보들은 일종의 고정된
당신이 누구인지, 또는 무엇을 좋아하는지에 대한 이해라고 할 수 있죠.
당신의 선호도입니다.
또한 대화 요약도 있는데
'화요일 8시 50분에 우리가 이 체스 게임에 대해 이야기했다'와 같은
식으로 기록됩니다.
한나 프라이: 그럼 어떤 내용이 어디에 들어갈지는 어떻게 결정하나요?
어떤 것이 충분히 중요해서
기억해야 할 정보인지 어떻게 판단하나요?
그렉 웨인: 휴리스틱을 사용합니다.
이 시스템들은 실제로 휴리스틱이 주어져 있어요.
휴리스틱이란 기본적으로
무엇을 기억할지에 대한 경험적 규칙입니다.
사용하는 휴리스틱 중 하나는, 우리가 시스템에게 지시한 건데,
만약 당신이 뭔가를 기억해달라고 요청하면
반드시 그것을 기억해야 합니다.
아주 명확한 규칙이죠.
예를 들어 제가 '내 도어 코드를 기억해줘'라고 하면,
시스템은 그걸 기억할 거예요. 왜냐하면
그게 관련된 지시사항이라는 걸 이해하니까요.
그 외에는 최선의 추측을 합니다.
시스템은 이렇게 판단하죠--
사용자가 흥미로운 선호도를 표현했는지,
또는 이전에 표현한 것과 다른
선호도를 표현했는지 확인합니다.
그리고 그에 따라 업데이트를 하게 됩니다.
한나 프라이: 그렇다면
개인정보 보호 문제에 대해 이야기해볼까요.
이러한 개인정보 보호 문제를 어떻게 해결하시나요?
그렉 웨인: 네.
주요 기준 중 하나는 동의의 원칙입니다.
사용자들은 자신의 이전 기록된 데이터에 접근할 수 있습니다.
그리고 그것을 삭제하거나 저장된 내용을 볼 수 있죠.
뭔가를 삭제할 때마다,
시스템은 당신에 대한 전체 지식을 재구성합니다.
한나 프라이: 오.
그렉 웨인: 당신에 대해 알고 있는 것을
새롭게 요약하는 전체 과정을 거칩니다.
한나 프라이: 그렇다면
결국 사용자가 시스템이 자신에 대해 알고 있는 것을
어느 정도 통제할 수 있다는 거네요.
그렉 웨인: 네, 맞습니다.
한나 프라이: 실은 이 팟캐스트에서 몇 회 전에
딥마인드의 윤리학자인 이아손 가브리엘과 이야기를 나눴어요.
그는 정말 대단한 사람이에요.
그는 AI 어시스턴트의 윤리와
이런 어려운 문제들을 고려해
어떻게 형성되어야 하는지에 대해 설명했어요.
그의 연구가 아스트라 개발에
얼마나 영향을 미쳤나요?
그렉 웨인: 그의 243페이지 보고서를 아스트라에 입력했죠.
그러자 아스트라가 '알겠어요'라고 했어요.
한나 프라이: 정말요?
그렉 웨인: 아니요, 농담이에요.
한나 프라이: 아, 그랬다면 정말--
그렉 웨인: [웃음] 네,
우리는 이아손과 많은 대화를 나눴습니다.
그리고 그가 속한 팀과 많은 작업을 했죠.
그들은 모델과 에이전트 전체를 조사하면서
다양한 상황에서 어떻게 작동할지
탐구했고, 또한 외부
레드팀들과도 협력했습니다
어쩌면 선입견이 적고
시스템에 대해 더 다양한 종류의 적대적 공격을 시도할 수 있는
사람들과 함께 작업하고 있습니다.
우리는 또한 안전 필터 레이어를 가지고 있습니다.
이는 사용자 피해를 방지하기 위한 것으로, 예를 들어
특정한 말을 하거나 음란물을 보여주면
이러한 필터가 작동하여
응답하지 않게 됩니다.
자체 발화에도 필터가 작동하여
특정 내용을 말할 수 없게 되는데, 이는 사실
매우 드물게 발생합니다.
하지만 글쎄요.
네, 다뤄야 할 문제의 범위가 꽤 광범위합니다.
다행히도 이러한 문제들을 해결할 시간이 아직 있습니다.
한나 프라이: 알겠습니다.
그렇다면 앞으로의 우선순위는 무엇인가요?
앞으로 몇 달 동안 주로
어떤 작업을 하실 계획인가요?
그렉 웨인: 저는 특히
선제적 비디오 작업이라는 것에 매우 관심이 있습니다.
이는 단순히 대화에 응답하는 것뿐만 아니라
지속적으로 도움을 줄 수 있는
시스템을 말합니다.
예를 들어, 시각장애인을 위한
시각 통역 문제의 일부입니다.
걸어다닐 때 시야가 없다면
저기 테이블이 있으니 조심하라고 알려줄 수 있죠.
지속적인 안내가 가능합니다.
또한 더 많은 오디오 출력 작업을 하고 있는데,
풀 듀플렉스라고 합니다.
이는 동시에 처리하는 것으로--
듣고 말하는 것을 동시에 할 수 있는데,
이게 좀 성가실 수도 있죠.
말을 끊을 수도 있으니까요.
하지만 이게 더 자연스러운 대화방식이에요.
당신이 말할 때 제가 '음, 음' 하고
맞장구를 치는 것처럼 말이죠.
이것도 언어의 일부니까요.
말씀하신 대로 추론, 더 깊은 종류의 기억,
특정 종류의 성찰도 더 필요합니다.
도구를 사용해서 더 깊이 있는 조사와
연구를 할 수 있게 하는 것까지,
개선할 것이 정말 많죠.
한나 프라이: 그렉님, 함께 해주셔서 감사합니다.
그렉 웨인: 감사합니다, 한나.
한나 프라이: AI에 대한 우리의 기대치가 얼마나 빠르게 변하는지 놀랍습니다.
여러분,
지난 에피소드에서
오리올이 한 말을 기억하시나요?
5년 전에 누군가가 이런 것들이 가능하다고 했다면,
우리가 이미 AGI로 가는 길에
있다고 생각했을 거라고 했죠.
그리고 이제 우리는 이 멀티모달 에이전트의 프로토타입을 가지고 있습니다.
보고, 듣고,
기억력과 맥락, 추론 능력을 가지고
다국어로 실시간 대화가 가능한 시스템이죠.
이론적으로는 일상생활에서 당신과 함께하면서
지식을 향상시키고,
장애인을 지원하고,
우리의 능력을 확장시켜주는 에이전트입니다.
물론, 이것이 AGI는 아닙니다.
하지만 확실히 2년 전에 우리가 이야기했던
시스템들과 비교하면
상당한 도약을 이룬 것 같습니다.
구글 딥마인드 팟캐스트 시리즈에
함께해
주셔서 감사합니다.
여기서 잠시 휴식을 취하려고 하는데,
이전 에피소드를 다시 보고 싶으시다면,
우리 백 카탈로그에 정말 흥미진진한
AI 대화의 즐거움이 가득하니
즐겨보세요.
유튜브나 여러분이 즐겨 사용하는 팟캐스트 플랫폼에서
[음악]