AI 코드 품질 현황: 과장된 기대와 현실

채널 아이콘
AI Engineer 구독자 99,800명

요약

Itamar Friedman 코도(Qodo) 공동창업자는 AI로 생성된 코드가 대규모 생산성을 주지만 품질 관리 없이는 서비스 장애와 보안 사고 위험이 커진다고 설명합니다. 발표에서는 주요 리포트 데이터를 통해 개발자들의 AI 도구 활용 현황, 프로덕티비티와 품질 간의 ‘유리천장’, 그리고 이를 타파할 수 있는 에이전트 기반 워크플로와 맥락 제공의 중요성을 강조합니다. 최종적으로 자동화된 품질 게이트, AI 코드 리뷰, 테스트, 맥락 엔진 도입으로 AI 시대에도 안정적이고 신뢰할 수 있는 소프트웨어 개발 프로세스를 구축해야 한다고 제안합니다.

주요 키워드

code generation agentic workflows glass ceiling quality gateways context engine AI code review SDLC productivity boost security incidents AI adoption

하이라이트

  • 🔑 AI 생성 코드는 개발 속도를 3배로 높이지만, 67% 개발자는 품질 문제가 심각하다고 우려합니다.
  • ⚡️ 60% 개발자는 코드의 25%가 AI로 생성·수정되며, 15%는 80% 이상이 AI 영향을 받는다고 답했습니다.
  • 📌 코드 생성에는 '유리천장(glass ceiling)'이 존재하며, 에이전트 기반(gen 2.0) 워크플로가 이를 돌파하는 열쇠입니다.
  • 🌟 AI 코드 리뷰 도구를 도입하면 신뢰도가 2배로 증가하고, PR 당 17% 고위험 이슈를 사전 탐지할 수 있습니다.
  • 🚀 82~92% 조직이 주간 단위로 AI 개발 도구를 사용하며, 20%는 5개 이상 툴을 병행해 활용합니다.
  • 🛡️ AI로 생성된 코드 증가로 보안 사고가 3배 늘어나는 상관관계를 관찰했습니다.
  • 📈 컨텍스트 엔진을 도입해 LLM에 코드·버전·로그·표준 정보를 제공하면, 60% 호출이 맥락 확보를 위해 쓰입니다.
  • 📌 자동화된 품질 게이트 설정을 통해 테스트 커버리지·보안 기준 미충족 PR을 차단하고 워크플로를 표준화할 수 있습니다.

용어 설명

glass ceiling

AI 코드 생성의 생산성 증가가 더 이상 확대되지 않는 한계 지점

agentic workflows

여러 AI 에이전트를 활용해 SDLC 전반을 자동화·검증하는 작업 흐름

context engine

버전, PR 이력, 조직 로그, 코드 표준 등을 LLM에 공급해 정확도를 높이는 시스템

quality gateways

PR, 테스트, 배포 단계에 자동으로 작동하는 품질 검증 통제점

AI code review

AI 모델을 이용해 코드 리뷰 기준(테스트 커버리지·표준·보안 등)을 자동 검사하는 도구

[00:00:20] 발표 소개 및 주제 설명

Itamar Friedman이 Qodo(품질 중심 개발) CEO로 자신과 회사 소개, ‘AI 코드 품질 현황: 과장된 기대 vs 현실’ 주제를 소개합니다.

Qodo CEO 이타마르 프리드만이 AI 코드 품질에 대한 현실을 공유하며, 과대광고와 실제 상황의 차이에 대해 설명합니다.
최근 3-4주간 발생한 클라우드 장애 사례를 언급하며, 빠른 개발을 추구하면서도 품질을 중시한다는 회사들의 모순된 상황을 지적합니다.
[00:00:50] 클라우드 장애와 AI 생성 코드의 상관성

지난 몇 주간 주요 클라우드 서비스 장애 사례를 거론하며, 코드 10~50%를 AI로 생성하는 조직에서도 품질 문제가 여전히 발생하는 원인을 짚습니다.

타임라인 정보가 없습니다.

[00:01:15] 개발자의 AI 도구 활용 현황

60% 개발자가 코드의 25%를, 15%가 80% 이상을 AI로 생성·수정한다고 답한 통계를 공유하며 AI 도입 속도를 보여줍니다.

개발자의 60%가 코드의 25%를 AI로 생성하고, 15%는 80% 이상을 AI로 생성한다는 통계를 제시하며, 감정적 코딩과 리뷰의 문제점을 다룹니다.
Claude 보안 검토 프롬프트의 실제 사례를 들며, 서비스 거부 공격을 제외하라는 지시가 클라우드 장애와 연관될 수 있음을 시사합니다.
[00:02:26] 코드 생성과 규칙 준수 실태

Copilot·Cursor 등 도구를 도입해도 규칙 준수율이 완전하지 않고, 품질 기대치에 도달하지 못하는 이유를 개발자 설문 결과로 설명합니다.

커서나 코파일럿 같은 도구의 규칙 준수율을 조사한 결과, 대부분의 개발자들이 규칙이 완전히 따라지지 않는다고 응답했음을 공유합니다.
AI 코드 생성의 현실적 한계에 대한 문제점을 지적하며, Qodo, Sonar 등 세 개의 주요 보고서를 통해 수천 명의 개발자와 수십억 줄의 코드 분석 결과를 제시하겠다고 소개합니다.
[00:03:21] 주요 리포트 기반 AI 품질 분석

Qodo·Sonar·Far 등 대규모 개발자·PR·코드라인 통계를 바탕으로 AI 시대의 코드 품질 지표, 검사 범위, 스케일 이슈를 세 부분으로 나눠 조명합니다.

Sonar 같은 회사들이 AI 이전 시대부터 대규모 코드 검사를 수행해왔으며, AI 중심이 아닌 전방위적 소프트웨어 검사를 통해 엄청난 규모의 코드를 분석하고 있다고 설명합니다.
코드 품질의 다양한 차원을 분석하고 통계를 공유하며, 핵심 메시지로서 AI 코드 생성의 발전 단계를 제시합니다.
[00:04:30] 유리천장과 세대별 코드 생성

일반 코드 자동완성부터 규칙 기반 1.0, 에이전트 기반 2.0으로 발전하며 생산성은 높지만 품질 관리 없이는 한계가 있다는 핵심 테이크어웨이를 제시합니다.

1단계 기본 코드 생성과 자동완성에서 시작하여, 2단계 에이전트 코드 생성(Gen 2.0)으로 발전하면서 더 높은 생산성을 달성할 수 있지만 여전히 한계가 있다고 설명합니다.
AI가 IDE를 벗어나 에이전트 품질 워크플로에 활용되면서, 특히 100명 이상의 개발자 조직에서 품질 관련 워크플로 자동화를 통해 생산성 한계를 깨뜨릴 수 있다고 주장합니다.
에이전트 워크플로가 지속적으로 학습하고 품질 기준이 동적으로 유지되어야만 진정한 생산성 향상을 달성할 수 있으며, 현재 과장된 10배 성과가 아닌 현실적인 2배 성과도 어려운 상황이라고 평가합니다.
[00:06:11] 시장 도입 및 도구 사용 빈도

82~92% 조직이 주간 단위로 AI 개발 도구를 활용하고, 20%는 5개 이상 툴을 병행 중인 현황과 3배 생산성 향상 케이스를 공유합니다.

시장 채택률 관련 통계로, AI 개발 도구의 채택률이 이미 82%에 달하며 매일 또는 매주 사용되고 있다는 데이터를 제시합니다.
AI 개발 툴 사용 현황에 대한 통계를 발표합니다. 60%의 개발자가 3개 이상의 코드 생성 툴을 사용하고, 20%는 5개 이상을 사용한다고 보고했습니다.
Cursor, Copilot, Codex, Cloud Code 등 다양한 코드 생성 툴들이 존재하며, 향후 2-3년 안에 10가지 정도의 툴이 등장할 것으로 예상한다고 전망합니다.
AI 코드 생성 도구 채택이 10명 미만 소규모 팀에서 시작되어 점차 기업 규모로 확산되고 있습니다. 작년부터 더 많은 기업들이 대규모로 코드 생성을 활용하고 있습니다.
보고서에 따르면 82-92%의 개발자가 주간 또는 월간으로 코드 생성 툴을 사용하며, 코드 작성에서 3배의 생산성 증가를 경험했다고 합니다.
생산성 향상에도 불구하고 품질에 대한 우려가 존재합니다. 67%의 개발자가 AI 생성 코드의 품질에 대해 심각한 우려를 표하며, 품질 측정 및 관리 프레임워크가 부족하다고 지적합니다.
[00:08:02] AI 생성 코드의 품질 부담

생산성 향상에 비례해 PR 리뷰 시간 90% 증가, 보안 사고 3배 발생, 개발 시간 42% 지연 등 관리 부담이 커진 통계 수치를 발표합니다.

AI 코딩으로 인한 현실적 문제점들을 제시합니다. 20% 더 많은 작업과 97% 더 많은 PR 생성으로 인해 리뷰 시간이 90% 증가했고, 코드 한 줄당 버그 수는 줄지 않아 전체적으로 더 많은 버그가 발생하고 있습니다.
에이전트 시대의 극적인 변화를 설명합니다. Cloud Code 5분 호출로 1,000줄 코드가 생성되는 현실과 과거 10줄 작성에 몇 시간 걸리던 시대를 대비시키며, 코드 생성 기술의 놀라운 발전을 강조합니다.
AI 코드 생성이 그린필드 프로젝트에서는 게임 체인저 역할을 하며, 개념증명과 프로젝트 진행 방식을 혁신적으로 바꿨다고 설명합니다.
본격적인 소프트웨어 개발에서는 수백만 클라이언트 서비스, 금융거래, 운송업무 등에서 코드 무결성, 거버넌스, 리뷰 표준, 테스팅, 신뢰성을 고려해야 한다고 강조합니다.
[00:09:54] 품질 차원 분류: SDLC·비기능·절차

품질 문제를 SDLC 단계(기획·개발·리뷰·테스트·배포)와 코드·비기능(보안·성능)·프로세스(책임·검증) 레벨로 구분해 분석합니다.

소프트웨어 개발 생명주기 전반의 품질 이슈를 계획, 개발, 코드 작성, 리뷰, 테스팅, 배포 단계로 나누어 설명하며, AI 생성 코드 사용 증가로 각 단계에서 새로운 문제들이 발생한다고 분석합니다.
코드 레벨 문제(보안, 효율성 등 비기능적 요소)와 프로세스 레벨 문제(학습, 책임 소재, 검증, 가드레일, 표준 등)로 이슈를 분류하여 체계적으로 접근합니다.
수천 명 개발자 대상 조사 결과, 42%가 개발 시간의 42%를 더 많이 이슈 해결과 버그 수정에 소비하고 있으며, 35%의 프로젝트 지연을 경험했다는 실증 데이터를 제시합니다.
보고서에 따르면 보안 사고가 3배 증가했는데, 이는 코드 작성량이 3배 증가한 것과 연관성이 있어 당연한 결과라고 분석합니다.
코드의 양이 3배 증가해도 보안 사고는 같은 비율로 발생하는 문제점을 해결하기 위한 방안들을 제시합니다.
[00:12:33] 해결책 제안: 테스트·코드 리뷰·맥락

AI 테스트로 코드 신뢰도 2배 향상 사례, AI 코드 리뷰로 생산성 47% 개선, ‘맥락’ 제공이 80% 개발자 신뢰를 높이는 핵심임을 강조합니다.

테스팅을 AI와 함께 활용하면 AI 생성 코드에 대한 신뢰도가 두 배로 증가한다는 설문 결과를 소개합니다.
코드 리뷰가 프로세스와 코드 레벨의 모든 이슈를 해결하는 핵심 도구이며, AI 코드 리뷰 도구 사용자들이 품질 향상과 생산성 개선을 경험한다고 설명합니다.
월 100만 개의 PR을 스캔한 결과 17%가 높은 심각도 이슈를 포함하고 있다는 자사 AI 코드 리뷰 도구의 통계를 공유합니다.
AI 도구의 품질 향상을 위해서는 올바른 컨텍스트 제공이 핵심이며, 개발자들이 LLM의 컨텍스트를 신뢰하지 않는 경우가 80%라는 조사 결과를 언급합니다.
개발자들이 AI 도구 개선 요소로 컨텍스트를 1위(33%)로 선택했으며, Qodo의 컨텍스트 엔진이 코드 생성 및 리뷰 도구 호출의 60%에서 활용되고 있다고 소개합니다.
컨텍스트 MCP의 개념을 설명하며, 코드뿐만 아니라 표준과 모범 사례도 포함할 수 있다고 설명합니다. AI 코드 리뷰에서 8%의 컨텍스트 사용이 표준 관련 파일에서 나온다는 데이터를 제시합니다.
Qodo CEO로서 자사의 컨텍스트 엔진이 젠슨의 GTC 키노트에서 소개되었다고 자랑합니다. Nvidia가 코드 리뷰나 테스팅 기능보다 컨텍스트 엔진에 주목한 이유를 설명합니다.
AI 품질과 생성된 코드의 리뷰, 테스팅은 적절한 컨텍스트를 가져오는 데서 나온다고 강조합니다. 컨텍스트는 코드, 버전 관리, PR 히스토리, 조직 로그 등을 포함해야 하며 단순한 코드베이스 브랜치를 넘어선다고 설명합니다.
추천사항으로 자동화된 품질 게이트웨이에 투자하라고 제안합니다. 병렬 에이전트와 백그라운드 에이전트를 활용해 품질 게이트를 구축하고, 지능적인 코드 리뷰와 테스팅, 살아있는 문서화가 필요하다고 강조합니다.
[00:16:48] 병렬 에이전트 기반 미래 개발 모델

사양·코드·테스트·맥락 엔진을 에이전트가 병렬 처리해 자동화하고, 안전한 샌드박스에서 품질 검증을 실행하는 차세대 개발 흐름을 제시합니다.

3년간 사용해온 슬라이드로 소프트웨어 개발의 미래 비전을 제시합니다. 명세서와 코드를 중심으로 한 병렬 에이전트들이 명세 개선, 코드 작성, 테스트 생성 등을 도와주는 시스템을 설명합니다.
컨텍스트 엔진과 소프트웨어 개발 데이터베이스를 중심으로 MCP 기반의 품질 및 검증 도구들을 구축하고, 안정적이고 보안이 확보된 환경에서 에이전트들이 검증과 품질 워크플로를 실행할 수 있도록 해야 한다고 설명합니다.
품질이 경쟁 우위의 핵심이며, AI는 솔루션이 아닌 도구라고 강조합니다. 코드 생성만이 아닌 전체 SDLC나 제품 개발 생명주기 관점에서 접근해야 한다고 조언합니다.
AI 도구를 통해 얻을 수 있는 가치에 대해 설명하며, 보안성 향상, 빠른 코드 리뷰, 테스트 커버리지 3배 증가 등의 구체적인 성과를 제시합니다.
[00:18:38] 최종 권고사항 및 결론

자동화된 품질 게이트 투자, 지능형 리뷰·테스트, 지속적 문서·맥락 관리를 통해 AI 시대에도 2배 생산성·10배 품질 이점을 실현해야 한다고 제언합니다.

Qodo의 실제 기능을 시연하며, 사용자 정의 규칙 설정과 자동화된 코드 품질 관리 시스템에 대해 설명합니다. 중첩된 if문 방지 예시를 통해 구체적인 활용법을 보여줍니다.
PR 작성 시 코드 품질 검증 과정을 설명하며, Qodo가 어떻게 규칙 위반을 감지하고 좋은/나쁜 예시를 바탕으로 제안을 제공하는지 보여줍니다.
Qodo의 고급 기능들을 소개합니다. 그래프 생성, CLI 체크, 사용자 피드백 학습을 통한 표준 적응, 자동화된 제안 시스템 등을 포함합니다.
[음악]
여기 와서 정말 기쁩니다. 너무나 많은
실용적인 통찰과 제안들이 있었습니다.
방금 전까지 거기 앉아 있었거든요.
저는 이타마르 프리드만입니다.
Qodo의 CEO이자 공동 창립자입니다. Qodo는
Quality of Development의 줄임말이고요,
AI 코드 품질의 현황에 대한 저희와
다른 회사들의 보고서를 공유하려 합니다.
과대광고 대 현실에 대해 말씀드리려 하는데
이는 여기서 꽤 많이
논의되었던 포인트 중 하나입니다.
정말 훌륭했고요.
지난 3-4주 동안
클라우드에서 3번의 장애를
안타깝게도 목격했습니다.
이들은 정말로 빠른 개발을
중시하는 회사들입니다. 그들 스스로
AI를 사용해
코드를 10%, 30%, 50% 생성한다고
말하면서, 동시에 품질을 중시한다고 합니다.
그런데 어떻게 이런 일이 일어났을까요?
관련이 있을까요? 모르겠습니다.
하지만 몇 가지 추측을
공유해보겠습니다.
참고로 개발자의 60%가
자신의 코드 중 4분의 1이
AI에 의해 생성되거나
AI의 영향을 받았다고 말하며, 15%는
80% 이상의 코드가
기본적으로 AI에 의해 생성되거나 영향받았다고 합니다.
사람들은 AI를 사용해 감정적 코딩을 하고 있지만
실제로는 감정적 체크, 감정적 리뷰까지
하고 있습니다.
이것은 Claude의 명령어입니다.
보안 검토를 위한 Claude 코드의
프롬프트입니다. 2달 전에
화제가 되었죠. 제가 무슨 말 하는지
아시겠죠? 거기 보시면
잘 보이는지 모르겠지만
'당신은 시니어 보안 엔지니어입니다'라고 되어 있고
그 아래 어디선가
'서비스 거부 공격은 제외해 주세요.
서비스 거부 이슈는
잡지 말아주세요'라고 되어 있습니다. 아마도 그것이
클라우드 장애가 발생하는 이유 중
일부일 수도 있습니다. 아마 그것만은 아니겠지만
요점은 이해하셨을 겁니다. 우리는
품질을 다루는 방법에 대해 엄격해야 합니다.
단순히 감정적 품질이나
감정적 코딩을 하는 것이 아니라
때로는 말이죠. 다른
예를 들어보겠습니다. 커서나
파일럿을 대부분 사용하시죠?
규칙에 대해 얘기해보겠습니다. 여러분은
코드 생성에 투자합니다. 시간이 지나면
투자하면 더 많은 것을
얻을 수 있다는 것을 이해하게 됩니다. 그리고 저희는
많은 개발자들에게 물었고 여러분께도
묻고 싶습니다. 잠깐 생각해보세요.
청중의 모든 개발자들을 위해
커서 규칙이나
코파일럿 규칙 등을 작성할 때
완전히 따라지고 있다고 느끼시나요? 아니면 대부분
따라지고 있다고 느끼시나요? 얼마나
따라지는지 아시나요? 어느 정도까지
따라지는지요? 얼마나 엄밀하게
기술적으로 깊이
따라지고 있는지요. 저희가 받은 답변은
여기 화면에서 보시는 것처럼
주로 B, C, D입니다.
따라지고는 있지만 완전히
따라지지는 않습니다. 즉, 우리는
코드를 생성하여 기준에 맞추려고 노력하지만 반드시
그 기준까지는 도달하지 못한다는 의미입니다.
여전히 우리가 원하는 품질에
도달하지 못하고 있습니다. 이제 좀 더
통계와 정보, 그리고
세 개의 보고서에서 얻은 인사이트를 공유하겠습니다. 하나는
Qodo에서 수행한 것이고, 다른 하나는 Sonar에서,
또 하나는 다른 회사에서 진행했습니다. 모두
코드 품질 리뷰 등에 초점을 맞춘 연구입니다.
표본 크기는 수천 명의 개발자이며
경우에 따라서는 수백만 개의
풀 리퀘스트와 수십억 줄의
코드가 검토되었습니다.
예를 들어, Sonar를 생각해보면
이 회사는 AI 이전 시대부터
시작되었지만, 대규모로 코드를 보고 있고
AI에 특화되지 않았지만
많은 코드 검사를 수행하고 있습니다.
이는 AI 중심적이지 않지만
소프트웨어를 모든 가능한
방향에서 검사하는 데 필요합니다.
그래서 그들의 확장성과
그들이 보고 있는 코드의 규모가
엄청납니다.
예를 들어, 우리는 그들의
보고서에서 정보를 가져왔고
최종적으로 여기서 제 목적은
코드 품질의 의미를 다양한
차원으로 분석하고 몇 가지
통계와 인사이트를 공유하는 것입니다.
결론부터 시작하겠습니다. 이것이
앞으로 13분 동안 여러분이
가져가셨으면 하는 핵심 내용입니다.
우리는 코드 생성부터 시작했습니다.
기본적으로 자동완성 등을
사용하고 투자하면 더 많은
성과를 얻을 수 있습니다. 하지만
코드 생성에서 얻을 수 있는
생산성에는 한계가 있습니다.
그다음 에이전트 코드 생성으로
이동합니다. 이를 Gen 2.0이라고
부르겠습니다. 이는 더 높은
한계를 가지고 있습니다. 훨씬 더
높은 생산성을 달성할 수 있고
특히 규칙 등에 투자한다면 말입니다.
그리고 AI가 IDE 밖으로 확장되면서
AI를 코드와 에이전트 품질 워크플로에도
사용할 수 있게 됩니다. IDE 내부에서도
가능하지만, 사실은
조직 내 모든 워크플로를
생각해보면, 특히 100명 이상의
개발자가 있다면
품질과 관련된 많은 워크플로를
자동화해야 할 것입니다.
그리고 그때 생산성의
유리천장을 깨뜨리기 시작합니다.
투자한다면 말입니다.
마지막으로, 이러한 에이전트
워크플로가 지속적으로 학습해야 한다고
주장합니다. 이에 대해서는
나중에 조금 더 다뤄보겠습니다.
왜냐하면 품질은 동적인 것이기
때문입니다. 따라서 품질 워크플로와
규칙, 표준이 동적으로 유지되어야만
진정으로 유리천장을
깨뜨릴 수 있습니다.
그러면 약속된 2배, 심지어는
과장 광고된 10배의 성과를
보게 될 것입니다. McKinsey나
Stanford에서 들었던 것처럼
그런 성과를 얻지 못하고 있다는 것은
제가 굳이 말씀드리지 않아도
아실 것입니다. 전체 소프트웨어
개발 라이프사이클에서 2배, 10배 성과는
시장 채택률에 대해 조금 더
말씀드리자면, 보고서 중 하나에 따르면 AI 개발 도구의 채택률이 이미 82%에
달하며 매일 또는 매주 사용되고 있습니다
일부 사람들은 60%, 59%가 보고하기를
3개 이상을 사용하고 있다고 하고, 20%는
5개 이상의 코드 생성 툴을 사용한다고 답했습니다.
잠깐 생각해보세요.
단순히 Cursor, Copilot, Codex,
Cloud Code 등만 생각하지 마세요.
만약 제가 누군가의 툴을 빼먹어서
기분 상하셨다면 죄송합니다만,
Lovable 같은 것들도 있죠. 이것들도
코드를 생성합니다. 그리고 말씀드리건대,
10개까지 늘어날 거예요. 저를 믿으세요.
2-3년 안에 코드를 생성해주는
10가지 툴이 생길 겁니다. 좋아요,
나중에 와서 얘기해보세요.
설득해드리겠습니다. 그리고 중요한 것은
이것이 아래에서부터 올라오고 있다는 거예요.
사용량의 50%가 10명 미만의
개발자로 구성된 팀에서 나오고 있지만,
기업으로도 전파되고 있습니다.
여러분도 아시겠지만, 저는
기업으로 전파되고 있다고 말씀드렸는데,
단순히 5명의 개발자 수준이 아니라
대규모로 말이죠. 작년에 우리는
점점 더 많은 기업들이 코드
생성을 사용하는 것을 보고 있습니다.
보고서 내에서 평균적으로 82%에서 92%가
주간 또는 월간으로 코드
생성 툴을 사용한다고 나타났습니다.
경우에 따라서는 극단적일 수도,
아닐 수도 있습니다. 이에 대해 얘기해볼 텐데요.
코드 작성에서 3배의 생산성 증가를 봤습니다.
좋아요, 하지만 코드 작성에서
3배의 생산성을 가진다고 해서
실제로 품질이 보장되는 것은 아닙니다.
앞서 제가 발표한 바와 같이요.
실제로 우리가 물어본 개발자의 67%가
모든 AI 생성 코드에 대해
심각한 품질 우려를 가지고 있습니다.
AI에 의해 생성되거나 영향을 받은 코드에 대해서요.
그들은 품질을 다루는 방법,
품질을 측정하는 방법에 대한
프레임워크가 부족하다고 주장합니다.
이것은 큰 질문입니다.
품질이란 무엇일까요? 다음 몇 슬라이드에서
이에 대해 얘기해보겠습니다. 좋아요,
제가 세부적으로 나누기 전에 잠깐 생각해보세요.
품질이란 무엇일까요?
실제로 우리가 말하는 것은 실행 가능한
코딩에서의 위기가 변화하고
진화하고 있다는 것입니다.
더 많은 작업이 완료되고 있어요. 일부 보고에서는
20% 더 많은 작업, 즉 속도가 향상되고
97% 정도 더 많은 PR이 열리고 있다고 합니다.
결국 PR을 리뷰하는 데
더 많은 시간이 걸립니다. PR 리뷰에 90% 더 많은 시간이 걸리죠.
그런데 AI가 코드를 생성하는 것에 대한
많은 통계가 있지만,
적어도 코드 한 줄당 버그의 양이 줄어들지는 않았습니다.
더 많다고 주장하는 것은 아니지만,
코드 한 줄당 버그가 줄어들지 않는다면
훨씬 더 많은 버그가 있다는 뜻입니다.
왜냐하면 훨씬 더 많은 PR이,
훨씬 더 많은 코드가 생성되고 있으니까요.
맞죠? 그래서 이것이 리뷰어에게는 문제가 됩니다.
그래서 누군가에게는 놀라운 일이겠지만
이런 것들을 리뷰하는 데 더 많은 시간이 걸립니다.
특히 에이전트 시대에는 더욱 그렇죠.
Cloud Code를 5분 호출하면
5분 후에 1,000줄의 코드가 나옵니다.
예전에는 제대로 된 10줄의 코드를
쓰는 데 몇 시간이 걸렸는데 말이죠.
이제 잠시 한 발 물러서서 봅시다.
코드 생성은 놀라운 기술입니다. 정말로요.
그린 필드 프로젝트에 대해 이야기할 때는 게임 체인저죠.
몇 분 전에 다른 발표자들이
몇 슬라이드에서 이야기한 걸 보셨을 거예요.
이 기술은 우리가 개념증명이나
프로젝트를 진행하는 방식을 혁신적으로 바꿨습니다.
하지만 본격적인 소프트웨어를
다룰 때는 좋든 싫든
많은 것들을 고려해야 합니다.
수백만 명의 클라이언트에게 서비스할 때,
금융 거래가 있을 때,
운송 업무를 할 때는
코드 무결성을 다뤄야 합니다.
코드 거버넌스, 리뷰 표준,
테스팅, 신뢰성 등을 말이죠.
이런 것들이 우리가
다뤄야 할 문제들입니다.
이제 빙산의 수면 아래 부분을
두 가지 차원으로 나눠보겠습니다.
첫 번째 차원은 소프트웨어 개발
생명주기 전반에 걸친
품질 이슈들을 살펴보는 것입니다.
계획부터 개발, 코드 작성,
코드 리뷰까지 말이죠. 코드 리뷰는
좀 복잡한 프로세스이지만 품질을
체크하는 것이 코드 리뷰 과정의
일부입니다. 테스팅 역시
품질의 또 다른 부분이고
배포까지 포함됩니다. 물론 전체
소프트웨어 개발 생명주기를
다 다루지는 않았지만 예시로
보여드린 거고, 이 각각이
AI가 생성한 코드를 점점 더 많이
사용하면서 발생하는 새로운 문제들을
야기합니다. 또 다른 차원으로는
코드 레벨 문제와
프로세스 레벨 문제로 보는 것입니다.
기능적 목록은 열지 않고
비기능적 목록만 열어보겠습니다.
보안과 효율성 같은 것들은
반드시 기능적 사용과 관련된 건
아닙니다. 이에 대한 통계를
보여드리겠습니다. 그리고 프로세스
레벨은 예를 들어 학습입니다.
AI가 생성한 코드 때문에 심각한 장애가
발생했을 때, 누가 책임을 져야 할까요?
AI일까요, 아니면 그 팀일까요?
결국에는 코드를 학습하고
소유해야 합니다.
이것은 반드시 이뤄져야 하는
프로세스입니다. 검증, 가드레일 이식,
표준 등 모든 이런 문제들이
수천 명의 개발자에게
도입될 때 우리가 그들에게
물어본 것은 'AI가 실제로
이런 문제들을 줄이는 데 도움이 됐다고
생각하시나요, 아니면 오히려
더 어려워졌나요?'였습니다. 42%의 사람들이
개발 시간의 42%를 더 많이
이슈 해결이나 버그 수정 등에
소비한다고 답했고, 35%의 프로젝트
지연을 경험했다고 했습니다.
우리가 말하는 건 게임이 아니라
실제 지연에 대한 이야기입니다.
물론 약간의 편향은 있습니다.
우리가 품질 문제와 그 영향에 대해
이야기했으니까요. 하지만 이것이
그들이 AI 생성 코드를 대량으로
사용할 때에 대해 답변할 때
제시한 내용들입니다.
그리고 우리는 보고서들에서
보안 사고가 3배 증가했다는
내용을 봅니다. 이는 이해할 만합니다.
우리가 코드 작성량이 3배 증가했다는
슬라이드를 본 걸 기억하시죠.
따라서 보안 사고도 3배 증가하는 것은
같은 코드 라인 수에서 같은 문제들이
상관관계를 보이는데, 이를 어떻게 해결할까요?
문제에 대해서만 계속 얘기했는데
도움을 주세요. 이것들을 해결하는데
몇 분 시간을 투자해보겠습니다.
첫 번째 용의자는 당연히 테스팅이고
정말 흥미로운 점은 테스팅에 대한
몇 가지 질문을 했는데
정말 관련성 높은 답변이 나왔습니다.
사람들이 AI를 테스팅에
집중적으로 사용할 때, AI를 테스팅에 사용하면
AI 생성 코드에 대한 신뢰도가
두 배로 증가한다고 답했습니다.
다음 품질 개선 용의자는
코드 리뷰입니다. 코드 리뷰에서
정말 흥미로운 점은
프로세스 레벨과 코드 레벨의
거의 모든 이슈를 도와주는 프로세스라는 것입니다.
예를 들어, AI 코드 리뷰 도구를 설정해서
특정 테스트 커버리지 수준을 충족하지 않으면
이 PR을 차단하라고 설정할 수 있습니다.
그래서 PR을 통해 테스팅
프로세스 문제를 해결할 수 있습니다.
AI를 활용한 코드 리뷰는
실제로 가장 중요한 것 중 하나이고
AI 코드 리뷰 도구를 사용하는
개발자들은
품질 향상이 두 배라고
말하고 있으며
실제로 코드 작성
생산성을 47% 향상시키는데
도움이 된다고 말합니다.
이제 저희 AI 코드 리뷰 도구의
통계를 좀 보여드리겠습니다. 월 100만 개의 PR을 스캔하고
그 중 100만 개를 분석한 결과
17%가
높은 심각도의 이슈를 포함하고 있었습니다.
참고로, 현재 AI 사용 전후를
분석하고 있습니다. 아직 그
통계는 없지만, 저희가 서비스하는
대부분의 회사들이 시작 이후부터
AI 생성 코드를 사용하고 있어서
과거 데이터가 없습니다.
역산으로 스캔해야 하는 상황입니다.
이는 정말 큰 숫자입니다.
품질 개선을 시도할 때
말씀드리고 싶은 또 다른 점은
코드 생성 도구에 제공되는
올바른 컨텍스트를 갖는 것이
기반이 된다는 것입니다.
AI 코드 리뷰 도구에 더 나은 컨텍스트를 제공하면
AI를 사용하는 모든 영역에서
전반적으로 더 나은 품질을 얻을 수 있습니다.
개발자들에게 언제 AI 생성 코드를
신뢰하지 않는지 물었을 때
67%가 정말 걱정한다고 했던
것을 기억하실 텐데
그들은 80%의 경우에
LLM이 가진 컨텍스트를 신뢰하지 않는다고 답했습니다.
그리고 개발자들에게 AI 생성 코드나
AI 코드 리뷰 도구에서 무엇을 개선하고 싶은지 물었을 때
그들이 말한 1위는 컨텍스트였습니다.
여러 선택지 중에서
33%가 1위로 선택한 것이 바로
컨텍스트였습니다. 따라서 컨텍스트는
극도로 중요합니다. Qodo로서
저희 기술 방향 중 하나가
컨텍스트 관련이고
저희 컨텍스트 엔진을 연결하면
코드 생성기나 코드 리뷰 도구의
60%의 호출에서 사용되는
1위 도구로 활용되고 있습니다.
코드 생성기나 코드 리뷰 도구의 호출 중 60%가
저희 도구를 사용합니다.
MCP는 컨텍스트 MCP가 될 것입니다. 네. 그리고
말씀드리자면 컨텍스트는
반드시 여러분의 코드만
포함할 필요는 없습니다. 여러분의
표준, 모범 사례에 대한 컨텍스트도
포함할 수 있습니다. 저희 AI 코드 리뷰에서
보고 있는 바로는 컨텍스트 사용의 8%가
실제로 표준과
모범 사례 등과 관련된 파일에서 나옵니다. 네, 제가
Qodo의 CEO로서 마케팅 팀이
화낼 텐데 조금 자랑하지 않으면 안 되겠네요.
맞죠? 이건 저희
컨텍스트 엔진의 마켓이
젠슨이 GTC 키노트에서 소개한 것이고
주목할 점은 그가 저희의
코드 리뷰 기능이나 저희의
테스팅 기능에 대해 이야기하지 않고 저희
컨텍스트 엔진에 대해 이야기했다는 점입니다. Nvidia가 확인한
이유는 AI
품질, AI로 생성된 모든 것, 리뷰,
테스팅은 적절한 컨텍스트를 가져오는 데서
나올 것이라는 인식 때문입니다. 이를 위해서는
컨텍스트를 구축하고, 솔루션을 구매하고,
투자하고, 솔루션을 구축해야 합니다.
등등. 그리고 컨텍스트는
코드, 버전 관리, PR 히스토리,
조직 로그 등을 포함해야 합니다. 모든
컨텍스트가 있는 곳입니다. 단순히
코드베이스의 마지막 브랜치에만 있는 것이 아닙니다. 네. 이제
제가 시야를 넓혀서
추천사항과
핵심 포인트들에 대해 이야기하기 시작하겠습니다. 그래서
다음 단계는 무엇일까요? 자동화된 품질 게이트웨이에
투자하십시오. 사람들이 오늘 아침 내내
병렬 에이전트에 대해 이야기했습니다. 여러분도
아시죠, 제가 말하는 것은
백그라운드 에이전트입니다. 이런
도구와 기능들을 많이 사용해서
품질 게이트를 구축할 수 있습니다. 지능적인
코드 리뷰와 테스팅을 사용하고
살아 숨 쉬는
문서화가 필요합니다. 그리고 문서화가
의미하는 바는 그 자체로 하나의 이야기입니다.
이에 대해서는 자세히 다루지 않겠습니다. 그리고
이것은 제가 3년 동안
발표해온 방식이고, 60세까지
이 슬라이드로 계속 갈 것 같습니다. 제가
생각하는 소프트웨어 개발의
미래 모습입니다. 네. 기본적으로 여러분에게는
명세서와
코드가 있고, 여러분을 도와주는
여러 병렬 에이전트들이 있어서
명세를 개선하고, 명세를 작성하고,
코드를 개선하고, 명세에서
코드로 변환하고,
실행 가능한 명세인 테스트를 만들고,
맞죠, 그리고 나서
컨텍스트 엔진, 소프트웨어
개발 데이터베이스가 있을 것이고
특히 MCP를 중심으로 한
품질 및 검증 도구들을 구축하고
안정적이고 보안이 확보된 환경과
샌드박스를 확보하여 이러한 에이전트들이
실행되고 검증과 품질
워크플로를 실행할 수 있도록 할 것입니다. 그러니까 잊지 마세요,
앞으로 나아갈 길은 품질이 여러분의
경쟁사 대비 경쟁 우위라는 것입니다.
AI는 도구입니다. 솔루션이 아니에요.
네? 그리고 코드 생성만을
유일한 것으로 생각하지 마세요. 전체 SDLC나
제품 개발 생명주기를 보세요. 저는
발표자 중 한 분이 말씀하신 것을 들었습니다
스피커들 중에서요
그리고 오늘 우리가 이야기한 모든 것과 연결됩니다.
여러분에게 말씀드리고 싶은 것은
분명히 가치를 얻으실 수 있다는 것입니다.
우리가 보고서에서 확인하고 있는 것은
보안과 가용성이 향상되고
더 빠른 코드 리뷰가 가능해진다는 것입니다.
생성된 코드 때문에 이미 성과를 보고 있고
테스트 커버리지는 한 달 만에
프로젝트에 따라 3배까지 증가할 수 있습니다.
마지막 시간에 코도로
할 수 있는 작은 예시를 보여드리겠습니다.
코도에 가서 자신만의 규칙을 정의할 수 있습니다.
예를 들어 커서에서 설정하는 것과 거의 같은 규칙으로
중첩된 if문을 싫어한다고 설정하면
이것이 여러분에게 문제가 된다면
코도가 컨텍스트를 살펴보고
좋은 예시와 나쁜 예시를 구축합니다.
그리고 나서 그 문제를 잡아내기 위한
특별한 워크플로우를 구축하기 시작하고
시간이 지나면서 언제 수용되고 언제 거부되는지
통계를 제공합니다.
그래서 그 규칙을 조정할 수 있고
여러분의 표준에 대한 가시성을
실제로 파악하고 확보할 수 있습니다.
좋습니다. PR이 몇 개의 if와 else로 작성될 때
중첩된 if문을 사용하지 말라는 규칙이 있는
커서나 코파일럿으로 작성되었다 하더라도
등등 말이죠.
결국 PR을 열었을 때
코도가 그것을 잡아내고
좋은 예시와 나쁜 예시에 따라
제안을 제공할 것입니다.
코도는 또한 그래프를 만들고 CLI 체크를 제공합니다.
각 규칙을 체크하고
결국 중첩된 if에 대해 알려주고
그 다음 여러분이 그 제안에 대해
무엇을 했는지 또는 하지 않았는지 기록하고 학습하여
표준과 품질을 적응시키기 위해서입니다.
또한 자동화된 제안도 있을 것입니다.
직접 작성할 필요가 없습니다.
여러분의 표준과 품질을 학습하고
그것을 제공합니다.
이상입니다. 저는
유리천장을 깨뜨리는 것에 대해
정말로 흥분됩니다.
우리가 코드 생성으로 해낸 것과
그 다음 코드 생성의 다음 단계까지 말이죠.
이제 우리는 AI를 업무에 투입하고
전체 SDLC에 적용하는 시대로 접어들고 있습니다.
가장 중요한 부분은
품질과 관련되어 있습니다.
여기에 투자해야 합니다. 즉시 제공되는 것이 아닙니다.
그러면 결국
약속된 2배 향상을 보게 될 것입니다.
아마도 CEO에게 약속한
관련 도구들에 대한 예산을 받으면
그런 것들 말이죠.
정말 감사합니다.