토스 보안 리서처 표상영이 올린 "LLM을 이용한 서비스 취약점 분석 자동화 #2"를 읽고 한참을 멈췄다. 보안팀이 상용 API를 걷어내고 오픈 웨이트 모델을 자체 호스팅해서 수백 개 서비스를 매일 스캔한다는 이야기였는데, 여기엔 한국 테크 기업들이 AI를 실무에 접목하는 방식의 중요한 분기점이 담겨 있다.

비용이 아키텍처를 결정한다

토스에는 수백 개의 마이크로서비스가 돌아간다. 전부를 매일 LLM에 넣어 보안 취약점을 찾으려면 상용 API 기준 월 수백만 원이 날아간다. 한두 달이야 감당할 수 있지만, 보안 분석은 일회성 프로젝트가 아니다. 코드가 매일 바뀌고, 그때마다 새로운 공격 표면이 생긴다. 매일 반복 실행해야 하는 파이프라인이다.

보안팀의 선택은 단순했다. 상용 API 대신 Qwen3.5 122B-A10B를 직접 올리기로 한 것. 이 모델은 Mixture-of-Experts 구조를 채택했는데, 전체 파라미터는 122B이지만 추론 시 활성화되는 건 약 10B에 불과하다. GPT-4o급 성능을 훨씬 적은 GPU 자원으로 뽑아낼 수 있다는 뜻이고, 직접 호스팅하면 호출당 비용은 사실상 0원에 수렴한다.

한 마디로, 비용 구조가 "호출할수록 돈이 나가는 모델"에서 "인프라 고정비만 내면 무한히 쓸 수 있는 모델"로 전환된 셈이다.

2년 전이었다면 불가능했다

이 전략이 지금 통하는 건 오픈 웨이트 모델의 코드 이해 능력이 극적으로 올라왔기 때문이다. 2024년까지만 해도 오픈 모델로 보안 취약점을 찾겠다는 건 무모한 시도에 가까웠다. 보안 분석은 단순 텍스트 생성이 아니다. 코드의 맥락을 읽고, 데이터 흐름을 추적하며, 잠재적 공격 벡터를 식별해야 한다. 미묘한 인젝션 포인트 하나를 놓치면 분석 자체가 무의미해진다.

Qwen3.5 세대에 오면서 판이 달라졌다. 256K 토큰 컨텍스트를 지원하니 서비스 하나의 핵심 모듈을 통째로 집어넣을 수 있고, 함수 호출과 에이전틱 추론 능력이 상용 모델과 어깨를 나란히 하는 수준까지 올라왔다. 토스 블로그 원문에서도 "불과 몇 달 사이에 AI의 취약점 분석 능력은 정말 높은 수준으로 올라왔다"고 적고 있다.

오픈 웨이트가 "쓸 만한" 단계를 지나 "상용과 동등한" 영역에 진입하면서, 대규모 반복 작업에서의 비용 방정식이 완전히 뒤집혔다. 과거에는 성능을 위해 비용을 감수해야 했지만, 이제 특정 도메인에서는 동등한 품질을 거의 무료로 확보할 수 있게 됐다.

Pydantic이 마지막 퍼즐이다

자체 호스팅의 기술적 난관 하나. 상용 API는 structured output을 공식 지원하지만, 직접 돌리는 모델은 응답 형식이 들쭉날쭉하다. 보안 리포트에 "취약점 유형, 심각도, 영향 범위, 수정 제안"이 일관되게 담겨야 하는데, 모델이 마음대로 포맷을 바꿔버리면 파이프라인이 깨진다.

토스가 쓴 해법은 Python의 Pydantic + Instructor 조합이다. Pydantic으로 응답 스키마를 타입 레벨에서 정의하고, Instructor가 모델 출력을 파싱·검증·필요시 재시도까지 처리한다. 보안팀 입장에서는 "LLM 응답을 믿을 수 있는 데이터 구조로 변환하는 어댑터"를 하나 끼운 것과 같다.

생산성 도구와 자동화 파이프라인은 다른 게임이다

최근 한국 테크 기업의 AI 활용이 두 갈래로 분기하고 있다.

첫 번째는 개발 생산성 축. 카카오페이의 SDD(스펙 기반 개발)나 토스의 Harness처럼, AI를 코드 작성 보조로 쓰는 흐름이다. 여기서는 대개 상용 API를 택한다. 응답 한 건의 품질이 결정적이고, 호출 빈도가 상대적으로 낮기 때문에 비용 압박이 크지 않다.

두 번째는 대규모 자동화 축. 보안 스캐닝, 자동 코드 리뷰, 테스트 케이스 생성처럼 수백~수천 건을 반복 실행하는 작업들. 이쪽에서는 호출당 비용이 곧 월 운영비가 된다. 오픈 웨이트 셀프 호스팅이 경제적으로 유일하게 지속 가능한 선택지인 영역이다.

토스 보안팀이 보여준 건 이 두 번째 축에서의 실전 사례다. 데모나 PoC가 아니라, 매일 수백 개 서비스를 실제로 돌리는 운영 수준의 파이프라인을 만들었다. 한국 테크 기업 중에서 이 레벨까지 공개적으로 공유한 팀은 아직 많지 않다.

아직 빠진 퍼즐 조각

토스 블로그가 말하지 않은 것도 있다. GPU 인프라를 사내에서 확보한 건지 클라우드를 쓰는 건지, MoE 모델 서빙에 vLLM을 쓰는지 SGLang을 쓰는지. 그리고 가장 궁금한 건 정밀도와 재현율 숫자다.

LLM 보안 스캐닝의 진짜 리스크는 false positive 폭탄이다. 자동 파이프라인이 매일 "취약점 87건 발견"을 쏟아내는데 실제 유효한 건 5건이라면, 보안 엔지니어의 피로도만 높아진다. 반대로 critical한 취약점을 놓치면 자동화의 의미가 사라진다. 시리즈 3편이 나온다면 이 precision-recall 트레이드오프가 핵심일 것이다. 그때 다시 한번 파볼 예정.