한 달 사이 한국 테크 블로그에서 거의 같은 이야기가 두 번 올라왔다. 토스플레이스의 '판다(PANDA)'와 우아한형제들의 '물어보새'. 둘 다 내부 직원이 자연어로 데이터를 조회하는 AI 봇이다. 둘 다 Text-to-SQL 기반이고, 둘 다 "비개발자도 데이터에 접근할 수 있다"는 같은 구호를 내걸었다. 흥미로운 건 이 두 팀이 공통적으로 강조한 포인트가 LLM 성능이 아니라 데이터 웨어하우스 정리였다는 점이다.
두 봇의 프로필
토스플레이스 Data 조직이 만든 판다는 Place Analytics & Data의 약자다. 출시 첫날 팀원 3명 중 1명이 사용했고, 일주일 만에 절반이 경험했다. 오간 메시지만 4,000건. 토스플레이스 측은 전체 요청의 70%가 "이 숫자 맞아?"를 확인하는 단순 추출이었다고 밝혔다. 복잡한 분석이 아니라 대시보드에서 수치 하나 찾는 데 분석가의 시간이 빨려 들어가고 있었다.
배민 쪽의 물어보새는 출발점부터 다르다. 2023년 우아톤(사내 해커톤)에서 프로토타입이 나왔고, 현장 반응이 뜨거워서 2024년 1월 정식 TF가 꾸려졌다. 쿼리 생성뿐 아니라 기존 쿼리 해석, 문법 검증, 테이블 탐색과 로그 안내까지 기능이 확장됐다. 해커톤 프로젝트가 프로덕션까지 간 드문 케이스인데, 그만큼 "분석가한테 슬랙 보내고 기다리는" 병목이 조직 전체에 체감되고 있었다는 방증이다.
진짜 병목은 모델 바깥에 있었다
두 팀의 기술 블로그를 읽으면 LLM 자체에 대한 논의는 놀라울 정도로 적다. GPT-4를 썼는지 Claude를 썼는지, 파인튜닝을 했는지 RAG를 붙였는지 — 언급은 되지만 글의 무게중심이 거기 있지 않다.
판다 팀이 실제로 가장 오래 매달린 작업은 DW 표준화였다. 같은 개념을 서로 다른 이름으로 부르는 테이블들. 컬럼 네이밍 컨벤션이 스쿼드마다 제각각인 문제. "결제 건수"라는 동일한 질문에 대시보드 A와 대시보드 B가 미묘하게 다른 숫자를 보여주는 현실. 판다 팀은 핵심 지표를 통합 테이블로 재설계하고, DW 네이밍 규칙을 새로 잡는 데 상당한 시간을 투자했다고 밝혔다. AI 모델을 개선하는 것보다 "정보의 구조를 바꾸는 것"에 집중했다는 표현을 쓴다.
이게 왜 중요한가. Text-to-SQL에서 LLM이 하는 일은 결국 자연어를 SQL 쿼리로 변환하는 것이다. 그런데 "매출"이라고 물었을 때 후보 테이블이 다섯 개 나오고, 각각의 정의가 다르면? 모델이 아무리 정교해도 어느 테이블을 조인해야 하는지 확신할 수 없다. 할루시네이션이 발생하는 원인의 상당수가 "모델이 멍청해서"가 아니라 "메타데이터가 모호해서"다.
물어보새가 테이블 탐색과 로그 안내 기능을 강조하는 것도 같은 맥락이다. 봇이 정확한 SQL을 짜려면 "이 정보가 물리적으로 어디에 있고, 어떤 비즈니스 맥락을 담고 있는지" 알아야 한다. 그 맵핑이 깨끗하지 않으면 어떤 모델을 갖다 놔도 프로덕션 수준의 정확도는 나오지 않는다.
2026년에 동시다발적으로 터진 이유
아이지에이웍스의 '클레어', 솔트웨어의 자연어 분석 솔루션, 한컴 계열의 Text-to-SQL 도구까지 — 올해 들어 이 카테고리가 급격히 두꺼워졌다. 타이밍이 겹친 건 우연이 아니다.
LLM의 SQL 생성 능력이 "데모에서만 되는" 수준에서 "프로덕션에서 쓸 만한" 수준으로 넘어간 시점이 대략 2025년 하반기다. 기술 자체의 가능성이 입증되면서, 이제는 "모델을 얼마나 잘 고르느냐"보다 "우리 조직의 정보 기반이 이걸 받아들일 준비가 되어 있느냐"가 승부를 가르는 국면에 들어선 것이다.
토스가 빠르게 내놓을 수 있었던 배경에는 Data Platform팀 6년차의 축적이 있다. 배민은 최근 EKS 기반으로 플랫폼을 재설계하면서 메달리온 아키텍처를 도입했다. 기반 인프라가 이미 정리되어 있으니 LLM 레이어를 얹는 건 비교적 빨랐다. 반대로 DW가 스파게티인 조직에서 같은 걸 시도하면? POC 단계에서는 멋지게 작동하지만, 실제 업무에 투입하는 순간 "숫자가 안 맞는다"는 피드백이 쏟아진다.
한 줄 요약
내부용 AI 챗봇을 만들겠다고 LLM API 키부터 발급받는 팀이 많다. 판다와 물어보새가 증명한 건 정반대 순서다. 먼저 DW 카탈로그를 열어서 테이블 네이밍이 일관적인지, 메트릭 정의가 한 곳에 모여 있는지, "매출"을 검색하면 테이블이 하나 나오는지 다섯 개 나오는지부터 확인하라. 모델은 이미 충분히 똑똑하다. 병목은 거의 항상 그 아래층에 있다.