요즘 한국 테크 기업마다 'AI 도입기' 블로그 글을 올린다. 결론은 대체로 비슷하다 -- 우리 팀도 쓰고 있고, 생산성이 올랐다고. 토스 기술 블로그에 최근 올라온 "Software 3.0 시대, Harness를 통한 조직 생산성 저점 높이기"는 그 흐름에서 좀 벗어나 있다.
마구(Harness)라는 비유
조직에 LLM을 풀면 파워유저 몇 명의 생산성이 폭발하고, 나머지는 "프롬프트 어떻게 써요?" 단계에 머문다. 토스가 짚은 건 이 편차, 팀 생산성의 하한선(floor)이 너무 낮다는 문제다. 해법이 'Harness'. LLM이라는 힘을 누가 쓰든 일정 수준 이상의 결과가 나오도록 감싸는 시스템 레이어다.
비슷한 시도들, 그리고 차이
이런 발상이 완전히 새로운 건 아니다. Shopify는 사내 AI 도구 사용률을 성과 지표에 넣었고, GitLab은 AI 기능을 IDE가 아닌 DevOps 파이프라인 자체에 내장시켰다. 두 회사 모두 개인이 잘 쓰느냐보다 조직 워크플로우에 녹이느냐에 집중했다는 공통점이 있다.
토스의 Harness가 여기서 한 발 더 나간 건, 팀별 맥락 차이를 명시적으로 설계 대상으로 놓았다는 점이다. GitLab 식 접근은 파이프라인 전체에 일괄 적용되는 반면, Harness는 결제팀의 Harness와 정산팀의 Harness가 서로 다른 규칙과 가드레일을 갖는다. 같은 LLM이라도 어떤 팀이 쓰느냐에 따라 허용 범위, 자동화 깊이, 리뷰 필수 지점이 달라지는 구조다.
실무에서 이게 왜 중요하냐면, 결제 도메인에서 AI가 생성한 코드에 소수점 반올림 로직이 하나라도 잘못 들어가면 정산 사고가 난다. 반면 마케팅 캠페인 A/B 테스트 코드에서는 같은 수준의 검증이 과잉이다. 모든 팀에 동일한 AI 가드레일을 씌우면, 어떤 팀은 답답해하고 어떤 팀은 여전히 위험하다.
여기서 좀 더 넓게 보면, 해외에서도 팀별 맥락 분리를 시도한 곳이 드물다는 점이 눈에 띈다. Stripe는 LLM 코드 생성 결과를 정적 분석 도구로 한 번 더 걸러내는 파이프라인을 운영하지만, 이건 팀 구분 없이 전사 단일 규칙이다. Duolingo는 콘텐츠 생성에 LLM을 적극 쓰되, 교육 콘텐츠의 난이도 검증은 별도 모델이 담당하는 이중 구조를 택했다. 하지만 이것도 "콘텐츠팀" 전체에 일괄 적용되는 방식이지, 초급 영어팀과 고급 일본어팀이 서로 다른 가드레일을 쓰진 않는다.
토스의 접근이 흥미로운 건 이 지점이다. 같은 회사 안에서도 도메인마다 위험의 성격이 근본적으로 다르다는 걸 인정하고, 그 차이를 시스템 설계에 반영하겠다는 것. 핀테크라서 가능한 면도 있다. 결제와 대출과 보험과 증권이 한 앱 안에 들어 있는 구조에서, 모든 도메인에 같은 수준의 AI 자율성을 주는 건 규제 리스크만 봐도 불가능하다. 금융 도메인에서 먼저 이런 세분화가 나오는 건 자연스러운 순서다.
반론도 있다
하한선을 올리는 데 집중하면 상한선이 눌린다는 지적은 유효하다. 가드레일이 촘촘할수록 파워유저는 답답해하고, 조직 정책을 우회해 개인 계정으로 AI를 쓰는 그림자 IT 사례는 이미 보고되고 있다. Harness가 하한선을 올리되 상한을 제한하지 않으려면 에스컬레이션 경로가 필요한데, 토스 글에서 그 수준의 설계는 아직 드러나지 않았다.
개인기 의존의 끝
한국 테크 블로그의 AI 글 대부분은 상한(ceiling)을 자랑한다. "이렇게 멋진 걸 할 수 있다"는 식. 토스가 다른 건 하한(floor)을 끌어올리겠다는 프레임이다. 에이스 한 명의 개인기에 기대는 AI 도입은 그 사람이 퇴사하면 원점이다. 실제로 국내 한 핀테크에서 프롬프트 엔지니어 한 명이 만들어둔 자동화 파이프라인이, 그 사람 퇴사 후 3개월 만에 방치된 사례가 있다. 문서화도 없었고, 다른 팀원은 구조를 이해하지 못했다.
결국 AI 도입의 지속 가능성은 개인 역량이 아니라 조직 시스템에 달려 있다. Harness라는 이름이 적절한 이유가 거기에 있다. 말을 잘 타는 기수가 아니라, 어떤 기수든 말에서 떨어지지 않게 만드는 장비.
실행 결과가 어디까지 나왔는지는 후속 글이 나와봐야 판단할 수 있다. 하지만 "LLM 도입 = 개인에게 도구 지급"이라는 업계 관성에 정면으로 의문을 던진 것 자체로, 읽어볼 가치가 있다.