top of page

[후기] Moloco와 함께 내다본 AI와 ML의 미래

최종 수정일: 5일 전


(본 후기는 AI의 도움 없이 사람의 힘으로 작성되었습니다)


지난 5월 29일 금요일, 시애틀 다운타운에서 창발과 몰로코(Moloco)가 함께하는 AI/ML 특별 세미나가 열렸습니다. 무서운 속도로 발전을 거듭하는 AI를 지켜보는 테크업계의 모두가 궁금할 수밖에 없는 화두, 실제 대규모 서비스(Real-World Scale)에서는 어떻게 AI/ML 기술을 구현하며 적용하고 있을까요? 이번 세미나에서 들을 수 있었던 생생한 현장의 이야기를 전합니다. 스크롤 압박이 있으니 미리 마음의 준비를 부탁드리며, 시작하겠습니다.


AI/ML의 흐름을 타고 눈부시게 성장 중인 몰로코는 창발이 시작할 무렵부터 함께해온 기업이자 든든한 후원사입니다. 감사하게도 이번 세미나를 위해 콜롬비아 빌딩 64층에 위치한 몰로코 오피스를 흔쾌히 제공해 주셨습니다. 



창 너머로 보이는 시애틀 앞바다의 근사한 풍경입니다. 멀리 스페이스 니들이 바라다보이네요.



세미나가 시작하기 한참 전부터 리셉션 장소는 삼삼오오 모여 대화를 나누는 참석자들로 가득했습니다. 뜨거운 열기가 사진에서부터 느껴지네요. 




몰로코는 어떤 회사인가



먼저 창발의 안혜선 회장님께서 행사의 막을 올려주셨습니다. 간단하게 행사 소개를 마친 후, 바로 몰로코의 APAC R&D 리크루팅 매니저이신 Wilson Lee 님의 웰컴 리마크가 이어졌습니다.



몰로코는 구글 출신 엔지니어들이 2013년에 설립한 글로벌 AI 및 애드테크(Ad-tech) 유니콘 기업입니다. 회사명이 무슨 뜻인지 궁금해하시는 분들이 많은데, 머신러닝 컴퍼니(Machine Learning Company)의 약자라고 합니다. 생각보다 간단하죠? 


현재 몰로코의 3대 핵심 제품은 몰로코 광고(Moloco Ads), 커머스 미디어(commerce media), 스트리밍 수익화 (streaming monetization) 입니다. 각 제품은 ML 기반 정밀 타겟팅을 통해 극대화된 광고 효율을 자랑하는데, 놀랍게도 이 셋이 따로 움직이는 게 아니라 크로스 프로덕트 (cross-product) 형태로 함께 작동한다고 하네요. 


그 좋은 예가 몰로코의 주요 파트너 중 하나인 무신사입니다. 가령 무신사 앱을 사용하던 유저가 이탈하는 경우, 적절한 타이밍에 자연스럽게 무신사 광고를 내보내 줍니다. 유저가 그 광고에 이끌려 다시 앱으로 돌아오면 이번엔 커머스 미디어가 작동하며 맨 첫 화면에 유저를 위한 맞춤 추천(personalization)을 띄워 줍니다. 유저가 그 추천을 보고 혹해 상품을 탐색하거나 구매하는 등, 자연스럽게 락인 효과(lock-in effect)가 일어나게 되죠. 이처럼 몰로코의 제품들을 유기적으로 연계하여 하나의 기능을 처음부터 끝까지 서빙한다고 합니다.



최근 몇 년간 몰로코가 유니콘 기업으로 주목받는 이유에 대해서도 설명해 주셨는데요. 먼저 독보적인 기술력입니다. 몰로코는 유투브 광고 시스템을 구축한 경험을 바탕으로 자체 개발한 ML 엔진을 보유하고 있으며, 실시간 입찰 및 예측 최적화가 가능한 데이터 처리 인프라 역시 탄탄합니다. 


그 다음으로는 지속 가능한 성장과 글로벌 스케일인데요. 지난 4년간 매출 규모가 10배로 뛰었을 뿐더러 5년 연속 부채 없는 흑자를 이어가고 있습니다. 이 과정에서 GPTW (Great Place to Work)의 인증도 확보했다고 합니다.


이들의 바탕에는 역시 뛰어난 인재가 있다고 하죠. 현재 몰로코에서는 유수의 빅테크에서 ML 시스템을 구축했던 인재들이 전세계에서 활발하게 일하고 있으며, 4개의 핵심 가치 - 상호 존중, 경청하는 리더십, 무한히 성장하는 마인드셋, 실질적인 임팩트를 추구하며 더 큰 도전을 꿈꿀 수 있는 문화를 만들어 가고 있다고 합니다. 



키노트 스피치 세션


이어서, 몰로코의 CTO이신 전동환 님께서 "AI & ML at Production Scale” 이라는 제목으로 발표해 주셨습니다.



시작하기 전 가볍게 창발과의 인연을 언급해 주셨는데요. 무려 2017년, 유디스트릭트(U District)에서 작은 규모로 시작했을 때부터 꾸준히 참여해 주셨다고 하네요. 이제는 이렇게 큰 후원사로 성장하여, 널찍하고 좋은 다운타운의 오피스에서 이벤트를 열게 되어 감회가 깊다며 기쁜 표정을 지으셨습니다.


키노트는 크게 두 파트로 구성됐습니다. 첫번째 파트는 “Intro to Moloco problems”로, 광고 시장이 어떻게 굴러가는지 설명한 후, 그 안에서 몰로코 광고가 풀고자 하는 문제는 무엇인지 일목요연하게 정리해 주셨습니다. 

  

2013년에 처음 몰로코 광고 서비스를 시작했을 땐 모바일 앱이라는 게 갓 등장한 타이밍이었습니다. 13년이 흐른 2026년 현재, 앱 시장은 천문학적으로 불어났습니다. 이제 시장에 올라온 앱의 개수만 해도 전세계를 통틀어 3백만이 넘습니다. 때문에 수도 없는 경쟁자들 사이에서 내 앱, 내 제품을 소비자에게 알리는 게 중요한 이슈가 됩니다.


따라서 몰로코 광고에서도 모바일 앱을 프로모팅하는 게 핵심입니다. 모바일 앱 광고는 어디에 해야 가장 유저들이 다운로드를 많이 받을까요? 당연히 모바일에서죠. 따라서 몰로코 역시 앱투앱 (App-to-app) 전략을 사용하게 됩니다. 


몰로코는 어떻게 복잡한 광고 시장을 헤쳐나가나


여기서 광고시장의 복잡한 메커니즘이 등장합니다. 먼저 우리가 보는 웹 페이지의 개별 광고 슬롯마다 실시간 경매, 즉 비딩(Real time bidding)가 일어난다고 보시면 됩니다. 일단 비딩이 열리면 구매자에게 요청(bidrequest)이 날아가며, 요청을 받아서 비딩을 따내는 구매자의 광고가 그 슬롯을 차지하게 됩니다. 이 전과정이 고작 100ms 안에 끝나버립니다. 우리가 보는 개인화된 광고들은 전부 이 과정을 거칩니다. 


몰로코의 경우 초당 피크타임에 6백만개까지 비딩 요청을 받을 수 있는데요. 언제나 광고주가 원하는 건 최적화된 효율입니다. 타 경쟁사에 비해 얼마나 비싼지, 광고를 통해 데려온 유저의 구매율이 얼마인지, 등등 까다롭게 봅니다. 즉, 몰로코 입장에선 가장 매력적인 비딩 요청을 골라내 가장 저렴한 가격으로 구입하는 게 핵심 목표가 됩니다.



몰로코에서는 이 과정에 AI를 적용합니다. AI에게 각 비딩 요청 및 캠페인별 실제 가치를 예측하게 하는 건데요. 얼핏 쉬워 보이지만, 진짜 문제는 해당 슬롯에 들어오는 광고가 어떤 가치가 있는지 모른다는 겁니다. 사실 그걸 모르니까 비딩을 하는 거죠. 차라리 클릭 예측이라면 모수도 많고 즉각적이라 쉬운데, 앱 설치나 구매 단계까지 가면 모수가 크게 줄어들어 예측이 어렵다고 합니다. 

 

그럼 과거 비딩 기록을 보고 트레이닝하면 되는 게 아닐까요? 하지만 그런 정보를 그렇게 손쉽게 구할 수 있을 리 없죠. 오직 비딩에서 졌을 때 이긴 사람의 가격만 알려주는데, 적어도 이 가격만큼은 줘야 따낼 수 있다는 걸 알려주는 게 목적이라 무슨 광고가 어떻게 나갔는지는 이쪽에서 알 수가 없습니다. 


게다가 얼마만큼 가치가 높은 비딩 요청이 언제 어떻게 튀어나올지 역시 아무도 모릅니다. 거칠게 비유를 한다면, 소개팅에서 맘에 드는 사람을 만났는데 소개팅이 또 들어올 경우 이걸 받을 것인가 말 것인가, 와 비슷한 메커니즘입니다. 얼마나 공격적으로 접근할지를 판단하는 겁니다.


한편 광고주들이 내주는 예산이 커져도 또 문제가 됩니다. 예산이 작으면 예산 내에서 구매 가능한 범위도 작으니까 예측이 쉬운데, 예산이 커져서 스케일이 올라가면 자연스럽게 퍼포먼스가 떨어지거든요. 내버려두면 떨어질 수밖에 없는 퍼포먼스 커브가 계속 우상향일 수 있도록 끌어올려주는 것이, 지금의 몰로코가 하는 일이라 보시면 되겠습니다. 


광고 분야가 복잡도 높은 건 알고 있었지만, 이처럼 쉽고 명료한 설명을 접하고 나니 몰로코가 매일매일 푸는 문제가 얼마나 도전적인지 체감할 수 있었습니다.


파운데이션 모델, 실전에선 어떻게 사용할까


그 다음 파트는 “What’s new in the era of foundation models” 로, 파운데이션 모델을 광고 시장에서의 온라인 예측에 어떻게 활용할 것인지에 대한 견해를 들려주셨습니다. 


지금 AI 시장에서 가장 중요한 화두가 파운데이션 모델인데요, 그럼 이 성능 좋은 모델을 바로 써서 광고 온라인 예측을 하면 안 될까요? 네, 안된다고 합니다. 아까 말씀드렸듯 비딩의 전과정이 100ms 안에 일어나야 하는데, 일단 모델에 넣고 돌리면 아무리 빨라도 1-2초 정도는 소요됩니다. 속도가 해결된다 하더라도 여기에 들어가는 GPU 및 인프라 비용이 어마어마하겠죠.


따라서 현실적으로 파운데이션 모델을 온라인 예측에 직접 사용하는 건 어렵습니다. 전동환 님께서는 이러한 난점에 대응하기 위해 오프라인 접근을 사용하신다고 합니다. 그 하나는 시그널 추측(inferred signal)입니다.



예를 들어, 우리는 하루 안에도 여러 다양한 주제로 브라우징을 합니다. 내 취향의 음악을 찾아 듣다가, 아들 수학 숙제를 도와주려고 이차방정식을 검색할 수도 있고, 검색할 때 페르소나가 매번 달라집니다. 그러니 브라우징 트래커만 가지고 바로 키워드를 뽑으면 오류가 있을 수밖에 없습니다. 이제 이 값을 파운데이션 모델에 넣고 돌리면 좀더 정밀한 추측이 가능해집니다. 


또 하나는 실시간 컨텐츠 생성인데요. AI 덕분에 컨텐츠 생성 자체에 대한 단가는 많이 떨어진 상태입니다. 그러니 앞으로는 수없이 많은 광고 버전을 만들어낸 다음 유저 페르소나에 따라 맞춤형 서빙을 하는 것도 가능해질 것으로 보입니다. 가령 남성일 경우 여성 아이돌, 여성일 경우 남성 아이돌이 나오도록 광고 버젼을 달리해 보여주고, 그 결과를 빠르게 테스트하며 진화할 수 있을 것으로 보입니다.


과연 하나의 큰 파운데이션 모델이 여러 작은 모델을 대체할 것인가, 라는 질문에 대해서는 하나가 전부를 대체한다기보다, 그 하나가 여럿을 더 똑똑하게 해준다는 게 맞을 것 같다는 답변을 주셨습니다. 가령 신호 생성(Signal generation)에서처럼 큰 모델이 작은 모델을 가르치거나, 하는 등의 여러 방법이 있지 않을까 예상하셨습니다.


얼핏 파운데이션 모델이 모든 도메인에 적용되는 만병통치약일 것 같지만, 도메인 고유의 특성에 반하여 무작정 적용할 수는 없다는 걸 새삼 깨닫게 되는 시간이었습니다. 아울러 파운데이션 모델의 성능을 여러 다양한 우회로에 적용해볼 수 있다는 것도요.  



메인 스피치


이 다음은 메인 스피치로, 사이퍼데이터(CipherData)의 Head of AI 이신 이지환 님께서 “From Static Benchmarks to Living Evaluation”으로 발표해 주셨습니다.



이지환 님께서는 구글 딥마인드에서 개인화된 AI(personalized AI)의 모델 아키텍처를 연구하다가, 사이퍼데이터로 가시기 1년 전쯤부터 제머나이의 개인화 모델을 평가하는 업무를 맡으셨다고 합니다. 이 두 업무의 성격이 판이하게 다르다고 하는데요, 이번 발표에서는 특히 개인화 모델 출시 및 평가 (shipping & evaluation) 고유의 특성, 기존 패러다임 적용 시에 따르는 난점과 다양한 해결 방안에 대해 아주 구체적으로 설명해 주셨습니다. 


개인화: AI 서비스의 새로운 격전지


현재 개인화는 챗GPT, 제머나이, 클로드 등 거의 모든 LLM AI 서비스가 뛰어드는 배틀그라운드라고 할 수 있습니다. 가령 제머나이의 경우 우리가 평소 구글을 사용하며 갖다바친 개인정보를 전부 활용해서 열심히 개인화를 하고 있죠. 


그러나 - 평가와 실제 결과가 다르게 나오는 게 언제나 문제입니다. 가령 벤치마크 성적은 좋았는데 유저 만족도는 떨어진다든가, 내부 테스팅은 좋게 나왔는데 막상 내보내니 리텐션이 떨어진다거나 하는 이슈들이 발생하는데요. 이지환 님은 그 이유를 들어, 평가 도구의 문제라기보단 패러다임이 바뀐 게 문제라고 설명하셨습니다. 


먼저, 벤치마크에서는 평준화된 하나의 정답이 존재하지만 개인화에서는 그런 단일 기준이 모든 유저에게 적용되지 않습니다. 같은 질문이라도 “어떤 유저”가 질문을 했냐에 따라서 그 “정답”이란 게 매번 달라지기 때문입니다. 뿐만 아니라 취합의 거짓말(the aggregation lie) 문제가 있죠. 그 한 예가 평균의 함정으로, 만족도가 양극단으로 벌어진 경우 평균을 냈을 때 나오는 값이 유저의 만족도를 정확히 대변한다고 보기 어렵습니다. 


유저마다 달라지는 분포 이동(distribution shift) 문제도 있습니다. 처음엔 점수가 잘 나오더라도 시간이 흐르면서 그 값이 달라질 수 있기 때문에, 이때 다시 모델을 조정해야 합니다. 특히 개인화의 경우는 모든 유저에게 맞춰야 한다는 조건이 추가로 붙습니다. 유저별로, 또 시간별로 결과값이 달라지면 당연히 앞서 말한 것처럼 정적인 벤치마킹이 동적인 평가 결과를 다 담아내지 못하겠죠.


아키텍처 레벨에서는 개인화를 어떻게 구축하는가


그렇다면 아키텍처 레벨에서는 어떻게 개인화 작업을 진행할까요? 요즘 LLM 모델을 개인화하는 방법에는 약 3개의 레이어가 있습니다. 첫번째가 프롬프트 레벨(prompt level)로, 거의 대부분의 메이저 회사들이 사용하는 방식입니다. 그냥 개인 유저별 컨텍스트를 주어진 프롬프트 앞에 자동으로 붙여서 연산해 주면 됩니다. 매번 앞의 컨텍스트만 바꿔주면 되는 거라 유지보수는 쉽지만, 컨텍스트가 커질수록 비용 역시 많이 들어갑니다.


그 다음 레이어는 어댑터 레벨(adapter-level)로, 그 좋은 예가 LoRA입니다. 적은 수의 패러미터를 트레이닝해서 각 유저별 베이스 모델에 붙여 준 후, 이걸 사용해 유저 컨텍스트를 소화해서 결과를 내게 됩니다. 이 방식을 사용하면 개별 유저의 선호도를 더 깊이있게 이해할 수 있을 뿐더러, 컨텍스트 덩어리를 매번 추가하지 않아도 된다는 장점이 있습니다. 다만 LoRA도 유저별로 트레이닝을 시켜줘야 하기 때문에, 유저가 100명 정도라면 문제가 없지만 이제 백만 명 정도로 늘어나면 여기에 따르는 비용 문제가 다시 불거집니다.


마지막 레이어는 웨이트 레벨(Weight-level)로, 모델을 즉석에서 만들어서 각 유저별 맞춤 패러미터를 바로 뽑아주는 게 또 하나의 방법입니다. 모델이 각 토큰별로 액티베이션(activation)이라는 임베딩을 만들어 주면, 이 임베딩을 두 채널로 나누어 하나는 글로벌 컨텍스트, 또 하나는 로컬 컨텍스트를 학습시킵니다. 여기서 글로벌 컨텍스트를 다루는 채널을 슬로우(slow) 라 해서 여기엔 전반적이고 깊이있는 유저 정보를 담고, 반대로 로컬 채널은 패스트(fast)라 해서 그때그때 들어오는 지엽적인 정보를 읽힙니다. 


그 외에도 projectable model, LoRA-generating hypernetwork 등의 여러 방법들이 계속 나오고 있는데, 문제는 이런 식으로 개인화 아키텍처가 복잡해지면 평가 역시 복잡해질 수밖에 없습니다. n명의 유저가 있다면 n개의 모델이 있는 셈이니 평가 스케일이 너무 커질 뿐더러, 개인화는 인퍼런스 단계에 들어가기 때문에 실제로 런칭해 보기 전엔 평가가 어렵습니다. 게다가 베이스 모델과 유저 컨텍스트가 합쳐지면 예측 못한 모델 행동이 나올 수도 있습니다. 마지막으로 분포의 양극단에 위치한 유저, 말하자면 아웃라이어의 경우 개인화 결과가 제대로 나오지 않을 수도 있고요.


복잡도 높은 개인화 아키텍처, 어떻게 평가할까


그럼 이런 문제를 어떻게 해결하면 좋을까요? 이지환 님의 말씀에 따르면 요즘은 다차원 평가(multi-dimensional evaluation)를 도입하는 추세라고 합니다. 이 다차원 평가에 사용되는 차원은 다음과 같습니다:

  • 개인화 충실도(Personalization fidelity): 모델이 유저의 개인 컨텍스트를 제대로 활용하는가?

  • 퀄리티 보존(Quality preservation): 개인화 때문에 기존 베이스 모델이 가지고 있던 메리트를 깎아먹지는 않는가?

  • 일관성(Consistency): 같은 유저에 대해 일관적인 반응을 제공하는가? 너무 일관적이어서 오히려 유저 특성을 간과하지는 않는가?

  • 캘리브레이션(Calibration): 유저 컨텍스트에 대한 정보가 없거나 희박할 경우 그 부분에 대해 제대로 ‘모른다’고 반응할 수 있는가? 


이 네 가지 차원이 제각기 어떤 값을 가지느냐에 따라 모델의 특성 또한 달라집니다. 다만 어떤 모델이 좋다는 정답은 없습니다. 어디까지나 출시하는 제품이 지향하는 바에 따라 달라진다고 볼 수 있죠. 


하지만 기업 입장에서는 모든 유저들에게 가능한 한 개인화가 잘 적용된 응답을 제공하고 싶을 텐데요. 이때는 코호트 레벨 평가(Cohort-level evaluation) 처럼 유저들을 다양한 특성의 그룹으로 묶어서 각 그룹별로 개인화를 했을 때 어떻게 달라지는가도 볼 수 있다고 합니다. 가령 파워 유저는 만족도가 높은데 니치한 유저는 그렇지 않다면, 그 개인화는 실패했다고 보는 것이고요.


모델 퀄리티를 평가하는 점수, 어디까지 믿을 것인가


최근에는 자동화의 일환으로 LLM “심판” (LLM judges) 이란 도구도 나왔다고 합니다. 평가해야 하는 타겟 모델이 많고 드리프트도 실시간으로 일어나고 유저의 마음도 매 순간 바뀔 수가 있는데 - 인간 평가자가 세세한 사항을 다 잡아내지 못하기 때문에 그걸 보완하려는 목적이라 하는데요. 이조차도 완벽하지 못한 게, 한 유저의 컨텍스트 안에도 이것저것 정보들이 많을 뿐더러, 그 정보를 어떤 순서로 얼마나 배치하냐에 따라 결과값이 또 달라질 수도 있거든요. 심지어 이 LLM 심판 기준에서의 좋은 응답과 유저가 생각하는 좋은 응답이 다를 수도 있습니다.



이런 여러 변수가 있다 보니, LLM 심판의 점수에만 의존해서 기준을 짜면 자칫 모델이 단지 그 심판을 기분좋게 하는 데만 초점을 맞춰버릴 수 있는데요. 이럴 땐 굿하트 트랩(Goodhart trap)을 상기할 필요가 있다고 합니다. 즉  “When a measure becomes a target, it cease to be a good measure”, 말하자면 우리가 측정하고자 하는 타겟이 목적이 되면 더이상 그 타겟은 좋은 타겟일 수 없다는 거죠. 그 부분을 늘 염두에 둘 필요가 있습니다. 


그럼 이 지점에서의 해법은 뭘까요? 일부 샘플을 떼내어 실제 인간에게 체크하게 하는 건데요, 어떤 지점에서 인간이 내리는 평가와 자동화된 기준의 평가가 어긋나는지 보는 겁니다. 제머나이를 쓰다 보면 피드백을 받는 창이 열리는데, 여기서 직접 피드백을 줄 수도 있지만 썸업/썸다운(thump up/thump down)을 본다든가, 혹은 간접적인 유저 반응을 보는 등 여러가지를 봅니다. 비용은 꽤나 든다고 하네요. 


정적인 벤치마킹에서 "살아 있는" 평가로


지금까지 개인화 아키텍처와 평가 간의 차이에 주목했으나, 사실 이 둘은 하나로 맞물려 있습니다. 아키텍처의 성능이 올라가서 결과가 좋아지면 평가할 때 난이도가 올라가고, 반대로 평가의 커버리지가 너무 약하면 좋은 개인화 아키텍처를 제공하기 어려워진다고 합니다.



이처럼 다양한 상황과 변수를 고려할 때, 벤치마킹 스코어 같은 단일 숫자만 보고 개인화가 얼마나 잘 됐는지 판단하기는 정말 어렵다고 합니다. 따라서 다양한 관점에서 측정을 해서 다양한 숫자를 모을 필요가 있고, 평가 방식 자체도 단일한 도구라기보단 시스템의 일부로 보아야 한다는 결론을 제시하셨습니다. 


대단히 유용하면서도 시류에 적절한 강연이었습니다. UX 리서치를 하는 입장에서는 특히 모델 평가 퀄리티와, 그 모델을 돌려 얻은 실제 유저 반응 간의 갭에 주목하게 되었는데요. 평가 로직 자체도 언제나 단일하게 유지되는 게 아니라 수시로 바뀌는 변수들 (유저의 페르소나라든가 니즈 등) 을 다이나믹하게 반영할 수 있다는 게 흥미로웠습니다.


이 갭을 어떻게 좁혀나갈 것인가는 데이터 사이언스나 엔지니어링 뿐 아니라 UX 차원에서 풀어야 할 문제이기도 합니다. AI 도메인에서의 협업은 더욱 긴밀해질 것이며 그 성격과 방식도 새로워지지 않을까, 하는 생각을 덧붙여봅니다. 



패널토크


열띤 강연에 이어 바로 패널토크가 시작됐습니다. 주제는 "From Research to Real-World Scale" 로, 총 네 분의 패널이 참여해 주셨습니다: 

  • 전동환 (Donghwan Jeon), CTO, Moloco

  • 황동성 (Dongseong Hwang), Staff Research Scientist, Apple

  • 김영진 (Young Jin Kim), Member of Technical Staff, Microsoft

  • 임종화 (JongHwa Lim), Senior Technical Program Manager, Amazon



모더레이터는 메인 발표자이신 이지환 님이 맡아주셨습니다. 이하 패널토크 세션에서는 구어체를 최대한 살리면서, 답변해 주신 패널의 성함을 별도의 존칭 없이 기입한 점 참고 부탁드리겠습니다. 


패널 메인 세션


이지환: 지난 연말부터 업계에 AI로 인해 발생한 여러 변화에 대해 우리가 터놓고 얘기하는 시간을 가져보고자 한다. 이런 AI 툴을 이용해서 본인이나 팀원이 일하는 방식에 어떤 변화를 줬을까? 정말로 이 AI가 우리같은 불쌍한 사람들 (청중 웃음) 을 대체할 수 있을 거라 보나?


  • 임종화: 윈도우즈를 쓰다가 맥으로 바꿨다. 회사 지원 툴들이 다 맥으로 나와버리는 바람에. 엄청난 툴이 계속 나와서 계속 사용해보는 중이다. 툴 쓰는 것마다 가져오는 데이터가 다르기도 하고, 내가 만족하는 수준이 아니기도 해서, 내가 스스로 프롬프팅을 가공하거나 조작을 가하는 데 시간이 든다는 느낌이다. 내부적으로는 SOP라고 불리는 프로세스가 정말 매달 매주 바뀌고 있다 - 좀더 그 변화가 가속화된다면 좋겠다.


  • 김영진: 회사에서 AI를 쓰면서 가장 와닿았던 건 - 이젠 논문을 놓고 토론할 수 있는 수준이 된 것? 기존엔 그냥 읽다가 이해 안되고 생략된 부분이 있다면 찾고 유도해야 하는 과정이 있었고, 부족한 부분은 별도로 결과를 수집해서 스스로 추론해 결론을 내야 했는데, 이제는 그냥 논문을 주고 토론할 수 있는 상황이 됐다는 것. 이제는 LLM이 없이는 일을 할 수 없는 시대가 된 것 같다. 한번 쓰다가 못 쓰게 한 적이 있었는데 ‘우리가 지금 석기시대로 돌아가야 하냐’는 반응이 나오는 걸로 봐서, 이제 없으면 안 될 도구가 된 것 같다.


  • 김영진: (이어서) 생산 속도는 대단히 빨라진 것 같은데, 다만 이제 여기서 인간이 게을러지면 큰일이 난다. 한번씩 엄청난 실수들을 저지르니까 이녀석이 뭘 어떻게 하고 있나를 꼼꼼히 감시해야 한다. 한번은 어려운 버그를 고쳐야 한다며 10개쯤 되는 파일 전부를 다 고쳐야 하지만 이중 한두 개만 고치면 돌아가게만 할 수 있다고 보고하더라. 모든 파일을 다 고치라고 했는데, 막상 사고 프로세스를 체크해 보니 시킨 대로 다 고치려면 토큰이 많이 드니까 내게 다시 묻지도 않고 자기가 쉬운 길을 선택해서 가더라. 이런 부분을 잘 잡아내야 한다.  


이지환: AI가 수많은 데이터를 가지고 트레이닝을 해서 기존에 있는 걸 잘 짜깁는데, 데이터가 아예 없다고 가정하고 새로운 모델 아키텍처를 개발하려고 하는 경우엔 LLM 개발이 쉽지 않아 보인다. 동성님의 경우 어떤 식으로 대처하시겠는가?


황동성:

  • 지금 애플에서 멀티모달 아키텍처 리딩을 하고 있는데, 파운데이션 모델을 만드는 사람 입장에서는 요즘 에이전틱 시대에서 뭘 해야 할지, 어떻게 살아남아야 할지에 대해 얘기를 해보고 싶다. 키워드 3개 정도를 말하고 싶은데, 내삽법(interpolation)과 외삽법(extrapolation), 서치 스페이스(search space)와 사람의 직관, CEO와 탐험가에 대해 얘기하고 싶다.


  • 먼저 내삽법과 외삽법. 보통 LLM이라는 건 사람이 말하는 걸 예측해서 그 다음 답변을 내놓는 형태다. 통계 모델을 시각적으로 형상화하면 아마 커다란 구가 될 거다. 그 구 안에 있는 엄청난 수의 데이터포인트에 듬성듬성 비어 있는 부분을 채우는 건 AI가 기가 막히게 잘하는데, 그 밖에 있는 건? 인간의 뇌와 비교하면 - 개개인은 자기만의 월드 모델과 확증 편향이 있는데, 이건 통계 모델이 작용하는 것과는 거리가 있다. LLM과 달리, 사람은 직관이란 걸 활용해서 그 구 밖으로 모델을 밀어낼 수 있다. 


  • 한편 서치 스페이스- 즉 뭔가 원하는 답을 찾아내야 하는 경우, 사람은 다소 비합리적일 수는 있더라도 자기만의 직관으로 (그 직관이 좋고 나쁘고는 별개로) 탐색이 필요한 스페이스 자체를 크게 줄여버릴 수 있다. 가령 여기 계신 분들은 내가 발표 중에 갑자기 물구나무서기를 하거나 소리를 지르는 일이 일어날 가능성을 아예 배제하고 들을 것이다. 모델과 달리 그 부분에 대한 연산 자체를 안 한다는 거다.


  • 즉 사람과 모델은 상호보완적이라고 생각한다. 파운데이션 모델은 컨텍스트를 받고 조건화를 해서 결과를 낼 수 있다. 그럼 사람이 직관을 활용해 그 모델을 통계의 ‘구’ 밖의 영역으로 밀어내 그 결과를 받아볼 수 있는 시대가 온 것이다. 



  • 결국 축이 2개가 있는데, 하나는 최종 사용자가 인간이냐, 자연이냐 여부다. 다른 하나는 추상화된 레이어가 얼마나 얕고 깊냐. 이 둘에 따라 달라질 것 같다. 


  • 먼저 첫번째 축에서, 최종 사용자가 인간인 경우 사용해 보고 직접적인 피드백을 줄 수 있는데 - 즉 그 피드백을 되먹임하며 통계 모델의 구- 즉 기존 지식의 한계 너머로 넘어갈 수 있는데, 연구 대상이 자연인 경우 피드백을 받을 수가 없다. 이때는 그냥 인간의 직관을 써서 (다음 단계로 넘어갈 수 있는 지식을) 마냥 쌓아올리는 수밖에 없다. 하지만 추상화된 레이어가 엄청나게 깊이 들어가야 하는 작업일 경우 쌓아올리는 데만도 엄청난 시간이 걸렸다. 특히 구현 같은 건 그동안 너무나도 복잡했는데, 이제는 충분히 구현에도 아웃소싱이 가능한 단계까지 왔다. 


  • 다만 이렇게 되면 구가 계속 커진다. 때문에 한계 밖에서 지속적인 발전을 이루려면 결국 한계 안팎에서 무슨 과정이 일어나는지에 대해 정확히 이해해야 한다. 구 밖에는 무한한 세계가 있고, 그 세계로 뭔가를 쏘아올리는 역할을 하는 ‘탐험가’ 들이 있고, 한계 내에서 빈 부분을 메꾸는 ‘CEO’들이 존재할 것이다. 요즘의 ‘탐험가’라면 마스트를 올리고 바람을 읽는 게 아니라, 기계의 이해력을 뛰어넘는 이해력을, 즉 기계가 보지 못하는 영역을 이해하는 능력이 필요할 것이다. 


  • 지금 우리는 사람이 다룰 수 있는 복잡성의 한계 근처까지 왔는데, 이제 티핑포인트가 온 게, 모델이 구현의 복잡성 정도는 덜어주기 때문이다. 그 구현되는 대상이 구 안에 있을 수도, 밖에 있을 수도, 경계에 걸쳐 있을 수도 있다. 때문에 그 과정에서 새롭게 언락(unlock)되는 지점들이 있을 텐데, 그 언락 포인트를 찾는 게 중요하다. 


이지환: AI가 이제 단순한 피처 개발이나 버그 고치는 건 잘한다. 원래 이런 건 주니어가 다 하면서 경험을 쌓는 건데, 그럼 요새 주니어들은 어떻게 성장하란 말인가? 동환님께 질문드리고 싶은 게, CTO로서 많은 엔지니어링 조직들을 리드하고 있는데, 그 안의 주니어들을 성장시킬 때 어떤 고민을 하시는지?


전동환:

  • AI 에이전트는 아이언맨의 수트 같은 거라서, 아이언맨이 입으면 어마어마한 힘을 발휘할 수 있지만 맞지 않는 사람이 입으면 그냥 그대로 있는 거다.


  • 잘 모르는 상태에서 AI만 무작정 쓰면 그냥 무슨 말을 해도 다 믿게 되는 게 문제다. 이미 경력이 있는 분들은 옆에서 서포트를 해주면서 나아가면 되는데, 주니어의 경우는 - 아무리 AI를 쥐어준다 해도 애초에 뭐부터 뭘 해야 할지 모르니까. 


  • 예전에 커피한잔 하면서 코드를 짜던 즐거운 순간은 사라지고 이제는 남의 코드만 보면서 지적하는 싫은 일만 하게 되어 버렸다 (웃음)


  • 솔직히 현재의 결론은 "잘 모르겠다" 이다. 다만 지금 회사 안에서 잘하는 주니어들을 보면, 옆의 시니어들의 도움을 받아 어떻게든 성장하는 것 같다. 


이지환: 솔직히 AI가 일을 엉망진창으로 해놨는지, 아니면 제대로 해놨는지 파악하는 것도 시니어의 일인데, 정말 심각한 문제를 막기 위해 셋업하는 가드레일 중에 만드신 게 있는지?


전동환:

  • 지금 만들고 있다. 가령 세일즈에 문제가 발생하자마자 이미 세일즈 팀이 먼저 파악해서 그걸 들고 와서 따진다거나, 소수의 사람만 알았던 얘기를 에이전트가 소문을 내고 다니는 일이 발생한다거나, 이런 문제들이 생겨나는 중이다. 이걸 어디서 컨트롤하고 어디서 막아야 하는지에 대해 활발하게 논의 중이다. 


패널 Q&A 세션 


역량이 다른 팀원이 모여있는 조직 안에서 그 편차를 어떻게 해결해야 할까? 

  • 특별한 건 없는 것 같다…


실제로 엔지니어 채용시에 인터뷰 방식이 많이 달라졌나? 

  • 쿠팡에서는 바이브 코딩을 시킨다고 한다. 시작한 지 아직 한 달 정도밖에 안된 것 같다. 다른 회사의 경우 큰 차이는 없는 듯…


앞으로는 AI/ML 자체의 어떤 요소가 상품성과 경쟁력을 결정하게 될까? 

  • 임종화: 이젠 1인 기업 시대다. 제품 경쟁력은 금방 따라잡을 수 있을 거고 - 그걸로만 밀어붙이는 시대가 오지는 않고 사람의 뭔가가 필요하지 않을까 싶다. 인간 자체의 브랜드가 중요해지는 시대?


  • 황동성: 누구나 자기 사업을 해보고 싶다는 꿈이 마음속에 있지 않나. 예전에는 인프라, 프론트엔드, 이런저런 사람이 필요해서 네트워킹이 필요하단 생각이 있었는데, 이제는 그냥 한두명으로 다할 수 있을 것 같으니까 티밍(teaming)에 부담이 없어지는 것 같다. 이런 부분이 다른 것 같다. 


AI 툴을 도입한 도입에서 퍼포먼스 평가가 어떻게 변하게 될까? 

  • 전동환: 이것도 논의 중이다. 지금 모든 회사들이 비슷한 스테이지에서 다 논의 중인 것 같은데… 대체로 비슷한 것 같고. 회사에서 개개인에게 바라는 덕목들은 좀 변하는 것 같다. 예전엔 코딩을 깔끔하게 잘하면 충분히 인정을 받았는데, 이젠 그 개발하는 비용이 너무 줄어버리니까, 이젠 코딩만 하는 게 아니라 IC 레벨에서도 다른 사람과 협업해서 엔드투엔드로 뭘 만들어내는 게 중요해진 것 같다. 그래서 이제는 오너십이 가장 중요해지고 그걸 기대하게 되는 것 같다. 이런 건 소프트 스킬의 영역인 것 같다. 


AI 시스템의 경우 학계와 업계의 격차가 벌어지는 것 같다. 어떻게 하면 좋은 공생관계를 만들 수 있을까? 

  • 김영진: 개개인의 생산성 차이가 AI 때문에 너무 커져 버렸다. 그전의 리서치 방식이나 트레이닝 방식들은 되게 단순했는데 - 지금은 트레이닝 방식이 완전히 바뀌어 버렸다. 그 코어가 강화학습 쪽으로 많이 옮겨갔다. 어떤 목표를 주고 리워드를 주는 방식으로 옮겨가면서 전체적인 시스템이 매우 복잡해졌다. 이젠 (개인의 스킬을) 리프레시하며 계속 쫓아가지 않으면 격차가 너무 크고 계속 벌어지기 때문에, 뒤떨어지는 사람들이 레이오프를 많이 당했다.


  • 김영진: 학계와 업계 간 격차라… 딥시크 덕분에 신세계가 열려서 이제 학계에서도 모델을 쓸 수 있게 된 상황인데 비용 문제는 아직 해결은 안 된 것 같다. 아무래도 작은 모델만 돌리다 보니 인턴하러 오는 게 회사에서 더 충분한 연산 리소스를 쓰고 싶어서란다.


AI 에이전트 때문에 출시 속도가 빨라지고, 이에 따라 퀄리티 컨트롤이 잘 안 되는 것 같아 걱정인데 윗사람의 의견이 듣고 싶다. 

  • 전동환: 결국 저는 어떤 성격의 일이냐에 따라서 높은 분들의 스탠스도 바뀔 거라 생각한다. 코드 잘못 짰을 때 얼마나 큰일이 벌어지느냐? 큰일이 아니면 그냥 출시 가는 거고, 아니면 되돌아가서 찬찬히 뜯어보는 거고, 안전장치도 마련할 거고, 이 과정에서 결국 어느 적정한 포인트로 수렴할 거라 생각한다. 


빅테크 회사들이 SOTA 모델 경쟁에서 손 뗀 사이 ipo를 앞둔 작은 회사들은 경쟁적으로 모델을 내는 중이다. 이게 지속 가능할까? 

  • 김영진: 빅테크도 손뗀 거 아니다. 문제는, 오픈AI나 앤스로픽 같은 회사들이 정말 작은데다가 리서처들을 아주 갈아 넣어서 일을 한다. 그런 거를 이제 큰 기업에서도 도입을 하는 중이다. 예를 들어, 특수 조직을 하나 만들어서 걔네들처럼 운영을 해야 한다고 해서 아예 인사 시스템도 별도로 분리를 시켜놓는 식이다. 그 조직 안에서는 스타트업처럼 8주마다 딜리버리하고 리뷰하고… 이런 문화로 가고 있다. 


AI에게 맡길 범위와 내가 해야 할 범위란? 

  • 임종화: 저희 팀에 한해서 말씀드린다면, Ops 툴을 에이전트로 만들어서 업프론트로 처리한다. 이게 선순환이 되니까 계속 처리 가능하게 되고, 옆 팀과도 하면서 시스템으로 정착하는 것 같다. 


패널분들이 나눠주신 진솔한 이야기를 마지막으로 모든 세션이 끝났습니다. 밤 10시까지 이어진 네트워킹 세션에서는, 많은 참석자분들이 늦게까지 남아 열띤 이야기꽃을 피우셨습니다. 새로운 기술과 트렌드에 대한 영감을 나누고 소통하는 시간이 되었기를 바라마지 않습니다. 



성황리에 막을 내린 이번 행사는 물심양면으로 지원을 아끼지 않은 몰로코, 관심을 갖고 참여해 주신 참석자분들, 그리고 무대 뒤에서 묵묵히 수고해 주신 운영진 분들이 아니었다면 이토록 성공적으로 이뤄지지 못했을 것입니다. 모두에게 깊은 감사를 전하며 이번 후기를 마치겠습니다. 




 
 
 

댓글


  • slack
  • YouTube
  • Facebook
  • Instagram
  • LinkedIn

Copyright©2024 by Changbal Society

PayPal로 기부하기
bottom of page