시퀀스 러닝: 개인화 광고 추천을 위한 패러다임의 전환 (Sequence learning: A paradigm shift for personalized ads recommendations)

Executive Summary

이 문서는 Meta가 개인화 광고 추천 시스템을 기존의 DLRM(Deep Learning Recommendation Models) 방식에서 시퀀스 러닝(Sequence Learning) 기반으로 전환한 기술적 배경과 성과를 다룹니다.

  • 문제 정의 (Problem):
    • 기존 DLRM은 수작업으로 설계된 피처(Hand-engineered features)에 의존하여, 사용자의 행동 순서(Sequence) 정보를 놓치는 한계가 있었습니다.
    • 데이터 집계 과정에서 미세한(Granular) 정보가 손실되고, 중복된 피처로 인해 인프라 비용이 증가했습니다.
  • 해결책 (Solution):
    • 이벤트 기반 학습 (Event-based Learning): 사용자의 클릭, 전환 등 이벤트에서 직접 데이터를 학습하는 방식으로 전환했습니다.
    • 시퀀스 모델링 (Sequence Modeling): 기존 피처 대신 이벤트 기반 피처(EBFs)를 도입하고, 이를 처리하기 위해 트랜스포머(Transformer) 기반의 아키텍처를 적용했습니다.
  • 핵심 기술 (Key Technologies):
    • EBFs (Event-based Features): 다양한 사용자 행동 데이터를 표준화된 시퀀스로 변환하여 모델에 입력합니다.
    • Jagged Tensors & Flash Attention: 사용자마다 다른 이벤트 길이를 효율적으로 처리하기 위해 하드웨어 및 커널 수준의 최적화를 수행했습니다. [cite: 3]
  • 성과 (Results):
    • 광고 예측 정확도 향상 및 인프라 효율성 개선.
    • 특정 세그먼트에서 2~4%의 전환율(Conversions) 증가를 달성했습니다.

Meta 기술블로그의 글을 한국어로 번역하였습니다. 전문용어는 영어원물을 병기하여 기술적 정확도를 유지하는 방식으로 작성 되었습니다.

Sequence learning: A paradigm shift for personalized ads recommendations


시퀀스 러닝: 개인화 광고 추천을 위한 패러다임의 전환 (Sequence learning: A paradigm shift for personalized ads recommendations)

AI는 Meta의 앱 제품군 내에서 사람들과 광고주 사이에 가치 있는 연결을 만드는 데 근본적인 역할을 합니다. 딥러닝 추천 모델(DLRM, Deep Learning Recommendation Models)에 기반한 Meta의 광고 추천 엔진은 사용자에게 개인화된 광고를 제공하는 데 있어 중추적인 역할을 해왔습니다. 이러한 성공의 핵심은 수천 개의 인간이 설계한 신호(Human-engineered signals) 또는 피처(Features)를 DLRM 기반 추천 시스템에 통합한 데 있습니다.

방대한 양의 데이터로 훈련했음에도 불구하고, 수동 피처 엔지니어링(Manual feature engineering)에 의존하는 기존 DLRM 기반 광고 추천은 사용자의 경험 데이터에서 순차적 정보(Sequential information)를 활용하지 못한다는 한계가 있었습니다. 사용자 행동을 더 잘 포착하기 위해, 광고 추천 모델은 다음 두 가지 차원에서 근본적인 변화를 겪었습니다.

  1. 이벤트 기반 학습 (Event-based learning): 전통적인 인간 설계 피처 대신, 사용자의 참여 및 전환(Conversion) 이벤트에서 직접 표현(Representations)을 학습합니다.
  2. 시퀀스로부터의 학습 (Learning from sequences): 전통적인 DLRM 신경망 아키텍처를 대체하기 위해 새로운 시퀀스 러닝 아키텍처를 개발합니다.

자연어 이해(NLU) 및 컴퓨터 비전 분야의 발전된 기술을 통합함으로써, Meta의 차세대 광고 추천 엔진은 기존 DLRM의 한계를 해결했습니다. 이는 사용자에게는 더 관련성 높은 광고를, 광고주에게는 더 높은 가치를 제공하며, 인프라 효율성을 개선하는 결과를 가져왔습니다.

이러한 혁신을 통해 광고 시스템은 사용자가 광고에서 전환(Convert)하기 전후의 행동을 더 깊이 이해할 수 있게 되었으며, 이를 통해 다음에 노출할 관련성 높은 광고 세트를 추론할 수 있습니다. 출시 이후, 새로운 광고 추천 시스템은 광고 예측 정확도를 향상시켰으며, 이는 광고주 가치 상승과 특정 세그먼트에서 2~4%의 전환 증가로 이어졌습니다.


광고 추천을 위한 DLRM의 한계

개인화 광고를 위한 Meta의 DLRM은 사용자의 구매 의도와 선호도를 파악하기 위해 광범위한 신호에 의존합니다. DLRM은 수십억 단위의 방대한 카디널리티(Cardinalities)를 가진 Facebook 페이지와 같은 엔티티(Entity)에 대한 사용자 상호작용을 포착하는 희소 피처(Sparse features) 학습에 혁명을 일으켰습니다. DLRM의 성공은 희소 피처로부터 일반화 가능하고 고차원적인 표현, 즉 임베딩(Embeddings)을 학습하는 능력에 기반합니다.

수만 개의 피처를 활용하기 위해 피처를 결합하고, 중간 표현을 변환하며, 최종 출력을 구성하는 다양한 전략이 사용됩니다. 또한, 희소 피처는 다양한 데이터 소스와 집계 방식을 통해 여러 시간 윈도우(Time windows)에 걸친 사용자 행동 속성을 집계(Aggregate)하여 구축됩니다.

이러한 방식으로 설계된 레거시(Legacy) 희소 피처의 예시는 다음과 같습니다.

  • 사용자가 지난 N일 동안 클릭한 광고 → [Ad-id1, Ad-id2, Ad-id3, …, Ad-idN]
  • 사용자가 지난 M일 동안 방문한 Facebook 페이지(각 페이지 방문 횟수 점수 포함) → [(Page-id1, 45), (Page-id2, 30), (Page-id3, 8), …]

위에서 설명한 인간이 설계한 희소 피처는 수년간 DLRM을 이용한 개인화 추천의 초석이었습니다. 하지만 이 접근 방식에는 다음과 같은 한계가 있습니다.

  • 순차적 정보의 손실 (Loss of sequential information): 시퀀스 정보, 즉 사용자 이벤트의 순서는 사용자의 행동과 관련된 더 나은 광고 추천을 위한 귀중한 인사이트를 제공합니다. 희소 피처 집계 방식은 사용자 여정(Journey) 내의 순차적 정보를 잃어버립니다.
  • 세부 정보의 손실 (Loss of granular information): 피처가 이벤트 전반에 걸쳐 집계됨에 따라, 동일한 이벤트 내 속성들의 동시 발생(Collocation)과 같은 미세한 정보가 손실됩니다.
  • 인간 직관에 대한 의존 (Reliance on human intuition): 인간의 직관만으로는 방대한 데이터 속에서 비직관적이고 복잡한 상호작용과 패턴을 인식하기 어렵습니다.
  • 중복된 피처 공간 (Redundant feature space): 서로 다른 집계 방식을 사용하면서 여러 변형 피처가 생성됩니다. 이는 점진적인 가치를 제공할 수는 있지만, 중복된 집계는 컴퓨팅 및 저장 비용을 증가시키고 피처 관리를 번거롭게 만듭니다.

사람들의 관심사는 지속적으로 진화하는 역동적인 의도(Intent)에 따라 시간이 지남에 따라 변합니다. 이러한 복잡성은 수작업으로 만든 피처로는 모델링하기 어렵습니다. 이러한 상호 역학(Inter-dynamics)을 모델링하면 더 나은 광고 추천을 위해 시간 흐름에 따른 사용자 행동을 깊이 이해하는 데 도움이 됩니다.


추천 시스템을 위한 시퀀스 학습으로의 패러다임 전환

Meta의 새로운 광고 추천 시스템은 시퀀스 러닝(Sequence learning)을 핵심으로 사용합니다. 이를 위해서는 데이터 저장, 피처 입력 형식, 모델 아키텍처 전반에 걸친 광고 추천 시스템의 완전한 재설계가 필요했습니다. 이 재설계 과정에는 새로운 사용자 중심 인프라 구축, 최첨단 시퀀스 러닝 아키텍처를 위한 학습 및 서빙 최적화, 그리고 효율적인 확장을 위한 모델/시스템의 공동 설계(Co-design)가 요구되었습니다.

이벤트 기반 피처 (Event-based features)

이벤트 기반 피처(EBFs)는 새로운 시퀀스 러닝 모델의 구성 요소입니다. 기존 피처의 업그레이드 버전인 EBF는 다음 세 가지 차원에 따라 시퀀스 러닝 모델에 대한 이질적인 입력을 표준화합니다.

  1. 이벤트 스트림 (Event streams): EBF를 위한 데이터 스트림 (예: 사용자가 최근 참여한 광고 시퀀스 또는 '좋아요'를 누른 페이지 시퀀스).
  2. 시퀀스 길이 (Sequence length): 각 스트림에서 최근 이벤트를 얼마나 포함할지 정의하며, 각 스트림의 중요도에 따라 결정됩니다.
  3. 이벤트 정보 (Event Information): 사용자가 참여한 광고 카테고리 및 이벤트 타임스탬프와 같이 스트림 내 각 이벤트에 대한 의미론적(Semantic) 및 문맥적 정보를 포착합니다.

각 EBF는 이벤트에 대한 모든 핵심 정보를 담고 있는 하나의 일관된 객체입니다. EBF를 통해 우리는 풍부한 정보를 통합하고 입력을 체계적으로 확장할 수 있습니다. EBF 시퀀스는 레거시 희소 피처를 대체하여 추천 모델의 주요 입력값이 됩니다. 아래 설명할 이벤트 모델과 결합했을 때, EBF는 인간이 설계한 피처 집계 방식으로부터의 탈피를 이끌었습니다.

EBF를 활용한 시퀀스 모델링

이벤트 모델은 이벤트 속성으로부터 이벤트 임베딩(Event embeddings)을 합성합니다. 각 속성에 대한 임베딩을 학습하고 선형 압축(Linear compression)을 사용하여 이를 단일 이벤트 속성 기반 임베딩으로 요약합니다. 이벤트는 최신성과 시간적 순서를 포착하기 위해 타임스탬프 인코딩(Timestamp encoded)됩니다. 이벤트 모델은 타임스탬프 인코딩과 합성된 이벤트 속성 기반 임베딩을 결합하여 최종 이벤트 수준 표현을 생성합니다. 즉, EBF 시퀀스를 이벤트 임베딩 시퀀스로 변환하는 것입니다.

이는 언어 모델이 단어를 표현하기 위해 임베딩을 사용하는 것과 유사합니다. 차이점은 EBF가 이질적인 이벤트 스트림에서 비롯되며 수백만 개의 엔티티를 포괄하기 때문에, 자연어보다 몇 자릿수 더 큰 어휘(Vocabulary)를 갖는다는 점입니다.

이벤트 모델에서 생성된 이벤트 임베딩은 차세대 광고 추천 시스템의 중심에 있는 시퀀스 모델로 입력됩니다. 이벤트 시퀀스 모델은 순차적 이벤트 임베딩을 소비하는 사용자 수준의 이벤트 요약 모델입니다. 이 모델은 최첨단 어텐션 메커니즘(Attention mechanisms)을 활용하여 이벤트 임베딩을 순위가 매겨질 광고를 키(Key)로 하는 미리 정의된 수의 임베딩으로 합성합니다. 멀티 헤드 어텐션 풀링(Multi-headed attention pooling)과 같은 기술을 통해, 셀프 어텐션 모듈의 복잡도는 $O(NN)$에서 $O(MN)$으로 감소합니다. 여기서 $M$은 조정 가능한 매개변수이고 $N$은 최대 이벤트 시퀀스 길이입니다.

(원문의 다이어그램 설명: 왼쪽은 인간 설계 피처 패러다임의 DLRM(Deep Learning Recommendation Models), 오른쪽은 사용자 이벤트 흐름 관점에서의 EBF(Event-based Features) 기반 시퀀스 모델링 패러다임을 보여줍니다.)

왼쪽은 인간 설계 피처 패러다임의 DLRM(Deep Learning Recommendation Models), 오른쪽은 사용자 이벤트 흐름 관점에서의 EBF(Event-based Features) 기반 시퀀스 모델링 패러다임을 보여줍니다.


새로운 시퀀스 러닝 패러다임의 확장 (Scaling)

희소 피처 학습에서 이벤트 기반 시퀀스 러닝으로 전환하기 위한 재설계 이후, 다음 초점은 두 가지 영역에서의 확장이었습니다. 하나는 시퀀스 러닝 아키텍처의 확장이고, 다른 하나는 이벤트 시퀀스를 더 길고 풍부하게 확장하는 것입니다.

시퀀스 러닝 아키텍처의 확장

순차적 정보를 완전히 모델링하기 위해 복잡한 피처 인코딩 체계를 통합하는 맞춤형 트랜스포머(Transformer) 아키텍처가 개발되었습니다. 이는 추천 시스템을 위한 최신 기술의 빠른 탐색과 도입을 가능하게 하기 위함이었습니다. 이 아키텍처 접근 방식의 주요 과제는 프로덕션 환경에서 요구되는 성능과 효율성을 달성하는 것입니다. Meta의 광고 추천 시스템에 대한 요청은 수백 밀리초(ms) 내에 수천 개의 광고 순위를 매겨야 하기 때문입니다.

더 높은 충실도(Fidelity)를 위한 표현 학습을 확장하기 위해, 기존의 합계 풀링(Sum pooling) 방식은 풀링되지 않은(Unpooled) 임베딩으로부터 피처 상호작용을 학습하는 새로운 아키텍처로 대체되었습니다. 평균화(Averaging)와 같은 간단한 방법으로 풀링되는 고정 길이 임베딩에 고도로 최적화되어 있던 기존 시스템과 달리, 시퀀스 러닝은 사용자마다 이벤트 길이가 다르기 때문에 새로운 과제를 제기합니다. Jagged 임베딩 텐서(Jagged embedding tensors)와 풀링되지 않은 임베딩으로 표현되는 가변 길이의 긴 이벤트 시퀀스는 더 큰 컴퓨팅 및 통신 비용과 더 높은 변동성(Variance)을 초래합니다.

이러한 비용 증가 문제는 Jagged 텐서를 지원하기 위한 하드웨어 공동 설계 혁신을 채택하여 해결되었습니다.

  • Jagged 텐서를 지원하기 위한 기본 PyTorch 기능
  • GPU에서 Jagged 텐서를 처리하기 위한 커널 수준 최적화
  • Jagged 텐서에서 플래시 어텐션(Flash Attention)을 지원하기 위한 Jagged Flash Attention 모듈

더 길고 풍부한 시퀀스로 확장

이벤트 시퀀스로부터 직접 학습하여 사용자 선호도를 더 잘 이해하는 Meta의 차세대 추천 시스템의 능력은 더 긴 시퀀스와 더 풍부한 이벤트 속성으로 더욱 강화됩니다.

시퀀스 확장의 포함 내용:

  • 더 긴 시퀀스로 확장: 시퀀스 길이를 늘리면 사용자의 관심사에 대한 더 깊은 인사이트와 맥락을 얻을 수 있습니다. 다중 정밀도 양자화(Multi-precision quantization) 및 값 기반 샘플링(Value-based sampling) 기술이 시퀀스 길이를 효율적으로 확장하는 데 사용됩니다.
  • 더 풍부한 의미론(Semantics)으로 확장: EBF를 통해 멀티모달(Multimodal) 콘텐츠 임베딩 등을 통해 각 이벤트에 대한 더 풍부한 의미론적 신호를 포착할 수 있습니다. 맞춤형 벡터 양자화(Vector quantization) 기술을 사용하여 각 이벤트의 임베딩 속성을 효율적으로 인코딩합니다. 이는 최종 이벤트 임베딩에 대해 더 많은 정보를 담은 표현을 산출합니다.

시퀀스 러닝의 영향과 미래

이벤트 시퀀스 러닝 패러다임은 Meta의 광고 시스템 전반에 걸쳐 광범위하게 채택되었으며, 그 결과 광고 관련성 및 성과 향상, 인프라 효율성 증대, 연구 속도 가속화를 이끌어냈습니다. 고급 트랜스포머 아키텍처에 대한 우리의 집중과 결합되어, 이벤트 시퀀스 러닝은 Meta의 광고 추천 시스템 접근 방식을 재편했습니다.

앞으로의 초점은 이벤트 시퀀스를 100배 더 확장하고, 선형 어텐션(Linear attention) 및 상태 공간 모델(State space models)과 같은 더 효율적인 시퀀스 모델링 아키텍처 개발, 키-값(KV) 캐시 최적화, 그리고 이벤트 시퀀스의 멀티모달 강화(Enrichment)에 맞춰질 것입니다.


📚 핵심 용어 정리 (Glossary)

본문에서 사용된 주요 기술 용어의 정의와 문맥적 의미를 정리했습니다.

용어 (영문/국문) 설명 및 문맥적 의미
Sequence Learning
(시퀀스 러닝)
사용자의 행동 데이터를 시간 순서대로 나열하여 패턴을 학습하는 방법론입니다. 기존의 정적인 데이터 집계 방식과 달리, 행동의 '순서'와 '흐름'을 파악하여 다음에 일어날 행동(클릭, 구매 등)을 예측합니다.
DLRM
(Deep Learning Recommendation Models)
Meta가 개발한 딥러닝 기반 추천 모델입니다. 희소 피처(Sparse features)를 학습하는 데 강점이 있으나, 이 글에서는 시퀀스 정보를 반영하지 못하는 레거시 시스템의 한계점으로 언급됩니다.
Sparse Features
(희소 피처)
데이터의 대부분이 0이거나 비어 있는 특성을 가진 피처입니다. (예: 수십억 개의 페이스북 페이지 중 사용자가 방문한 몇 개의 페이지). 기존에는 이를 집계(Aggregation)하여 사용했으나 정보 손실 문제가 있었습니다.
EBFs
(Event-based Features)
기존의 수작업 피처를 대체하는 새로운 입력 단위입니다. 사용자의 행동(이벤트)을 스트림, 시퀀스 길이, 이벤트 정보로 표준화하여 모델이 원본 데이터를 더 잘 이해하도록 돕습니다.
Event Embeddings
(이벤트 임베딩)
사용자의 특정 행동(이벤트)을 벡터 형태의 수치로 변환한 것입니다. 자연어 처리에서 단어를 임베딩하는 것과 유사하게, 사용자의 행동을 기계가 이해할 수 있는 고차원 표현으로 바꾼 것입니다.
Jagged Tensors
(재기드 텐서)
사용자마다 행동 이력(시퀀스 길이)이 다르기 때문에 발생하는 불규칙한 형태의 데이터 구조입니다. 이를 효율적으로 계산하기 위해 Meta는 하드웨어 최적화(GPU 커널 등)를 진행했습니다.
Cardinality
(카디널리티)
데이터베이스의 특정 열(Column)이 가질 수 있는 고유한 값의 개수입니다. 본문에서는 페이스북 페이지나 광고 ID처럼 그 종류가 수십억 개에 달하는 방대한 경우를 설명할 때 사용되었습니다.

 

<출처: Sequence learning: A paradigm shift for personalized ads recommendations>

 

함께보면 좋은 콘텐츠

메타(Meta) 광고 생태계의 진화: GEM 모델과 Andromeda 엔진의 상호작용 및 최적화 전략

 

메타(Meta) 광고 생태계의 진화: GEM 모델과 Andromeda 엔진의 상호작용 및 최적화 전략

1. 알고리즘 패러다임의 대전환과 미디어 바잉의 종말2024년 하반기부터 2025년 초에 걸쳐 메타(Meta)의 광고 플랫폼은 디지털 마케팅 역사상 가장 근본적이고 구조적인 변화를 맞이했습니다. 이는

archives.flaneur.kr

 

메타 광고 알고리즘 GEM + Andromeda 최적화 가이드

 
 

메타 광고 알고리즘 GEM + Andromeda 최적화 가이드

💡메타 광고 알고리즘 GEM과 Andromeda 활용 시, 최소 5개 이상의 의미론적으로 다양한 소재(5~15개 권장)를 포함하는 것이 중요합니다. Andromeda 업데이트 이후 CTR 증가, CPA 감소 등 성과 지표가 개선

archives.flaneur.kr