
[안내] 본 포스팅은 2025년 컴퓨터 비전 학회인 WACV 2025에서 발표된 논문 "Long-Term Ad Memorability: Understanding & Generating Memorable Ads"의 내용을 한국 마케터 및 연구자들을 위해 국문으로 번역 및 정리한 것입니다. 본 논문은 컴퓨터 비전 재단(CVF)의 오픈 액세스(Open Access) 정책에 따라 공유되며, 원문의 저작권은 원저자 및 관련 기관에 있습니다. 본 번역은 AI 보조를 받아 작성되었으며, 정확한 학술적 인용을 위해서는 반드시 원문을 확인하시기 바랍니다
원문 제목: Long-Term Ad Memorability: Understanding & Generating Memorable Ads
저자: Harini SI, Somesh Singh, Yaman K Singla, et al.
공식 프로젝트 및 코드: https://behavior-in-the-wild.github.io/memorability
- 논문 공식 홈페이지: https://behavior-in-the-wild.github.io/memorability
- 원본 논문 (CVF Open Access): PDF 링크 바로가기
1. 초록 (Abstract)
마케팅과 브랜드 구축에서 장기 기억(Long-term memory)의 중요성에도 불구하고, 지금까지 광고 기억도(Ad memorability)에 대한 대규모 연구는 이루어지지 않았습니다. 기존의 모든 기억도 연구는 액션 비디오와 같은 특정 콘텐츠 유형의 단기 회상(Short-term recall)에 집중되어 있었습니다.
반면, 광고 산업에서는 장기 기억도(Long-term memorability)가 매우 중요하며, 광고는 거의 항상 고도의 멀티모달(Multimodal) 특성을 갖습니다. 이에 본 연구는 1,749명의 참가자와 276개 브랜드의 광고 2,205개를 포함하는 최초의 광고 기억도 데이터셋인 LAMBDA를 공개합니다. 다양한 참가자 하위 집단과 광고 유형에 대해 통계적 검증을 실시한 결과, 광고를 기억에 남게 만드는 여러 흥미로운 인사이트를 발견했습니다. (예: 장면 전환이 빠른 광고가 느린 광고보다 기억에 잘 남음, 광고 차단기(Ad-blockers) 사용자는 비사용자보다 광고를 적게 기억함).
다음으로, 광고 기억도를 예측하는 모델인 Henry를 제시합니다. Henry는 모든 주요 기억도 데이터셋에서 최첨단(SOTA, State-of-the-art) 성능을 달성했습니다. 마지막으로, 기억도 점수를 활용하여 기억에 남는 광고를 생성하는 확장 가능한 방법론인 SEED와 500만 개의 광고 데이터가 포함된 UltraLAMBDA를 소개합니다.
2. 서론 (Introduction)
"브랜딩의 첫 번째 교훈은 기억도(Memorability)입니다. 기억할 수 없는 제품을 구매하는 것은 매우 어렵기 때문입니다." — 존 헤가티 경(Sir John Hegarty).
광고의 궁극적인 목표는 소비자가 구매 결정을 내리는 시점에 특정 브랜드를 떠올리게 하는 것입니다. 인지 심리학(Cognitive psychology) 연구에 따르면, 이러한 회상(Recall) 능력은 정보가 장기 기억(Long-term memory)에 얼마나 잘 저장되었는지에 달려 있습니다. 그러나 컴퓨터 비전(Computer vision) 분야의 기존 기억도 연구들은 주로 몇 분 내의 짧은 지연 시간(Delay)을 둔 단기 기억에 초점을 맞추어 왔습니다.
실제 광고 환경에서 소비자들은 광고를 본 후 며칠, 심지어 몇 주가 지난 뒤에야 구매 행동을 취합니다. 따라서 광고의 효과를 측정하기 위해서는 '장기 기억도'를 이해하는 것이 필수적입니다. 또한 광고는 단순히 시각적 요소뿐만 아니라 브랜드 로고, 슬로건, 오디오, 맥락적 의미가 결합된 복합적인 멀티모달(Multimodal) 콘텐츠입니다.
본 논문은 이러한 배경하에 다음과 같은 세 가지 핵심 기여를 하고자 합니다:
- LAMBDA 데이터셋: 실제 소비자의 장기 기억 반응을 기록한 대규모 광고 기억도 데이터셋을 구축하고 분석했습니다.

Table 1. Comparison of all the major (image and video) memorability datasets available in the literature along with LAMBDA (ours). The datasets are compared on the following axes: number of samples, type of memorability (short-term (ST) and long-term (LT)), memory retrieval process (recall or recognition), type of content (images/videos and their type), duration with which the sample was shown on the participants’ screen, whether audio was present or not, human consistency achieved in the study, and the protocol followed in the study to collect the data. Memento10k - [51], VideoMem - [16], LaMem - [36], SUN - [30], MemCat - [27], MediaEval - [38]
- Henry 예측 모델: 시각 정보와 언어 모델의 세계 지식(World knowledge)을 결합하여 광고의 기억 가능성을 정교하게 예측합니다.

Figure 1. Correlations between content factors (a-d), interaction factors (e-g), and customer behavior factors (h-j) with memorability on LAMBDA samples. While emotion has a high correlation with memory, other content factors do not have much correlation. Further, while there is little correlation between the order of videos seen and memorability; with time, participants’ memory of the videos shows a forgetting trend. Video popularity, as measured by YouTube likes/views, shows a slight positive correlation with memory. Average brand relevance has a strong positive correlation with memory, with top sectors being remembered as food, entertainment, and tech. Speech, silence and music have little effect with silence having the highest positive correlation with recall. Silence ratio is measured as the percentage of silence in a video, similarly for music and speech.
- SEED 생성 프레임워크: 단순히 분석에 그치지 않고, AI가 더 기억에 남는(More memorable) 광고 카피와 컨셉을 생성할 수 있는 경로를 제시합니다.

Figure 2. Predicting memorability by encoding visual information (via visual encoder EVA-CLIP), cognitive concepts (via verbalization module), and world knowledge (through fine-tuned Llama). We instruction fine-tune the combined model end to end to predict user memorability. Snowflake and fire symbols denote the frozen and unfrozen parts of the architecture.
3. LAMBDA 데이터셋 (The LAMBDA Dataset)
우리는 광고 기억도 연구를 위해 대규모 멀티 브랜드 분석 데이터셋인 LAMBDA(Large-scale Ad Multi-Brand Database for Analytics)를 구축했습니다. 이 데이터셋은 실제 소비자의 반응을 반영하도록 설계되었습니다.
3.1. 데이터 수집 및 정량화 (Data Collection and Quantification)
- 참가자 구성: 총 1,749명의 참가자가 참여했으며, 이들은 다양한 인구통계학적 배경을 가집니다.
- 광고 범위: 276개 브랜드에 걸친 2,205개의 비디오 광고를 포함합니다. 이는 기존의 기억도 연구들이 다루었던 단순 객체나 동작 위주의 영상보다 훨씬 복잡한 맥락을 가집니다.
- 지연 시간(Delay): 광고를 시청한 후 즉각적인 회상이 아니라, 일정 시간 이상의 지연(Delay)을 두어 장기 기억(Long-term memory)을 측정했습니다.
3.2. 주요 통계적 인사이트 (Key Statistical Insights)
데이터 분석을 통해 광고의 기억 가능성에 영향을 미치는 몇 가지 중요한 상관관계를 발견했습니다.
- 장면 역동성(Scene Dynamics): 장면 전환이 빠르고 움직임이 많은(Fast-moving) 광고가 정적인 광고보다 기억에 더 잘 남습니다.
- 오디오의 역할: 흥미롭게도 음성(Speech)이나 음악(Music) 자체보다 정적(Silence)의 비율이 높은 광고가 더 높은 회상률(Recall rate)을 보였습니다. 이는 침묵이 중요한 메시지에 집중하게 만드는 장치로 작용했음을 시사합니다.
- 광고 차단기(Ad-blockers): 광고 차단기를 일상적으로 사용하는 사용자는 그렇지 않은 사용자보다 광고를 기억하는 개수가 유의미하게 적었습니다. 이는 광고에 대한 노출 빈도와 태도가 기억 형성의 기저 인자로 작용함을 보여줍니다.
- 브랜드 관련성(Brand Relevance): 참가자가 해당 브랜드의 제품을 사용 중이거나 선호할수록 광고 기억도가 급격히 상승했습니다.

Table 2. Results of Henry (our model) on eight datasets compared with the current best models reported in the literature and GPT-3.5. Human consistency values are also listed in the top row for reference. It can be observed that our model achieves state-of-the-art performance across all datasets. Best models are denoted in green and runner-ups in blue . References for the seven literature SOTA models in the format {dataset: SOTA model citation} are: LaMem: [28], MemCat: [28], SUN: [22], Merged Image datasets: [28], Memento10k: [20], VideoMem: [20], MediaEval: [47]
4. Henry: 기억도 예측 모델 (Henry: Predicting Memorability)
우리는 광고의 멀티모달(Multimodal) 특성을 이해하고 기억도를 예측하기 위해 Henry 모델을 제안합니다.
4.1. 모델 아키텍처 (Model Architecture)
Henry는 시각적 요소와 언어적 지식을 통합하는 구조를 가집니다.
- 시각적 인코더(Visual Encoder): EVA-CLIP을 사용하여 영상의 시각적 특징을 추출합니다.
- 언어 모델(Language Model): Llama를 중추(Backbone)로 삼아 광고의 맥락을 논리적으로 추론합니다.
4.2. 인지적 구어화 (Cognitive Verbalization)
단순히 영상을 입력하는 대신, 광고의 복합적인 정보를 텍스트로 변환하여 모델에 주입하는 방식을 사용했습니다.
- OCR & ASR: 영상 속 자막(OCR)과 내레이션(ASR)을 추출합니다.
- 장면 설명(Scene Captioning): AI가 각 장면을 텍스트로 설명하도록 하여 맥락을 강화합니다.
- 점수화(Scoring): 감정 강도(Emotion intensity)와 장면 복잡도(Scene complexity) 등을 수치화하여 입력 값에 포함했습니다.
4.3. 벤치마크 성과 (Benchmark Performance)
Henry 모델은 다음과 같은 성과를 보였습니다.
- 범용성: LAMBDA 데이터셋뿐만 아니라, MSR-VTT, VideoMem 등 기존의 8개 주요 기억도 벤치마크 데이터셋에서 최첨단(SOTA, State-of-the-art) 점수를 기록했습니다.
- 제로샷 학습(Zero-shot Learning): 학습하지 않은 새로운 유형의 영상에 대해서도 높은 예측 정확도를 보여주어, 실제 현업 광고주들이 새로운 광고를 집행하기 전 효과를 미리 예측하는 데 유용함을 입증했습니다.

Table 3. Ad Generation: Results of Henry-SEED compared with in-context-learning (ICL) GPT-3.5, 4 on Ad-Memorability and Ad generation quality. See §4 for details of the metrics computed. We see that Henry-SEED generated ads are more memorable than ads generated using 15x larger GPT-3.5 and GPT-4. We test ad quality using GPT-4 as judge and then test the top-two models using human annotators. GPT-4 as a judge rates GPT-4 and Henry-SEED as the top two models. Subsequently, we ask humans to select between the original and generated ad stories. We observed that human annotators preferred Henry-SEED ads more than the original ads 3/5 times, while GPT-4 generated ads are preferred 2/5 times over the original ads. Further, we note that an increase in the amount of training data for Henry-SEED increases its performance across all metrics. Figs. 3-6 and Listings 1-10 contain some qualitative samples generated using Henry-SEED.
5. SEED: 기억에 남는 광고 생성 (SEED: Generating Memorable Ads)
우리는 단순히 광고의 기억도(Memorability)를 예측하는 데 그치지 않고, 모델이 직접 기억에 남는 광고 콘텐츠를 생성할 수 있도록 하는 SEED (Self rEwarding memorability Modeling) 방법론을 제안합니다.
5.1. UltraLAMBDA 데이터셋 구축
- 규모: 약 500만 개의 광고 영상을 수집하여 UltraLAMBDA라는 대규모 데이터셋을 구축했습니다.
- 자동 라벨링(Self-labeling): 수백만 개의 영상에 대해 사람이 일일이 기억도 점수를 매기는 것은 불가능하므로, 앞서 개발한 Henry 모델을 판별자(Judge)로 활용해 각 영상에 기억도 점수를 할당했습니다.

Figure 3. Henry-SEED Prompt: Generate the detailed description of a 30-second memorable advertisement titled ”Brainly Keep Learning 30sec Final 16x9” for the brand Brainly. Link to the original ad: https://www.youtube.com/watch?v=kytRXyWXivU Original Memorability score: 85. Memorability score of Generated Ad: 99.
5.2. 모델 학습 및 최적화
- 선별적 미세 조정(Selective Fine-tuning): Henry 모델로부터 65점 이상의 높은 기억도 점수를 받은 상위 샘플들을 선별했습니다.
- Llama-13B 활용: 선별된 고품질 데이터를 바탕으로 Llama-13B 모델을 미세 조정하여, 높은 기억도를 유발할 수 있는 광고 시나리오와 카피를 생성하도록 학습시켰습니다.
5.3. 생성 결과 및 성능 평가
- 성능 향상: SEED를 통해 생성된 광고는 일반적인 베이스 모델(Base model)이 생성한 결과물보다 기억도 점수가 약 44% 향상되었습니다.
- 모델 비교: SEED는 GPT-4와 같은 훨씬 거대한 모델들과 비교했을 때도 더 기억에 남는(More memorable) 문구와 구조를 생성하는 데 탁월한 성능을 보였습니다. 이는 기억도라는 특정 목적에 특화된 학습의 중요성을 입증합니다.
| Model | Training | Low(") | Medium | High(#) |
| LLaVA | 0-shot | 5.08 | 5.11 | 5.39 |
| Henry-SEED | LAMBDAHIGH | 6.07 | 3.01 | 2.17 |
| Henry-SEED | UltraLAMBDA | 7.09 | 4.51 | 2.35 |
Table 4. Ad Generation: Perplexity comparison (refer §E) of LLaVA and Henry-SEED on low/medium/high memorable ads from LAMBDA test set. We see that untrained LLaVA does not favor memorable ads. Further, we note that when synthetic data is included during training, the ratio of perplexity on low and high ads grows from 2.79 to 3.01.
6. 결론 (Conclusion)
본 연구는 마케팅의 핵심 요소인 장기 광고 기억도(LTM, Long-term Memorability)를 체계적으로 분석하고 정량화한 최초의 시도입니다.
- 연구의 의의:
- LAMBDA 데이터셋을 통해 실제 사용자의 장기 기억 반응을 데이터화하였으며, 광고의 시각적/오디오적 요소가 기억에 미치는 영향을 통계적으로 증명했습니다.
- Henry 모델은 멀티모달(Multimodal) 정보를 세계 지식(World knowledge)과 결합하여 기억도를 예측하는 새로운 표준을 제시했습니다.
- SEED 방법론은 AI가 데이터 기반의 '보상' 시스템을 통해 더 효과적이고 기억에 남는 콘텐츠를 스스로 설계할 수 있음을 보여주었습니다.
- 실무적 시사점: 광고주와 마케터는 본 연구에서 제시된 모델을 활용해 광고 제작 단계에서부터 성과를 예측하고, 소비자에게 더 오랫동안 각인될 수 있는 전략적인 콘텐츠를 제작할 수 있습니다.
- 향후 과제: 연구팀은 본 논문에서 활용된 데이터셋과 코드를 모두 오픈소스로 공개하여, 향후 인지 심리학과 인공지능이 결합된 광고 기술 연구가 활발히 이어지기를 기대합니다.
[참고 전문 용어 및 약어 안내]
- Memorability (기억도): 특정 콘텐츠가 뇌에 저장되어 나중에 회상될 확률.
- SOTA (State-of-the-art, 최첨단): 현재 기술 수준에서 가장 뛰어난 성능.
- Multimodal (멀티모달): 텍스트, 이미지, 음성 등 다양한 형태의 데이터를 동시에 처리하는 방식.
- Fine-tuning (미세 조정): 사전 학습된 모델을 특정 목적에 맞춰 추가 학습시키는 과정.
- OCR (Optical Character Recognition, 광학 문자 인식): 이미지 내의 텍스트를 추출하는 기술.
- ASR (Automatic Speech Recognition, 자동 음성 인식): 음성을 텍스트로 변환하는 기술.
자주 묻는 질문 (FAQ)
Q1. 기존의 광고 기억도 연구와 이 논문의 차이점은 무엇인가요?
기존 연구들은 주로 5분 미만의 단기 기억(Short-term memory)이나 단순한 액션 비디오에 집중해 왔습니다. 반면, 이 논문은 실제 마케팅 환경에 필수적인 장기 기억(Long-term memorability)을 측정하며, 며칠 이상의 지연 시간을 둔 대규모 광고 데이터셋인 LAMBDA를 최초로 공개했다는 점에서 차별화됩니다.
Q2. 광고에서 오디오 요소가 기억에 어떤 영향을 미치나요?
분석 결과, 음성(Speech)이나 음악(Music)의 비중은 장기 기억과 큰 상관관계가 없었습니다. 오히려 영상 내에서 정적(Silence)의 비율이 높을수록 사용자의 회상(Recall)과 가장 높은 양의 상관관계를 보이는 흥미로운 결과가 나타났습니다.
Q3. 어떤 감정이나 시각적 요소가 광고를 더 잘 기억하게 만드나요?
연구에 따르면 부정적인 감정(Negative emotions)을 담은 광고가 긍정적인 광고보다 더 잘 기억되는 경향이 있습니다. 또한, 정적인 장면보다는 장면 전환이 빠르고 역동적인(Fast-moving) 광고가 기억도 점수가 더 높게 측정되었습니다.
Q4. Henry 모델은 어떻게 광고의 기억도를 예측하나요?
Henry 모델은 Llama의 세계 지식(World knowledge)과 EVA-CLIP의 시각적 인코딩을 결합한 멀티모달 프레임워크입니다. 특히 영상 속 자막(OCR), 음성(ASR), 감정 등을 텍스트로 변환하는 '인지적 구어화' 과정을 통해 광고의 심층적인 맥락을 이해합니다.
Q5. AI가 실제로 더 기억에 남는 광고를 생성할 수 있나요?
네, 연구팀이 제안한 SEED 방법론을 통해 가능합니다. 500만 개의 광고 데이터(UltraLAMBDA) 중 기억도 점수가 높은 데이터를 선별하여 학습시킨 결과, 모델이 생성한 광고는 원본보다 기억도 점수가 약 44% 향상되는 성과를 거두었습니다.
참고 문헌 및 출처 (References & Rights)
- 논문 정보: Harini SI, Somesh Singh, Yaman K Singla, Veeky Baths, Changyou Chen, Rajiv Ratn Shah, Aanisha Bhattacharyya, Balaji Krishnamurthy. "Long-Term Ad Memorability: Understanding & Generating Memorable Ads." Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2025, pp. 5707-5718.
- 저작권 안내: 본 콘텐츠는 CVF Open Access 저작물로 제공되는 수락 버전(Accepted version) 논문을 바탕으로 작성되었습니다. 원문과 동일한 내용을 담고 있으나, 최종 출판본은 IEEE Xplore를 통해 확인하실 수 있습니다.
- 데이터셋 관련 문의: 본 논문에서 활용된 LAMBDA 및 UltraLAMBDA 데이터셋에 관한 문의는 저자 그룹(behavior-in-the-wild@googlegroups.com)으로 연락하시기 바랍니다.
💡LAMBDA 데이터셋 인사이트: 무엇이 광고를 기억되게 하는가?
1,749명의 참가자와 2,205개의 광고를 분석하여 도출된 핵심 인사이트입니다.
1. 감정의 힘 (Emotion): 부정적인 감정(Negative emotions)을 담은 광고가 긍정적인 광고보다 더 강력하게 기억되는 경향을 보입니다.
2. 시각적 역동성 (Scene Velocity): 장면 전환이 빠르고 움직임이 많은 광고가 정적인 광고보다 기억에 더 잘 남습니다.
3. 오디오의 반전 (Silence Ratio): 음성이나 음악의 유무보다, 오히려 적절한 정적(Silence)의 비율이 높을수록 회상(Recall)에 긍정적인 영향을 미칩니다.
4. 사용자 환경 (Ad-blockers): 광고 차단기를 사용하는 사용자는 인지적 회피 성향으로 인해 광고를 기억하는 개수가 유의미하게 적었습니다.브랜드 관련성
5. (Brand Relevance): 소비자가 평소 사용하거나 관심 있는 브랜드일수록 기억도가 비례하여 상승했습니다 (상관계수 0.53).
