[Paper Review] Iterative Semantic Reasoning from Individual to Group Interests for Generative Recommendation with LLMs (WWW 2026)

Problem Statement

이 논문에서는 Generative Recommendation 기반의 Sequential Recommendation, Dynamic Recommendation을 주요 태스크로 적용합니다.

  • Sequential Recommendation : 이전 상호작용 이력을 바탕으로 다음 아이템 추천
  • Dynamic Recommendation : 정답 아이템과 랜덤한 negative item (사용자의 상호작용 기록에 없는 아이템)을 후보로 주고, 다음 아이템 생성
    • 이 과정에서 다음 아이템을 맞추는 것은 LLM이 수행

Previous Limitations

image1

이 논문에서는 제시하는 한계점은 크게 2가지를 가지고 있습니다.

  • Shallow Semantic Modeling
    • 아이템의 의미 표현(임베딩)에만 집중하는 것은 사용자의 진짜(숨겨진) 흥미를 포착하는 것에 충분하지 않음.
    • 사용자의 더 깊은 선호도를 파악하기 위해서는, 사용자가 상호작용한 아이템의 의미 이해에 바탕을 둔 단계적인 step-wise reasoning 필요
  • Lack of group-level implicit interests
    • 개인 수준의 명시적인 관심은 파악하지만, 이 사용자와 유사한 사용자들의 집합인 그룹 수준의 암묵적 수준의 이해도는 놓치게 됨
    • 비슷한 사용자 집단이 공유하는 숨겨진 선호도, 즉 암묵적 그룹 선호도(관심사)는 놓치고 반영하지 못해서 제 성능이 나오지 못하는 문제 존재

Method : ISRF

image2

이 논문에서 제안하는 ISRF는 LLM을 활용하여 개인의 명시적 관심사와 유사 사용자 그룹(타겟 사용자와 가장 유사한 Top-k 사용자 연결)의 암묵적 관심사를 3가지 단계를 통해 연결하고 통합합는 추천 프레임워크입니다.

이 과정에서 Input과 Output은

  • Input : Sequential의 경우, 사용자의 이전 상호작용 기록, Direct의 경우 1개의 Positive(Ground Truth), 여러 개의 Negative item 입니다.
    • 여기서는 아이템별 아이템의 토큰 시퀀스와 그 임베딩이 사용됩니다.
  • Output : 다음 아이템의 토큰 시퀀스 (ex, Item_11)

해당 과정에서 사용되는 3가지 모듈은 다음과 같습니다.

  • Individual Interest Reasoning (IIR) : 아이템 속성 정보를 바탕으로 LLM으로 아이템의 의미론적 특징을 추출하는 과정입니다. 이후, User-item interaction graph로 개인의 명시적 관심사를 도출합니다.
  • Group Interest Reasoning (GIR) : LLM을 통해 사용자의 선호도를 포착하고, 비슷한 사용자들을 정보를 바탕으로 사용자가 속한 그룹의 암묵적 관심사를 추론합니다.
  • Iterative Refinement (IR) : 개인 명시적 관심과 그룹의 암묵적 관심을 반복적인 배치 최적화로 교차 정렬하고 보완합니다. -> 이 단계는 IIR, GIR로 나온 사용자, 아이템, 그룹 임베딩을 정렬하는 과정입니다.

이렇게 3가지를 거쳐 나온 아이템, 사용자 임베딩과 프롬프트를 input으로 넣어 다음 아이템에 대한 추천을 진행합니다.

Individual Interest Reasoning (IIR)

IIR은 CoT 추론 매커니즘을 활용해 Multi-step 추론을 진행하고, 아이템에 대한 심층적인 의미 표현을 생성한 뒤, 그래프를 통해 사용자의 명시적 관심사를 추론하는 단계입니다.

Input, Output은 다음과 같습니다.

  • Input : 아이템의 속성 정보 (메타데이터), User-item interaction graph
  • Output : 사용자의 명시적 선호도가 담긴 사용자 임베딩, 아이템 임베딩
  1. 아이템 속성 정보를 LLM에 통과시켜 다음의 정보 생성합니다. 이 과정에서 CoT 방식을 적용합니다.
    • 메타데이터 정보를 통해 이 아이템을 선호하는 사람이 어떤 사람일지에 대한 Positive Description을 생성
    • 어떤 유형의 사용자들이 이 아이템을 선호하지 않을지에 대한 Negative Description 생성
    • 이 2가지를 융합해 더 다양하고 해석가능한 아이템의 Description 생성
  2. 생성된 융합 Description 정보로 아이템의 임베딩을 추출합니다.
    • Pretrained-Text Encoder(EasyRec)에 Description을 통과시켜 아이템의 임베딩 생성
    • PCA로 임베딩 차원을 줄이고, 학습가능한 어댑터에 통과시켜 최종 임베딩을 만듦
    • 이 과정에서 Pretrained Text Encoder의 결과를 바로 추천 임베딩으로 사용하면 LLM이 가진 의미적 구조가 깨질 수 있기 때문에, 위의 과정 수행
    • 추가로, PCA로 차원을 줄인 임베딩은 학습하는 동안 Freeze (의미적 일관성을 유지하기 위함)
  3. 생성된 아이템 임베딩, 랜덤하게 초기화된 사용자 임베딩을 User-item Interaction graph에서 LightGCN을 적용해 메시지 패싱을 진행합니다.
    • 여러 레이어의 출력을 평균으로 매겨 최종적으로 업데이트된 유저 임베딩, 아이템 임베딩을 얻음
    • 메시지 패싱을 진행하는 과정에서, 사용자는 자신이 상호작용한 아이템들의 특징을 전달받고, 아이템은 이를 사용자들의 특성을 전달받아 임베딩을 업데이트

이 과정에서 얻은 임베딩은 추천 과정에서 LLM의 토큰 임베딩으로 사용됩니다.

Group Interest Reasoning (GIR)

GIR은 개인의 기록만으로는 알 수 없는 깊은 잠재적 관심사를 파악하기 위해, 취향이 비슷한 유사 사용자들끼리 연결한 ‘의미 그래프(Semantic Graph)’를 구성하고 그룹의 암시적 관심사를 추론하는 과정입니다.

Input, Output은 다음과 같습니다.

  • Input : 사용자의 이전 상호작용 기록, IIR에서 얻은 유저, 아이템 임베딩
  • Output : 유사도 기반의 User graph, 사용자 그룹의 암죽적 관심사 임베딩(표현)
  1. 각 사용자의 과거 상호작용 기록에서 일부 아이템을 랜덤하게 샘플링한 후, LLM에 통과시켜 사용자의 선호도를 추론합니다.
    • 해당 기록을 가진 사용자가 어떤 관심사를 가질지에 대한 Positive Description 생성
    • 해당 기록을 가진 사용자가 어떤 관심사를 비선호할지에 대한 Negative Description 생성
    • 이 2가지를 유앟ㅂ해 최종 사용자의 Description을 생성
  2. 텍스트 인코딩 및 유사도 기반의 사용자 그래프를 구축합니다. 여기서는 Relation matrix라고도 명칭을 부릅니다.
    • 생성된 사용자 의미 설명을 Pretrained-Text Encoder(EasyRec)을 통과시켜 사용자 임베딩 생성
    • 사용자 임베딩 간 cosine similarity를 계산해서 Top-k 유사 사용자만 연결해서 user-related graph(=semantic relation matrix)를 만듦
    • 컴퓨팅적 복잡성을 줄이고, 그래프 구축에 효율성이 있는 방법이라고 언급합니다.
  3. LightGCN 통한 그룹 암묵적 관심사 학습
    • 구축된 relation matrix 위에서 LightGCN을 적용해 메시지 패싱 수행
    • 초기 사용자 임베딩은 랜덤하게 초기화한 상태에서 학습 시작하고, 자신과 취향이 비슷한 주변 유사 사용자들의 정보를 하나로 모아 집계

위 과정을 거쳐 최종적으로 이 사용자와 비슷한 사람들의 잠재적 공통 관심사가 담긴 최종 그룹 암묵적 관심 표현이 생성됩니다.

Iterative Refinement (IR)

IR은 IIR과 GIR에서 도출된 두 가지 관심사를 독립적으로만 학습할 때 발생하는 표현 불일치(Representation inconsistency) 문제를 해결하고, 두 정보를 교차 정렬하는 최종 융합하는 과정입니다.

Input, Output은 다음과 같습니다.

  • Input : 이전 단계에서 생성된 선호도 정보 2개 (IIR, GIR), Sequential Alignment에서 사용되는 순차 기반 사용자 선호도 (사용자의 상호작용 시퀀스 내 아이템들의 전체 단어 임베딩 평균)
  • Output : 최종 사용자 선호도 임베딩
  1. Direct-to-Sequential
    • GIR의 결과를 Teacher로, IIR의 결과를 Student로 설정하여 Teacher Forcing 방식으로 두 임베딩이 연결되도록 학습합니다.
    • 이때, Contrastive Distillation Loss를 사용해서, 유사 사용자 집단에서 얻은 숨은 관심 정보를 이용해 개인의 명시적 표현을 더 좋게 표현하도록 합니다.
  2. Sequential Representation Alignment
    • GIR의 결과와 순차정보 기반 사용자 임베딩 사이 상호 정보량을 높이는 과정입니다.
    • Contrasitve Loss를 사용해 그룹 수준의 숨겨진 관심사가 개인의 다음 아이템 예측과 비슷한 임베딩 공간에 위치하도록 합니다.

학습 과정에서는 추천 목적 (DR, SR)에 따라 다르게 학습시키는 것이 아닌, 한 번은 DR, 한 번은 SR을 번갈아 학습하면서 반복적인 배치 최적화 과정을 진행합니다. 쉽게 말씀드리면, 태스크에 따라 적용하는 Loss만 다르지, 전체적으로는 두 케이스가 모두 반영됩니다. 추론 과정에서는 추천 목적에 맞춰 태스크별로 입력 프롬프트와 임베딩만 다르게 설정해 최종 결과를 도출합니다.

Experiments

Experiments Settings

  • Reasoning Model (Description 생성)은 Deepseek R1-14B를 사용합니다.
  • 추천 LLM 모델은 T5-small 모델을 사용합니다.

Overall Performance

perf

Ablation Study

abl

Sequential Recommendation에서 2가지의 loss를 각각 제외하는 것은, 한가지 정보만 반영하는 것이 아닌, 그룹 관점의 암묵적 정보와 개인 관점의 명시적 정보가 정렬되어야 함을 제시합니다.

Direct Recommendation에서는 아이템의 의미 추론을 위한 Description 생성 과정이 가장 성능에 많은 영향을 미치는 것을 알 수 있습니다. Adapter 역시, semantic space와 recommendation space를 맞춰주는 역할을 수행하기 때문에 마찬가지로 중요한 역할을 수행하기에 중요합니다.

Impact of Semantic Variants

variants

각 실험에서는 사용자, 아이템 쪽에서 Description 생성 과정에서 Positive or Negative만 사용하는 관점과 전체를 사용하는 케이스의 성능을 비교합니다.

실험 결과, positive semantic 정보와 negative semantic 정보가 서로 비슷한 수준으로 유용하며, 서로를 보완하는 semantic signal 역할을 해서 각각 positive, negative 하나만 넣으면 안되고, 둘 다 같이 있어야 함을 알 수 있습니다.

Computational Complexity Analysis

complexity

Hyperparameter Sensitivity

param1

param2

Conclusion

Contribution

  • explicit individual interest → implicit group interest로 이어지는 step-wise reasoning으로 단계적으로 정보들을 골고루 반영합니다. 이로 인해서, 다양한 관점의 정보를 충분히 활용할 수 있습니다.
  • 개인이 사용한 아이템 정보만 반영하는 것이 아닌, 유사 사용자의 정보까지 같이 반영을 하여 풍부하고 포괄적인 관심 표현에 기반한 추천을 수행합니다. 그로 인해서 다양한 추천 태스크에서 좋은 성능을 보일 것으로 기대됩니다.

Limitations

  • Ablation Study 부분에서 제거하는 요소들이, DR, SR 모두 진행할 수 있었는데, 한쪽으로만 진행한 점에서 공정성이 부족합니다.
  • 모델 크기의 한계를 지적했는데, 이를 증명할만한 요소가 보이지 않았습니다. (Deepseek R1만이 아닌, LLM 기반 추천에서 사용되는 LLaMA-7B 등으로 reasoning을 진행했을 때 비교 필요, T5 모델로 의미 추론을 했을 때 성능 비교실험 없음)
  • 현대의 Generative Recommendation보다는 동떨어진 경향을 보이는 논문입니다.
    • GRAM같은 textual Identidier, RQ-VAE 기반의 토큰에 비해 트렌드가 동떨어지는 케이스이빈다.
    • ELMRec 베이스의 모델이 P5 모델의 고전적인 방식이라 할 수 있고, 그렇기에, 압축성, 효율성을 모두 가지는 Generative Recommendation의 틀네드와 비교하면 동떨어질 수 밖에 없습니다.

Categories:

Updated:

Leave a comment