[Paper Review] Unleashing the Native Recommendation Potential: LLM-Based Generative Recommendation via Structured Term Identifiers

Problem Statement

Generative Recomemndation

image

Generative Recommendation은 사용자가 이전에 상호작용했던 아이템을 토큰 단위로 변환하여 LLM에 입력한 다음, 다음 상호작용할 아이템의 토큰을 Autoregressive하게 생성하는 태스크입니다. 이 태스크에서는

  • Input : 사용자의 이전 상호작용 아이템의 토큰 ID
  • Output : 사용자가 다음에 상호작용할 아이템의 토큰 ID

로 구성됩니다.

Item Identifiers

image

Item Identifiers (아이템 토큰)는 Generative Recommendation에서 아이템을 표현하는 단위입니다. 이 논문에서 다루는 Identifier은 크게 2가지로 구성됩니다.

Textual Identifier

Textual Identifier은 Title이나 간단한 Description, 혹은 해당 텍스트에 등장하는 단어들의 조합 등의 방법으로 아이템을 표현하는 Identifier을 만드는 방법입니다. 이 방법을 사용하는 대표적인 방법은 IDGenRec(SIGIR 2024), GRAM(ACL 2025)가 있습니다.

Ex : Truth by Calvin Klein for Women, Eau De Parfum Spray, 3.4 Ounce -> star, wars, interactive, electronic, r2d2

Semantic IDs

아이템의 Title, Description 등 텍스트 정보들에 기반해 임베딩을 만들고, RQ-VAE 등의 Vector Quantization 모델을 활용해 여러 개의 Numeric ID를 만드는 방법입니다. 이 방법을 Generative Recommendation에서 주로 활용하고 있으며, 대표적인 논문은 TIGER(NeurIPS 2023), LC-Rec(ICDE 2024), LETTER(CIKM 2024), ETEGRec(SIGIR 2025) 등이 있습니다.

Ex : Truth by Calvin Klein for Women, Eau De Parfum Spray, 3.4 Ounce -> a_216, b_216, c_32, d_6

→ 이 논문에서 주로 다루는 태스크가 Item Identifier에 관련된 부분이기에, 뒤이은 내용에서는 이 Identifier에 대한 이해가 필요합니다.

Previous Limitations

이 논문에서는 각 Identifier 방법마다 한계를 지적하고 있습니다.

Textual Identifiers

Textual Identifiers에서 사용하는 정보 중 Title은 너무 짧아 구분력 있는 정보가 부족하고, description은 너무 길어서 노이즈를 불러올 수 있다는 점에서 활용에 한계가 있습니다. 즉, 시퀀스 모델링에 비효율적입니다.

또한, LLM에 기반한 자연어 생성 공간이 너무 커서, 할루시네이션 현상에서 자유롭지 못하다는 문제가 있습니다 → 간단하게 말하면, 존재하지 않는 Textual Identifier을 만들어낼 수 있고, 그에 따라 Grounding 실패 가능성 존재합니다

  • 즉, 제대로 된 아이템에 매핑하지 못할 수 있어, 존재하지 않는 아이템의 ID를 만들어내는 문제가 있습니다. (제대로 된 아이템에 매핑하지 못함)

또한, 이 현상으로 인해 기존의 추천 연구가 Constrained Decoding이나 후보 제한 등의 방법에 의존하게 되고, 완전한 Generative Recommendation이 되기 어렵다는 한계를 저자들이 지적하고 있습니다.

Semantic IDs

Semantic ID에서는 Semantic Gap 문제가 발생할 수 있습니다. Semantic ID들은 LLM이 사전학습 과정에서 보지 못한 토큰입니다. 즉, 학습시켜서 단어 확장(vocabulary expansion)이 필요한데, 이와 별개로 높은 성능을 보장하기 위해서는 Alignment Tuning이 필요합니다. 바로 이 과정에서, Alignment Tuning에는 비용이 크고, 학습 파이프라인이 복잡해지는 문제가 있습니다.

무엇보다도, 이 방법은 도메인이나 데이터셋이 바뀌면 일반화 성능이 약해지는 Cross-domain 추천에서 약점을 보이고 있습니다.

Method : GRLM with Term IDs

image

제안하는 GRLM(Generative Recommendation Language Model)은 다음의 세 가지 서브태스크로 구성됩니다.

  • Context-aware Term Generation (CTG)
  • Integrative Instruction Fine-tuning
  • Elastic Identifier Grounding

본 모델의 입력으로는 사용자의 아이템 상호작용 이력과 함께, 아이템의 메타데이터 정보(예: Title, Description 등)가 사용됩니다. 이를 바탕으로 모델은 다음 시점에 추천할 아이템을 대표하는 Term ID(TID)를 출력으로 생성합니다.


Method 1 : Context-aware Term Generation (CTG)

image

기존의 Independent Generation 방식은 각 아이템을 개별적으로 처리하여 식별자를 생성하기 때문에, 의미적으로 동일한 개념임에도 불구하고 서로 다른 토크나이저 또는 표현으로 정의되는 문제가 존재합니다.
예를 들어 Cell-PhoneMobile-Phone과 같이 의미적으로 동일한 용어가 서로 다른 토큰으로 생성되어 용어 일관성이 저해될 수 있습니다.

이러한 문제를 해결하기 위해, 본 논문에서는 유사한 아이템 간에는 용어 일관성을 유지하면서도, 동일한 카테고리 내에서는 각 아이템을 구분할 수 있는 특징을 반영한 Term ID 생성 방법을 제안합니다. 구체적으로, 각 아이템을 대표하는 Term ID를 표준화된 다섯 개의 키워드로 구성된 시퀀스로 생성합니다.

  • Input
    • 타겟 아이템의 메타데이터 (Title, Description)
    • 유사 이웃 아이템들의 메타데이터 (Title, Description)
  • Output
    • 각 아이템에 대한 표준화된 Term ID 시퀀스

CTG의 과정은 크게 다음과 같이 진행됩니다.

  1. 각 아이템의 메타데이터를 사전 학습된 임베딩 모델을 통해 인코딩하여 dense vector 표현을 생성합니다. 이 과정에서 사용되는 임베딩 모델은 Qwen3-Embedding-8B 모델입니다.

  2. 타겟 아이템과 다른 아이템들 간의 임베딩 벡터에 대해 코사인 유사도를 계산하고, 상위 Top-k개의 아이템을 선택하여 타겟 아이템의 context set $N_i$을 구성합니다.

  3. 타겟 아이템과 Top-k 이웃 아이템들의 메타데이터를 결합하여 Structured Prompt를 구성하고, 이를 LLM의 입력으로 사용하여 Term ID를 생성합니다. 해당 프롬프트는 이웃 아이템들에서 공통적으로 등장하는 속성은 동일한 표준 용어로 수렴시키고, 타겟 아이템만의 구분되는 특징을 드러내는 키워드를 선택하도록 설계됩니다.
    이를 통해 전역적인 용어 일관성과 지역적인 판별성을 동시에 달성합니다. image

본 논문에서는 이러한 프롬프트 설계를 Schema-based Prompt로 설명하며, Term ID 생성을 위한 언어 모델로 Qwen3-4B를 사용합니다.

이 모델은 이후 LLM 학습 및 추천 과정에서도 사용됩니다. 최종적으로 생성된 Term ID는 표준화된 다섯 개의 키워드로 구성됩니다.

Example

  • Truth by Calvin Klein for Women, Eau De Parfum Spray, 3.4 Ounce
    perfume | feminine | oriental | woody | calvin-klein

Method 2 : Integrative Instruction Fine-tuning (IIFT)

image

LLM 기반 생성형 추천에서는 추천 과정 중 identifier와 아이템 의미 간의 연결이 약화되는 문제가 발생할 수 있습니다.
이를 방지하기 위해 본 논문에서는 아이템 의미 학습과 추천 학습을 하나의 Instruction Fine-tuning 과정으로 통합하는 방식을 제안합니다.

Generative Term Internalization (GTI)

Generative Term Internalization(GTI)은 아이템의 메타데이터만을 입력으로 받아 해당 아이템의 표준화된 Term ID를 생성하도록 LLM을 학습하는 단계입니다.

  • Input : 아이템의 메타데이터 (Title, Description 등)
  • Output : 해당 아이템의 표준화된 Term ID

이 단계에서는 앞선 Context-aware Term Generation 단계에서 구축한 Term ID를 정답으로 사용하여, LLM이 이웃 아이템 정보 없이도 메타데이터만으로 올바른 Term ID를 생성하도록 학습합니다.
이를 통해 모델은 메타데이터와 Term ID 간의 대응 관계를 내부 규칙으로 학습하게 됩니다.

이러한 학습은 LLM의 자연어 출력 공간을 자유로운 텍스트 공간에서, 구조화되고 제한된 Term ID 공간으로 수렴시키는 효과를 가지며, identifier 기반 의미 표현을 안정적으로 내재화하도록 합니다.

User Sequence Prediction

User Sequence Prediction은 기존 LLM 기반 추천 모델에서 흔히 사용하는 단순한 Next-item prediction과는 목적과 학습 구성이 다릅니다. 만약 GTI(Generative Term Identifier)만 학습한다면, 모델이 Term ID 자체는 잘 생성할 수 있지만, 정작 “추천”을 수행하도록 충분히 학습되지 않아 추천 성능이 떨어질 수 있습니다. 반대로 Term ID를 Next-item prediction 방향으로만 학습하게 되면, Term ID를 의미 구조로 이해하기보다는 데이터셋을 암기하는 방향으로 학습이 진행될 수 있다는 한계가 존재합니다.

이러한 문제를 완화하기 위해, 논문에서는 GTI와 함께 User Sequence Prediction을 같이 학습합니다.

  • Input : 사용자의 과거 아이템 중 첫번째 아이템의 Term ID + Title
  • Output : Output : 다음 추천 아이템들에 대한 Term ID + Title -> 첫 아이템 이후 상호작용 시퀀스를 Concatenate해서 학습 (x2 ~ xn에 대한 Term ID + Title)

학습 구성은 다음과 같습니다. 입력(Input)은 사용자의 과거 상호작용 아이템 중 첫 번째 아이템 $x_1$ 에 대한 Term ID + Title 정보로 구성합니다. 출력(Output)은 그 이후 상호작용 시퀀스 $x_2,\dots,x_n$에 해당하는 Term ID + Title하나의 텍스트 시퀀스로 concatenate하여 생성하도록 학습합니다. 즉, 첫 아이템 $x_1$을 입력 컨텍스트로 고정하고, 이후 아이템들의 정보를 하나로 이어붙인 출력 시퀀스를 생성하는 방식이며, 학습 손실은 출력 토큰에 대한 negative log-likelihood(NLL) 를 최소화하는 형태를 사용합니다.

직관적으로 설명하면, 이전 정보(prefix)를 바탕으로 다음 아이템을 순차적으로 예측하는 흐름으로 이해하실 수 있습니다.

  • $x_1 \rightarrow x_2$ 예측
  • $x_1, x_2 \rightarrow x_3$ 예측
  • $x_1, x_2, x_3 \rightarrow x_4$ 예측

마지막으로, Train 단계에서는 Term ID + Title을 함께 생성하도록 학습할 수 있으나, 추론(Inference) 단계에서는 효율성을 위해 Term ID만 생성한다는 점에 유의하시면 됩니다.


Method 3 : Elastic Identifier Grounding (EIG)

image

Elastic Identifier Grounding은 LLM이 생성한 Term ID가 실제로 어떤 아이템을 의미하는지를 명확히 하기 위해, 생성된 Term ID를 실제 아이템으로 매핑하는 단계입니다.

  • Input : LLM이 생성한 Term ID
  • Output : Term ID에 매핑되는 실제 아이템

Grounding 과정은 Direct MappingStructural Mapping의 두 단계로 구성됩니다.

Direct Mapping

Direct Mapping 단계에서는 생성된 Term ID가 특정 아이템의 Term ID와 문자열 수준에서 완전히 동일한지를 확인합니다.
완전히 동일한 경우, 추가적인 처리 없이 해당 아이템으로 즉시 매핑하고 grounding 과정을 종료합니다.
즉, 모델이 정확히 동일한 Term ID를 생성한 경우에는 추가 복구 없이 바로 grounding이 완료됩니다.

Structural Mapping

Structural Mapping은 Direct Mapping이 실패한 경우에 적용됩니다.
이는 Term ID의 일부가 동의어로 대체되거나 철자 차이로 인해 문자열 수준의 완전 일치가 이루어지지 않는 상황을 처리하기 위한 단계입니다.

Term ID가 여러 개의 Term으로 구성된 구조적 시퀀스라는 점을 활용하여, 생성된 Term ID와 각 후보 아이템의 표준 Term ID를 Term 단위로 비교합니다.
각 Term의 일치 여부를 indicator 함수로 계산하고, 위치별 중요도를 반영한 가중합 방식의 구조적 점수를 정의합니다.
이후 해당 점수를 최대화하는 아이템을 최종 grounding 결과로 선택합니다.

수식적으로, 다음과 같이 정의됩니다. image

  • $C$ : 후보 아이템 집합 (해당 도메인의 전체 아이템)
  • $t_{gen}^j$ : 생성된 Term ID의 $j$번째 Term
  • $t_i^j$ : 후보 아이템 $i$의 표준 Term ID에서 $j$번째 Term
  • $\mathcal{I}(\cdot)$ : 동일하면 1, 다르면 0을 반환하는 indicator 함수
  • $w_j$ : 위치별 가중치 (앞에 위치한 Term일수록 높은 중요도를 가지도록 decay 형태로 설정)

Experiments

본 논문에서는 제안한 GRLM의 성능을 검증하기 위해 In-domainCross-domain 추천 환경에서 실험을 수행합니다.

Experiments Settings

image

  • In-domain 및 Cross-domain 데이터셋을 모두 사용하여 평가를 진행합니다.
  • 모든 데이터셋에 대해 5-core filtering을 적용하여, 최소 5회 이상 상호작용한 사용자와 아이템만을 사용합니다.
  • Cross-domain 실험에서는 다음과 같은 도메인 쌍을 사용합니다.
    • Sports → Clothing (Leisure)
    • Phones → Electronics (Technology)
  • Generation max-length는 30으로 설정하여, Term ID 생성 시 최대 30 토큰까지 생성하도록 합니다.
  • 모든 아이템의 Term ID는 5개의 Term으로 고정합니다.
  • 생성 및 추천을 위한 LLM으로는 Qwen3-4B-2507 모델을 사용합니다. 모델의 추천 성능은 Recall@K, NDCG@K를 사용하여 평가하고 K는 5, 10을 적용합니다.

Overall Performance

In-domain Performance

image

In-domain 추천 성능 비교 결과, 제안하는 GRLM은 모든 비교 모델 대비 가장 우수한 성능을 기록합니다.
이는 Term ID 기반의 추천 패러다임이 LLM에 내재된 추천 능력을 효과적으로 끌어내는 데 기여함을 보여줍니다.

특히, 자연어 기반의 의미 표현을 구조화된 Term ID로 제한함으로써, 아이템 간 의미적 관계를 보다 명확하게 반영할 수 있음을 확인할 수 있습니다.

Cross-domain Performance

image

Cross-domain 환경에서도 GRLM은 매우 경쟁력 있는 성능을 보입니다.
특히 Recall 지표에서 50% 이상의 성능 향상을 달성하며, 도메인 간 추천 성능에서 큰 개선을 확인할 수 있습니다.

기존의 Cross-domain 추천 모델인 TriCDR이나 GenCDR은 특수한 아키텍처나 보조 모듈을 필요로 하는 반면, GRLM은 이러한 추가적인 구조 없이도 높은 성능을 달성합니다.

이는 GRLM이 사용하는 Term ID가 자연어 기반 어휘로 구성되어 있어, 서로 다른 도메인 간을 연결하는 semantic bridge 역할을 수행하기 때문입니다.
즉, Term ID를 통해 아이템의 의미적 유사성이 도메인을 넘어 효과적으로 전달되며, 이를 통해 Cross-domain 추천에서도 안정적인 성능 향상이 이루어집니다.


Ablation Study

image

Ablation Study에서는 Context-aware Term Generation (CTG)
Generative Term Internalization (GTI)의 기여도를 보다 명확히 분석하기 위해,
각 구성 요소를 제거한 ablation 설정을 비교합니다.

  • w/o CTG
    • Term ID 생성 과정에서 유사 이웃 아이템을 제외하며, 프롬프트에는 타겟 아이템의 메타데이터만을 사용합니다.
  • w/o GTI
    • LLM fine-tuning 과정에서 Generative Term Internalization 태스크를 제거하고,
      User Sequence Prediction만을 학습합니다.

실험 결과, 전체적으로 CTG를 제거한 경우 성능 하락의 폭이 가장 크게 나타납니다.
이는 Term ID 생성 과정에서 유사 이웃 아이템 정보가 제거되면, 용어 일관성을 유지하기 어려워지고
타겟 아이템만의 구분되는 특징을 효과적으로 추출하지 못하기 때문입니다.

그 결과, 생성된 Term ID는 의미적으로 지나치게 일반적(generic)이거나
구조적으로 단편적인(fragmented) 형태로 수렴하는 경향을 보이며,
전반적인 Term ID 품질이 저하됩니다.

한편, GTI를 제거한 경우에도 성능 하락이 관찰됩니다.
특히 Beauty 데이터셋에서는 GTI를 제외했을 때 성능 감소 폭이 상대적으로 더 크게 나타납니다.
GTI는 복잡하고 다양한 메타데이터 정보를 제한된 Term ID 공간으로
안정적으로 매핑하도록 LLM을 유도하는 역할을 수행합니다.

그러나 해당 학습을 제거할 경우, LLM이 메타데이터와 Term ID 간의 대응 관계를
충분히 내재화하지 못하게 되며, 이로 인해 추천 성능이 저하됩니다.


Scaling Law Analysis

image

해당 실험에서는 모델 크기에 따른 GRLM의 성능 변화를 분석해 모델 스케일이 Term ID 기반 생성형 추천에 미치는 영향을 살펴봅니다.

모델 크기에 따른 성능 분석을 위해,
Qwen3-2504 계열의 서로 다른 파라미터 크기를 갖는 모델을 사용하여 실험을 수행합니다.

  • 사용한 모델 크기:
    • 0.6B, 1.7B, 4B, 8B, 14B

실험 결과, 모델 크기가 증가함에 따라 추천 성능이 일관되게 향상되는 경향을 보입니다.
이는 대규모 모델일수록 더 많은 사전 지식과 정교한 추론 능력을 내재화할 수 있으며,
Term ID로 제한된 구조화된 출력 공간에서도 이러한 이점이 효과적으로 활용될 수 있음을 의미합니다.


Hallucination of Term IDs

image

해당 실험에서는 Term ID 기반 추천이 존재하지 않거나 유효하지 않은 Identifier을 생성하는 Hallucination 문제를 얼마나 완화하는지를 분석합니다.

Hallucination 정도는 다음의 두 지표를 통해 평가합니다.

  • Valid Rate (VR)
    • Elastic Identifier Grounding(EIG) 과정을 거쳐
      최종적으로 실제 아이템에 매핑 가능한 비율
  • Direct Hit Rate (DHR)
    • Structural Mapping 없이 Direct Mapping으로
      즉시 매핑에 성공한 비율

Term ID 기반 추천에서는 생성 결과의 99% 이상이 사전에 정의된 Term ID 공간 내에서 생성되며, 이를 통해 hallucination이 유의미하게 감소함을 확인합니다.

Hallucination이 심할 경우 VR@10 자체가 하락하는 문제가 발생할 수 있으나,
GRLM은 구조화된 Term ID 공간을 사용함으로써 이 문제를 완화하는데, 이는 자연어 기반이면서도 출력 공간이 제한된 identifier 설계의 장점을 보여주는 결과입니다.

Length of Term IDs

image

기본 설정에서는 Term ID의 길이를 5로 고정하였으며, 이를 7 및 10으로 확장하여 성능 변화를 비교합니다. 이 외의 설정은 모두 동일하게 진행합니다.

실험 결과, Term ID 길이를 7로 확장한 경우는 5로 설정했을 때와 비교해 조금 하락하지만,전반적으로 유사한 성능을 보입니다.

반면, Term ID 길이를 10으로 설정할 경우 추천 성능이 오히려 소폭 하락하는 현상이 관찰되며, 추론 지연(latency) 문제 또한 함께 발생합니다.

저자들은 Term ID가 과도하게 길어질 경우, 중복되거나 불필요한 정보가 포함되어 오히려 의미 표현의 효율성이 저하된다고 설명합니다.


Case Study

image

기존의 Semantic ID 및 Text ID와 비교했을 때, Term ID는 아이템의 핵심 특징을 보다 효과적으로 포착하고, 이를 자연어 형태로 요약하는 특성을 보입니다. 특히 Term ID는 사람이 보아도 직관적으로 이해 가능한 형태를 가지며, LLM이 이미 알고 있는 자연어 단어들로 구성되는 것을 확인할 수 있습니다.

반면, Text ID의 경우 r2d2와 같이 LLM이 의미를 충분히 이해하지 못하는 토큰이 포함될 수 있으며, Semantic ID는 각 토큰의 의미가 명시적으로 드러나지 않는 블랙박스 형태라는 한계를 가집니다.


Robustness and Data Scalability

해당 실험에서는 데이터 규모가 증가하는 환경에서도 GRLM이 안정적으로 동작하는지를 검증하기 위한 실험입니다.

Large-scale Joint Training

image

먼저, 서브 도메인 10개를 결합하여 대규모 공동 학습 및 평가를 수행합니다.

일반적으로 아이템 수가 증가하면, ID-space crowding이나 item collision 문제로 인해
추천 성능이 감소할 수 있습니다. 그러나 GRLM은 자연어 기반의 Term ID를 사용함으로써
In-domain과 비교해 하락이 크지 않음을 알 수 있습니다.

또한, GRLM은 서로 다른 도메인 간에 공유되는 자연어 단어들이 semantic bridge 역할을 수행하여, 각 Term에 대한 학습 신호가 풍부해지고 전체 학습 과정이 보다 안정적으로 이루어짐을 알 수 있습니다.

Semantic Space Compression

image

실제 환경에서는 데이터 규모가 커질수록 출력 어휘 공간이 급격히 증가하여 관리가 어려워질 수 있습니다. 이를 위해 Term ID 어휘 공간을 K-means 기반으로 압축하는 실험을 수행합니다.

해당 실험에서는 크게 다음의 과정으로 Term ID를 구성하도록 과정을 수정하여 진행했습니다.

  • 10개 데이터셋의 전체 출력 어휘에 대해 K-means clustering 수행
  • 각 클러스터의 centroid를 core term으로 정의
  • 각 아이템의 Term을 가장 가까운 core term으로 치환하여
    compressed Term ID를 구성

실험 결과, 원래 54,255개의 Term vocabulary를 K = 8,000 / 5,000 / 3,000으로 압축하더라도 평균 추천 성능은 거의 유지되는 것으로 나타납니다.

이는 GRLM이 대규모 데이터 환경에서도 의미 공간을 효율적으로 관리하며 확장 가능한 추천 모델임을 보여줍니다.

Conclusion

Contribution

  1. GRLM은 LLM의 기존 vocabulary를 그대로 활용하며, 추가적인 토큰 확장이나 외부 vocabulary 없이도 In-domain 및 Cross-domain 추천 환경 모두에서 안정적이고 우수한 성능을 달성함을 보여줍니다.

  2. 기존의 생성형 추천 방식이 Constrained Decoding이나 복잡한 후보 제한 전략의 의존성을 완화했습니다.

  3. 기존 Identifier들이 가진 문제를 해결하면서 사람이 이해 가능한 의미 단위로 LLM의 사전 지식 기반의 Term ID를 제안해, 이 부분에서 Novelty가 있습니다.

Limitation

  1. 저자들은 Term ID 생성을 위한 유사 아이템 탐색 과정에서 Qwen3-8B 임베딩 모델에 대한 의존도가 비교적 높음을 언급합니다.

  2. 일부 최신 LLM 기반 추천 모델들과의 비교가 포함되지 않았습니다. 예를 들어, GRAM, LC-Rec, LETTER와 같은 최근 연구들과의 직접적인 성능 비교가 이루어지지 않았습니다. 이로 인해서 Hierarchical structure을 가지는 identifier 모델들과의 비교가 부족합니다.

  3. Textual Identifier 기반 접근 방식에 대한 설명이 부족합니다. Textual Identifier 방법은 IDGenRec 방식에 한정되어 있으며, Textual ID 전반에 대한 포괄적인 설명이나 비교가 충분히 제공되지 못했습니다. 또한, Textual ID는 본래 Title이나 Description을 그대로 집어넣지 않습니다.

    IDGenRec의 경우, t5-small-machine-articles-tag-generation 모델을 사용하여 Textual ID를 생성합니다.

Categories:

Updated:

Leave a comment