https://arxiv.org/html/2510.08338v1 논문 읽기
의미론적 유사성 평점을 활용한 대규모 언어 모델의 인간 구매 의도 재현에 대한 심층 분석
요약
본 보고서는 대규모 언어 모델(LLM)을 활용하여 소비자 설문조사를 시뮬레이션할 때 발생하는 핵심적인 문제점을 해결하기 위한 새로운 방법론을 제시한 연구 논문 "LLMs Reproduce Human Purchase Intent via Semantic Similarity" (arXiv:2510.08338v1)를 심층적으로 분석한다. 기존 소비자 연구는 막대한 비용과 패널 편향, 제한된 규모 등의 한계를 지니고 있으며, 이에 대한 대안으로 LLM을 활용한 '합성 소비자(synthetic consumers)' 시뮬레이션이 주목받고 있다. 하지만 LLM에게 직접적으로 리커트 척도(Likert scale)와 같은 수치형 평점을 요구할 경우, 응답 분포가 지나치게 좁거나 편향되는 등 인간의 실제 응답 패턴과 현저한 차이를 보이는 문제가 지속적으로 제기되어 왔다.
본 연구는 이러한 문제가 LLM 자체의 근본적인 한계가 아닌, 응답을 유도하는 방식(elicitation method)의 문제라고 주장한다. 이에 대한 해결책으로 연구진은 의미론적 유사성 평점(Semantic Similarity Rating, SSR)이라는 새로운 프레임워크를 제안한다. SSR은 LLM으로부터 직접적인 숫자 대신 자유로운 텍스트 형식의 응답을 먼저 유도한 후, 이 텍스트 응답의 임베딩 벡터와 사전에 정의된 기준 문장(reference statements)의 임베딩 벡터 간의 의미론적 유사도(semantic similarity)를 계산하여 리커트 척도상의 확률 분포로 변환하는 방식이다.
연구진은 퍼스널 케어 제품에 대한 57개의 실제 소비자 설문조사(총 9,300명의 인간 응답) 데이터를 활용하여 SSR 방법론의 효용성을 검증했다. 그 결과, SSR은 인간의 검사-재검사 신뢰도(human test-retest reliability)의 90%에 달하는 높은 상관관계 달성도()를 기록했으며, 동시에 콜모고로프-스미르노프(Kolmogorov-Smirnov) 유사도 기준 0.85 이상()으로 매우 현실적인 응답 분포를 재현하는 데 성공했다. 또한, 이 과정에서 생성된 합성 응답자들의 풍부한 텍스트 응답은 제품 컨셉에 대한 심도 있는 정성적 피드백을 제공하는 부가적인 가치를 지닌다. 이 연구는 전통적인 설문조사 지표와의 호환성과 해석 가능성을 유지하면서도 확장 가능한 소비자 연구 시뮬레이션의 새로운 가능성을 제시했다는 점에서 중요한 의의를 갖는다.

소비 시뮬레이션의 도전 과제: 연구 배경 및 동기

전통적 소비자 조사의 한계
기업들은 신제품 개발 및 마케팅 전략 수립 과정에서 소비자의 선호도와 구매 의도를 파악하기 위해 매년 전 세계적으로 수십억 달러에 달하는 막대한 비용을 소비자 조사에 투자한다.1 제품 컨셉 테스트는 이러한 조사의 핵심적인 부분으로, 본격적인 생산 및 출시에 앞서 대표 소비자 패널을 대상으로 설문조사를 실시하여 시장의 잠재적 수요를 예측한다. 이 과정에서 가장 중요한 지표는 단연 '구매 의도(Purchase Intent, PI)'이며, 이는 일반적으로 "만약 이 제품을 구매할 수 있다면 얼마나 구매할 의향이 있습니까?"와 같은 질문을 통해 5점 리커트 척도로 측정된다.
그러나 이러한 전통적인 패널 기반 조사 방식은 오랜 기간 사용되어 왔음에도 불구하고 여러 구조적인 한계를 내포하고 있다. 대표적으로 응답자들이 질문에 깊이 생각하지 않고 적당히 응답하려는 '만족화(satisficing)' 경향, 질문 내용과 무관하게 긍정적으로 답하려는 '순응 편향(acquiescence bias)', 그리고 전반적으로 긍정적인 평가를 내리려는 '긍정 편향(positivity bias)' 등이 응답의 신뢰도를 저해하는 주요 요인으로 꼽힌다.1 이 외에도 패널 참여자들의 인구통계학적 대표성 문제, 특정 그룹에 편중될 수 있는 패널 편향(panel biases), 그리고 대규모 조사를 수행하기 어려운 제한된 규모(limited scale) 등은 막대한 자원을 투자함에도 불구하고 소비자 수요에 대한 잡음이 많은(noisy) 측정치를 얻게 되는 원인이 된다.1 이러한 한계는 보다 비용 효율적이고 확장 가능하며 신뢰도 높은 대안적 연구 방법론에 대한 필요성을 증대시키는 배경이 되었다.
'합성 소비자'로서 LLM의 가능성과 난제
최근 대규모 언어 모델(LLM)의 비약적인 발전은 기존의 인간 설문 패널을 보완하거나 일부 대체할 수 있는 '합성 소비자'라는 새로운 가능성을 열었다. 연구자들은 LLM에 특정 인구통계학적 정보나 태도적 특성을 지닌 페르소나(persona)를 부여하고, 인간과 동일한 설문 도구를 제시함으로써 인간과 유사한 응답 패턴을 재현할 수 있는지 탐색하기 시작했다. 이러한 연구는 시장 조사뿐만 아니라 정치학, 심리학, 소비자 행동론 등 다양한 학문 분야로 빠르게 확산되며 LLM 기반 합성 샘플의 잠재력을 입증하고 있다.
하지만 이와 동시에 LLM을 설문 응답자로 활용하는 데 있어 해결해야 할 과제들 또한 명확해졌다. 그중에서도 가장 반복적으로 지적되는 문제는 리커트 척도와 같은 수치형 응답을 직접적으로 유도(direct elicitation)할 때 발생하는 비현실적인 응답 분포이다. LLM에게 1점에서 5점 사이의 숫자로 응답하라고 직접적으로 요구할 경우, 생성된 응답의 분포는 인간의 데이터와 비교했을 때 지나치게 좁은 분산을 보이거나, 특정 값으로 체계적으로 편향되거나, 전반적으로 일관성이 결여되는 경향을 보였다. 예를 들어, 많은 경우 LLM은 극단적인 값(1점 또는 5점)을 선택하기보다는 '안전한' 중간 값(주로 3점)으로 회귀하는 경향을 나타냈다.
이러한 현상은 LLM이 인간의 선호를 시뮬레이션할 근본적인 능력이 부족해서라기보다, 질문의 형식과 모델의 작동 방식 간의 불일치에서 비롯된다고 볼 수 있다. LLM은 본질적으로 텍스트 시퀀스에서 다음 토큰을 예측하도록 훈련된 모델이다. 즉, 모델의 '사고' 과정은 언어적이고 맥락적이며 확률적인 패턴에 기반한다. 이러한 모델에게 '3' 또는 '4'와 같은 단일 정수를 출력하도록 강제하는 것은, 모델이 가진 풍부한 텍스트 생성 능력을 활용하지 못하게 하는 추상적이고 제약된 과업을 부과하는 것과 같다. 이는 마치 소설가에게 자신의 작품을 단 하나의 숫자로 요약하라고 요구하는 것과 비견될 수 있다.
반면, 텍스트 응답을 유도하는 것은 LLM이 본연의 영역에서 작동하도록 허용하는 것이다. 모델은 방대한 훈련 데이터에서 학습한 인간의 다양한 의견과 표현 방식을 바탕으로 주어진 제품 컨셉과 페르소나에 대해 미묘한 뉘앙스가 담긴 텍스트를 생성할 수 있다. 본 연구에서 제안하는 SSR 방법론은 바로 이 지점에서 출발한다. 즉, LLM이 가장 잘하는 방식인 '텍스트로 생각하고 표현하게' 한 뒤, 그 고차원적인 텍스트 정보를 전통적인 양적 분석과 호환되는 숫자 형식으로 변환하는 방법론적 교량을 구축한 것이다. 이는 LLM에게 숫자를 '심문'하는 방식에서 벗어나, LLM의 텍스트 기반 의견을 '경청'하고 이를 해석하는 패러다임의 전환을 의미한다. 따라서 이 연구의 핵심 동기는 LLM의 한계를 지적하는 것이 아니라, LLM의 본질에 더 부합하는 방식으로 상호작용함으로써 그 잠재력을 최대한 이끌어내기 위한 새로운 방법론을 개발하는 데 있다.
새로운 응답 유도 프레임워크: 의미론적 유사성 평점(SSR) 접근법

개념적 기반
의미론적 유사성 평점(SSR)은 LLM으로부터 현실적인 리커트 척도 응답을 이끌어내기 위해 제안된 혁신적인 프레임워크다. 이 방법론은 자연어 처리(NLP) 분야에서 확립된 '의미론적 유사도 매핑(semantic similarity mapping)' 기법과 전통적인 설문조사 방법론의 '앵커링 비네트(anchoring vignettes)' 개념을 창의적으로 결합한 것에 그 개념적 기반을 두고 있다.
첫째, 의미론적 유사도는 두 텍스트 단위(단어, 문장, 문서 등) 간의 의미적 유사성을 측정하는 척도이다. 이는 단순히 단어의 표면적인 일치 여부를 따지는 어휘적 유사도(lexicographical similarity)와 달리, 문맥과 의미의 유사성에 초점을 맞춘다. 현대 NLP에서는 텍스트를 고차원 벡터 공간에 표현하는 '임베딩(embedding)' 기술을 통해 이를 계산한다. 의미가 유사한 텍스트들은 이 벡터 공간에서 서로 가까운 위치에 자리하게 되며, 두 벡터 간의 코사인 유사도(cosine similarity) 등을 통해 그 거리를 정량적으로 측정할 수 있다. SSR은 이 원리를 활용하여 LLM이 생성한 자유 텍스트 응답과 리커트 척도의 각 점수를 대표하는 기준 문장 간의 의미적 거리를 측정한다.
둘째, 앵커링 비네트는 설문조사에서 응답자마다 다른 응답 척도 사용 경향(reporting heterogeneity)을 보정하기 위해 사용되는 기법이다. 이는 특정 상황에 처한 가상의 인물에 대한 짧은 이야기(비네트)를 제시하고 응답자에게 그 인물의 상태를 평가하게 하는 방식이다. 모든 응답자가 동일한 비네트를 평가하므로, 그 평가 결과의 차이는 응답자 개인의 척도 사용 방식의 차이로 해석될 수 있다. 이를 통해 개인의 자기 평가 응답을 '앵커링(anchoring)'하여 보정하고, 집단 간 비교 가능성을 높일 수 있다.8 SSR의 '기준 문장(reference statements)'은 이러한 앵커링 비네트와 유사한 역할을 수행한다. 즉, 리커트 척도의 각 점수(1점부터 5점까지)에 대한 명확하고 고정된 의미적 '닻(anchor)'을 제공함으로써, LLM이 생성한 다양한 텍스트 응답들을 일관된 기준으로 평가하고 척도 위에 매핑할 수 있게 한다.
결론적으로 SSR은 LLM의 자연어 생성 능력을 최대한 활용하여 미묘한 뉘앙스가 담긴 응답을 얻어낸 후, 의미론적 유사도라는 정량적 도구를 통해 이를 전통적인 리커트 척도 체계로 변환하는 정교한 접근법이라 할 수 있다.
SSR 워크플로우 해설

SSR의 전체 프로세스는 Figure 1에 명확히 도식화되어 있으며, 다음과 같은 단계로 구성된다.1
- 텍스트 응답 유도 (Textual Elicitation): LLM은 특정 인구통계학적 페르소나를 부여받고 제품 컨셉(이미지 및 설명)에 노출된 후, 구매 의도에 대한 직접적인 숫자 응답이 아닌 자유 형식의 텍스트 진술을 생성하도록 요청받는다. 예를 들어, "이 제품을 구매할 가능성이 얼마나 됩니까?"라는 질문에 "꽤 흥미롭네요. 효과가 좋고 너무 비싸지 않다면 한번 시도해 볼 수도 있겠어요."와 같은 자연어 문장으로 응답한다.
- 임베딩 (Embedding): 생성된 텍스트 응답은 OpenAI의 text-embedding-3-small과 같은 텍스트 임베딩 모델을 통해 고차원의 수치 벡터로 변환된다.1 이 과정은 텍스트가 담고 있는 복합적인 의미를 벡터 공간상의 한 점으로 매핑하는 과정이다. 이 벡터의 각 차원은 텍스트의 특정 의미적 속성을 나타내며, 벡터의 방향은 전체적인 의미를 함축한다.
- 기준 문장과의 비교 (Comparison with Reference Statements): 사전에 5점 리커트 척도의 각 점수에 해당하는 의미를 명확히 정의하는 '기준 문장' 세트가 준비된다. 예를 들면 다음과 같다.
- 1점: "이 제품을 살 가능성은 거의 없습니다."
- 2점: "이 제품을 살 가능성이 낮습니다."
- 3점: "살 수도 있고 안 살 수도 있습니다."
- 4점: "이 제품을 살 가능성이 높습니다."
- 5점: "이 제품을 살 가능성이 매우 높습니다."
이 다섯 개의 기준 문장들 역시 응답 텍스트와 동일한 임베딩 모델을 통해 각각의 벡터로 변환된다.
- 유사도 계산 (Similarity Calculation): 1단계에서 생성된 응답 텍스트의 임베딩 벡터와 5개의 기준 문장 임베딩 벡터 각각에 대해 코사인 유사도(γ)를 계산한다. 코사인 유사도는 두 벡터가 이루는 각도의 코사인 값으로, 두 벡터의 방향이 얼마나 유사한지를 측정한다. 값이 1에 가까울수록 의미적으로 매우 유사함을, 0에 가까울수록 관련성이 없음을 의미한다.1 수학적으로는 다음과 같이 표현된다:
$$ \gamma(\sigma_{r}, t_{\hat{c}}) = \frac{v_{\sigma_{r}} \cdot v_{t_{\hat{c}}}}{|v_{\sigma_{r}}||v_{t_{\hat{c}}}|} $$
여기서 $v_{t_{\hat{c}}}$는 LLM의 텍스트 응답 벡터이고, $v_{\sigma_{r}}$는 리커트 점수 r에 해당하는 기준 문장의 벡터이다. - 확률 질량 함수(PMF) 생성 (Probability Mass Function Generation): 계산된 5개의 코사인 유사도 점수들을 정규화(normalize)하여 합이 1이 되는 확률 분포, 즉 확률 질량 함수(pmf)를 생성한다. 각 리커트 점수()에 대한 확률 $p(r)$은 해당 기준 문장과의 코사인 유사도에 비례한다. 이 과정을 통해 "꽤 흥미롭네요..."와 같은 모호한 텍스트 응답은 예를 들어 '4점일 확률 60%, 5점일 확률 30%, 3점일 확률 10%'와 같은 확률 분포로 변환될 수 있다. 이는 단일 점수로 응답을 강제하지 않고, 텍스트에 내재된 불확실성과 뉘앙스를 정량적으로 포착하는 SSR의 핵심적인 단계이다.
방법론 비교 분석: SSR vs. DLR 및 FLR
본 연구는 SSR의 우수성을 입증하기 위해 두 가지 대안적인 방법론, 즉 직접 리커트 평점(DLR)과 후속 리커트 평점(FLR)을 함께 평가하고 비교했다. 세 가지 방법론의 차이는 Figure 1에 잘 나타나 있다.
| 방법론 | 약어 | 응답 유도 방식 | 최종 리커트 점수 변환 | 핵심 특징 및 한계 |
| 직접 리커트 평점 | DLR | LLM에게 1, 2, 3, 4, 5 중 하나의 정수로 직접 응답하도록 제약 | LLM의 단일 정수 출력 | 가장 단순한 접근법. 그러나 응답 분포가 지나치게 좁고(narrow), 중간값으로 회귀하는 경향이 강하며, 인간 데이터와 큰 불일치를 보인다. |
| 후속 리커트 평점 | FLR | 1. LLM이 자유 텍스트 진술 생성. 2. "리커트 평점 전문가" 역할을 부여받은 별도의 LLM 인스턴스가 해당 텍스트를 단일 정수로 매핑. | 전문가 LLM의 단일 정수 출력 | 텍스트 생성을 거치지만, 결국 다른 LLM을 통해 단일 결정론적 점수로 환원된다. 전문가 LLM에 부여된 시스템 프롬프트와 예시의 영향을 크게 받는다. |
| 의미론적 유사성 평점 | SSR | LLM이 자유 텍스트 진술 생성. | 텍스트 임베딩을 기준 문장들과 비교하여 확률 질량 함수(pmf) 생성. | 단일 점수 대신 확률 분포(pmf)를 생성하여 응답의 모호성과 뉘앙스를 포착한다. 이를 통해 현실적인 응답 분포를 유지할 수 있으며, 풍부한 정성적 피드백을 부수적으로 얻는다. |
핵심 비교 요약:
- DLR의 한계 극복: SSR과 FLR은 모두 LLM에게 숫자를 직접 요구하는 DLR 방식의 근본적인 한계(비현실적 분포)를 텍스트 응답 유도라는 과정을 통해 우회한다. 이는 LLM이 자신의 강점을 발휘할 수 있는 자연어 생성 영역에서 먼저 작동하도록 하는 중요한 단계이다.
- 단일 점수 vs. 확률 분포: 가장 결정적인 차이는 최종 결과물의 형태에 있다. DLR과 FLR은 텍스트 유도 여부와 관계없이 최종적으로 리커트 척도상의 단일 정수(single integer)를 도출한다. 이는 텍스트에 담긴 풍부한 정보와 불확실성을 하나의 점으로 강제 축소시키는 과정에서 정보 손실을 야기한다. 반면, SSR은 텍스트 응답의 의미적 위치를 기반으로 리커트 척도 전체에 대한 확률 분포(pmf)를 생성한다. 이 확률적 접근 방식이야말로 SSR이 인간 응답의 복잡하고 현실적인 분포를 성공적으로 복제할 수 있었던 핵심적인 이유이다.
- 정성적 피드백의 가치: SSR과 FLR은 텍스트 응답을 생성하는 과정이 포함되므로, 정량적 점수 외에도 제품 컨셉에 대한 풍부한 정성적 피드백을 부산물로 얻을 수 있다. 이는 DLR 방식에서는 얻을 수 없는 중요한 장점으로, 추가적인 컨셉 개발 및 개선에 직접적으로 활용될 수 있다.
실험 설계 및 평가 프레임워크
데이터셋 및 자극물
본 연구의 실증 분석은 한 선도적인 퍼스널 케어 기업이 제공한 대규모의 실제 소비자 조사 데이터를 기반으로 수행되었다. 데이터셋은 미국 시장을 겨냥하여 설계된 57개의 고유한 가상 퍼스널 케어 제품 컨셉에 대한 설문조사로 구성되어 있다. 각 설문조사에는 150명에서 400명 사이의 고유한 미국인 참가자가 참여했으며, 전체 데이터셋은 총 9,300명의 응답을 포함한다. 대부분의 응답자에 대해 연령, 성별, 거주 지역과 같은 핵심 인구통계학적 정보가 제공되었으며, 일부에 대해서는 소득 수준과 인종 정보도 포함되어 있다.
참가자들에게 제시된 자극물(stimulus)은 각 제품 컨셉을 설명하는 프레젠테이션 슬라이드 형식의 이미지였다. 이 이미지에는 최소한 제품에 대한 텍스트 설명이 포함되어 있으며, 다수의 경우 컨셉 아트나 제품 시안 이미지도 함께 제시되었다. 연구에서는 이 전체 이미지를 LLM에 입력하는 '이미지 자극(image stimulus)' 방식을 기본으로 사용했다.
인간 응답자들은 각 컨셉을 평가하고 5점 리커트 척도(1점에서 5점)를 사용하여 구매 의도를 평가했다. 실제 인간 데이터의 평균 구매 의도는 4.0으로 긍정적인 방향으로 치우쳐 있으며, 표준편차는 0.2로 모든 설문에 걸쳐 매우 좁게 분포하는 특성을 보였다.
합성 소비자 생성
연구진은 실제 인간 응답자 한 명 한 명에 대응하는 '합성 소비자(synthetic consumer)'를 생성했다. 이 과정은 LLM에게 특정 역할을 부여하는 프롬프트 엔지니어링을 통해 이루어졌다. 구체적으로, LLM(GPT-4o 또는 Gemini-2.0-flash)에게 제품 연구 설문조사에 참여하는 소비자 역할을 하도록 지시하고, 모방해야 할 실제 인간 응답자의 인구통계학적 속성(예: 나이, 성별, 소득 수준 등)을 프롬프트에 명시적으로 제공했다. 그 후, 해당 제품 컨셉 이미지를 보여주고 "이 제품을 구매할 가능성이 얼마나 됩니까?"라고 질문하여 응답을 생성하도록 했다.1 LLM 응답의 무작위성으로 인한 변동성을 줄이고 안정적인 결과를 얻기 위해, 각 프롬프트에 대해 2개의 샘플을 추출하여 그 결과를 평균 내어 사용했다.
성공의 척도: 충실도 평가 지표
합성 소비자가 생성한 데이터가 실제 인간의 응답을 얼마나 충실하게 재현하는지를 평가하기 위해, 연구진은 두 가지 핵심적인 성공 지표를 정의하고 사용했다.
분포 유사성 (Distributional Similarity, )
이 지표는 합성 데이터의 구매 의도 응답 분포가 실제 인간 데이터의 분포와 얼마나 유사한지를 측정한다. 이를 위해 연구진은 콜모고로프-스미르노프(Kolmogorov-Smirnov, KS) 유사성을 사용했다. KS 거리는 두 누적 분포 함수(CDF) 간의 최대 수직 거리를 측정하는 통계량으로, 이를 1에서 뺀 값()이 KS 유사성이 된다.
KS 유사성을 선택한 이유는 리커트 척도가 지닌 순서성(ordinality)을 존중하기 때문이다. 예를 들어, 실제 분포의 최빈값이 4점일 때, 합성 분포의 최빈값이 5점인 경우와 1점인 경우는 질적으로 다르다. KS 유사성은 이처럼 척도상의 거리를 반영하여, 두 분포의 최고점이 멀리 떨어져 있을수록 더 큰 페널티를 부과한다. 이는 각 점수를 독립적인 범주로 취급하는 다른 유사도 측정 방식(예: PMF 벡터 간의 코사인 유사도)에 비해 더 적절한 평가를 가능하게 한다.1 최종적으로 보고되는 값은 57개 모든 설문조사에 대한 평균 KS 유사성이다.
상관관계 달성도 (Correlation Attainment, )
이 지표는 합성 소비자들이 여러 제품 컨셉들의 상대적인 매력도 순위를 얼마나 잘 재현하는지를 측정한다. 이는 본 연구의 가장 중요한 방법론적 기여 중 하나로, 기존 연구들이 간과했던 현실 데이터의 한계를 고려한 정교한 평가 방식이다.
- 문제점: 단순히 합성 데이터의 평균 구매 의도()와 실제 데이터의 평균 구매 의도() 간의 피어슨 상관계수()를 계산하는 것은 오해의 소지가 있다. 실제 인간의 응답 데이터 자체는 상당한 노이즈를 포함하고 있으며, 본 연구의 데이터셋에서 제품 컨셉 간 평균 구매 의도의 차이는 매우 작다(표준편차 0.2). 이는 완벽한 시뮬레이션이라 할지라도 달성할 수 있는 상관계수의 최댓값이 1.0보다 현저히 낮다는 것을 의미한다.
- 해결책: 이론적 최대치()의 추정: 이 문제를 해결하기 위해 연구진은 심리측정학의 검사-재검사 신뢰도(test-retest reliability) 개념을 차용했다. 만약 동일한 설문조사를 완전히 새로운 인간 패널에게 다시 실시했을 때 두 결과가 얼마나 높은 상관관계를 보일 것인가? 이 값이 바로 시뮬레이션이 도달할 수 있는 이론적인 상한선이 된다. 연구진은 이 상한선()을 추정하기 위해, 각 설문조사의 실제 인간 응답자들을 무작위로 절반씩 나누어 '테스트' 집단과 '통제' 집단을 만드는 과정을 2,000번 반복 시뮬레이션했다. 그리고 두 집단의 평균 구매 의도 간의 평균 상관계수를 계산하여 $R^{xx}$를 도출했다.
- 최종 지표 (): 상관관계 달성도()는 합성 데이터와 실제 데이터 간의 상관계수()를 이 이론적 최대치()로 나눈 값으로 정의된다: . 이 지표는 "합성 소비자들이 인간 재실시 신뢰도의 몇 퍼센트 수준까지 도달했는가?"를 의미한다. 예를 들어, 값이 90%라는 것은 LLM 시뮬레이션의 신뢰도가 실제 인간을 대상으로 조사를 반복했을 때 기대할 수 있는 신뢰도의 90% 수준에 이르렀음을 뜻한다.
이처럼 상관관계 달성도()라는 지표를 도입한 것은, 합성 설문 에이전트 평가 분야에 중요한 방법론적 기여를 한 것으로 평가할 수 있다. 이는 단순히 원시적인 상관계수 값을 보고하는 수준을 넘어, 비교 대상이 되는 실제 데이터의 내재적 불확실성과 노이즈를 고려한 표준화되고 강건한 평가 기준을 제시했기 때문이다. 기존 연구들은 종종 원시 상관계수만을 보고했는데, 이는 실제 데이터의 분산이 작거나 노이즈가 클 경우 오해의 소지가 있는 낮은 값으로 나타날 수 있다. 이로 인해 여러 연구 결과를 공정하게 비교하기가 어려웠다. 본 연구는 신뢰도라는 고전적인 검사 이론의 개념을 차용하여, 특정 데이터셋에서 달성 가능한 상관계수의 상한선을 추정하고, 모델의 성능을 그 상한선 대비 상대적인 값으로 정규화했다. 이는 평가의 패러다임을 "상관계수가 얼마나 높은가?"에서 "이론적으로 가능한 최대치에 얼마나 근접했는가?"로 전환시킨 것으로, 향후 이 분야의 연구들이 합성 에이전트의 성능을 보다 공정하고 일반화 가능한 방식으로 평가하기 위해 유사한 신뢰도 보정 지표를 채택해야 할 필요성을 시사한다.
실증 분석 결과: 의미론적 유사성 평점의 효과 검증

응답 유도 방식별 성능 비교
본 연구의 핵심은 세 가지 다른 응답 유도 방식(DLR, FLR, SSR)의 성능을 정량적으로 비교하여 SSR의 우수성을 입증하는 것이다. 가장 현실적이고 정보가 풍부한 조건인 '이미지 자극', '전체 인구통계 정보 사용', 그리고 모델의 창의성과 일관성 사이의 균형을 맞춘 온도() 설정 하에서의 핵심 실험 결과는 아래 표와 같다.
| 모델 | 방법론 | 상관관계 달성도 () | 분포 유사성 () |
| GPT-4o | DLR | 81.7% | 0.26 |
| FLR | 84.7% | 0.72 | |
| SSR | 90.2% | 0.88 | |
| Gemini-2.0-flash | DLR | 80.2% | 0.39 |
| FLR | 90.6% | 0.59 | |
| SSR | 92.1% | 0.80 |
DLR 방식의 실패 분석
가장 단순한 접근법인 DLR은 두 가지 성공 지표 모두에서 가장 낮은 성능을 보였다. 특히, 분포 유사성()은 GPT-4o에서 0.26, Gem-2f에서 0.39로 매우 낮게 나타났다. 이는 Figure 2.B와 6.B의 개별 설문조사 응답 분포 히스토그램에서 명확하게 확인할 수 있다. LLM은 극단적인 응답인 '1'(전혀 구매 의향 없음)이나 '5'(반드시 구매할 것)를 거의 사용하지 않고, 대부분의 응답을 '3'(보통)이라는 안전한 중간값으로 회귀시키는 경향을 보였다. 이는 실제 인간 응답 데이터에서 '4'와 '5'의 긍정적 응답이 가장 빈번하게 나타나는 것과 극명한 대조를 이룬다.
흥미로운 점은, 이처럼 비현실적인 분포에도 불구하고 상관관계 달성도()는 약 80% 수준으로 비교적 높게 나타났다는 것이다. 연구진은 이것이 LLM이 간헐적으로 '2'나 '4'로 응답하면서 제품 간의 최소한의 순위 정보는 생성했기 때문에 나타나는 일종의 착시 현상이라고 분석했다. 즉, DLR은 제품 순위 평가라는 최소한의 신호는 생성하지만, 그 기반이 되는 응답 분포 자체가 인간의 행동과는 거리가 멀어 소비자 행동을 시뮬레이션하는 데 부적합함을 명확히 보여준다.
FLR과 SSR의 비교 분석
텍스트 응답을 유도하는 두 방법론(FLR, SSR)은 DLR에 비해 월등한 성능을 보였으며, 그중에서도 SSR이 전반적으로 가장 우수한 결과를 기록했다.
상관관계 달성도() 측면에서, 두 방법론 모두 90% 내외의 높은 수치를 기록하며 제품 컨셉의 상대적 매력도를 인간과 매우 유사한 수준으로 평가해냈다. 특히 Gem-2f 모델의 경우 FLR과 SSR 모두 90%를 상회하는 뛰어난 성능을 보였다.
그러나 분포 유사성()에서는 두 방법론 간의 격차가 뚜렷하게 나타났다. GPT-4o의 경우 SSR은 0.88이라는 매우 높은 분포 유사성을 달성한 반면, FLR은 0.72에 그쳤다. Gem-2f 모델에서는 그 차이가 더욱 두드러져, SSR이 0.80을 기록한 데 비해 FLR은 0.59라는 상대적으로 낮은 수치를 보였다. 이는 Figure 3과 7의 분포 유사도 그래프에서도 명확히 확인된다.
이러한 결과는 텍스트에 내재된 의미적 뉘앙스와 불확실성을 단일 점수로 강제 변환하는 FLR 방식이 상당한 정보 손실을 야기함을 시사한다. 반면, 텍스트를 척도 전체에 대한 확률 분포로 매핑하는 SSR 방식은 그 정보를 효과적으로 보존하여 실제 인간의 응답 분포를 훨씬 더 충실하게 재현할 수 있음을 보여준다.
인간의 인구통계학적 및 행동적 경향 재현
연구의 다음 단계는 가장 우수한 성능을 보인 SSR 방법론을 통해 생성된 합성 소비자들이 실제 인간 응답자들이 보이는 인구통계학적 특성에 따른 행동 패턴을 얼마나 잘 모방하는지 분석하는 것이었다. Figure 4는 주요 변수에 따른 평균 구매 의도의 변화를 보여준다.
- 나이(Age): 실제 인간 응답자들은 나이에 따라 오목한 형태(concave behavior)의 구매 의도 패턴을 보였다. 즉, 아주 젊은 층과 고령층은 중간 연령층에 비해 구매 의도가 낮게 나타났다. GPT-4o 기반의 합성 소비자들은 이러한 U자형 패턴을 매우 유사하게 재현했다. 반면, Gem-2f 모델은 젊은 층의 낮은 구매 의도는 잘 포착했지만, 고령층에서는 중간 연령층과 유사한 높은 구매 의도를 보여 약간의 차이를 보였다.
- 소득(Income): 실제 설문에서 소득 수준이 낮은 그룹(예산 문제에 직면한 그룹)은 높은 그룹에 비해 구매 의도가 현저히 낮게 나타났다. 두 LLM 모델(GPT-4o, Gem-2f) 모두 이러한 경향을 성공적으로 재현하여, 예산 제약이 있는 페르소나를 부여받았을 때 더 낮은 구매 의도를 보였다. 특히 GPT-4o는 "위험에 처해 있다"는 극적인 표현이 사용된 소득 수준 2번 그룹에 매우 민감하게 반응하여 구매 의도가 급격히 하락하는 모습을 보였다.
- 제품 속성(Product Features): 합성 소비자들은 인간과 마찬가지로 제품의 구체적인 속성에도 일관되게 반응했다. 예를 들어, '카테고리 IV'에 속하는 제품들은 인간과 합성 소비자 모두에게서 일관되게 높은 평가를 받았으며, '소스 B'에서 개발된 컨셉들은 양쪽 모두에서 부정적인 반응을 얻었다. 이는 LLM이 단순히 인구통계학적 페르소나를 모방하는 것을 넘어, 제시된 제품 컨셉의 내용을 실제로 이해하고 평가하고 있음을 시사한다.
페르소나 조건화의 결정적 역할
본 연구에서 가장 통찰력 있는 실험 중 하나는 인구통계학적 정보를 전혀 제공하지 않고 시뮬레이션을 실행한 것이다. 이 실험은 페르소나 조건화가 시뮬레이션의 질에 미치는 근본적인 역할을 명확히 보여주었다.
- 예상 밖의 결과: 인구통계학적 프롬프트 없이 "일반적인 설문 응답자" 역할을 부여했을 때, LLM은 놀랍게도 더 높은 분포 유사성()을 기록했으며, 실제 인간 데이터의 전체 평균 구매 의도(4.0)와 표준편차(0.1)를 거의 완벽하게 재현했다.
- 결정적 한계: 그러나 이와 동시에, 제품 순위를 평가하는 핵심 지표인 상관관계 달성도()는 50%로 급락했다. 이는 인구통계 정보를 사용했을 때의 92%에 비해 현저히 낮은 수치이다.
이 결과는 '모집단의 분포를 통계적으로 모방하는 것'과 '의미 있는 평가 신호를 생성하는 것' 사이의 중요한 차이를 드러낸다. 특정 페르소나가 주어지지 않았을 때, LLM은 훈련 데이터에서 학습한 '가장 전형적인' 응답 패턴을 생성하는 데 집중한다. 퍼스널 케어 제품 설문조사의 평균적인 응답이 긍정적(평균 4.0)이라는 것을 학습했기 때문에, 모델은 이에 부합하는 텍스트를 생성하고, 그 결과 전체 인간 응답 분포와 매우 유사한 분포를 만들어낸다.
하지만 이것은 표면적인 통계적 모방일 뿐, 모델이 실제로 개별 제품 컨셉의 장단점을 '평가'하고 있는 것은 아니다. 모든 제품에 대해 유사하게 긍정적인 '평균적' 응답을 생성하기 때문에, 좋은 컨셉과 나쁜 컨셉을 구별해내는 변별력이 사라지게 된다.
반면, "당신은 소득이 낮은 25세 남성이다"와 같은 구체적인 페르소나가 주어지면 과업의 성격이 바뀐다. 이제 모델은 제시된 제품 컨셉을 해당 페르소나의 제약 조건과 선호도에 비추어 평가해야 한다. 고가의 제품은 저소득 페르소나에게 낮은 점수를 받을 것이고, 노화 방지 제품은 젊은 페르소나에게 낮은 점수를 받을 것이다. 이처럼 페르소나 조건화는 모델이 제품의 세부 사항에 깊이 관여하도록 강제하며, 그 결과 제품 간에 의미 있는 응답의 분산(variance)을 만들어낸다. 바로 이 분산이 제품 순위의 신뢰도를 나타내는 상관관계의 원동력이 된다.
따라서 인구통계학적 프롬프트는 단순히 하위 집단 분석을 위한 장치가 아니라, LLM이 유효하고 변별력 있는 평가 신호를 생성하도록 하는 필수적인 '접지(grounding)' 메커니즘으로 작용한다는 결론을 내릴 수 있다.
정량적 점수를 넘어서: 정성적 피드백의 가치
SSR 방법론의 또 다른 중요한 성과는 정량적 평가 과정에서 부수적으로 생성되는 풍부한 정성적 데이터이다. 실제 인간 응답자들이 작성하는 자유 텍스트 응답은 "좋아요" 또는 "별로예요"와 같이 매우 짧고 피상적인 경우가 대부분이다. 반면, LLM 기반의 합성 소비자들이 생성하는 텍스트는 구매 의도에 대한 자신의 평가 근거를 구체적으로 설명한다.
예를 들어, 한 합성 소비자는 "사용 편의성과 안전성은 매력적이지만, 효과와 잠재적인 부작용에 대해 더 알고 싶습니다."라고 응답하며 구체적인 정보 요구사항을 제시했다. 또 다른 소비자는 "사용이 쉽고 [...] 민감성이 없다는 약속이 마음에 듭니다. 게다가, 신뢰할 수 있는 브랜드 제품이네요."라며 긍정적 평가의 이유를 명확히 밝혔다.
부정적인 평가에 있어서도 LLM은 주저하지 않고 비판적인 의견을 제시했다. "제 필요와 예산에 비해 너무 고급 제품인 것 같습니다." 또는 "그 '마이크로바이옴' 이야기는 별로 믿음이 안 가네요. 그냥 제가 알던 걸 쓰겠습니다."와 같은 응답들은 소비자가 느낄 수 있는 잠재적인 장벽(가격, 기술적 신뢰도 등)에 대한 귀중한 통찰을 제공한다.
이처럼 SSR을 통해 얻어지는 상세한 텍스트 데이터는 마치 '합성 포커스 그룹(synthetic focus group)'을 운영하는 것과 같은 효과를 제공한다. 연구자들은 이 데이터를 마이닝하여 소비자들이 가치를 두는 지점, 우려하는 사항, 그리고 새로운 가치 제안 등을 발견하고 이를 제품 개발 및 마케팅 전략에 직접적으로 활용할 수 있다.
논의, 시사점 및 향후 전망
주요 기여 및 의의
본 연구는 LLM 기반 합성 소비자가 전통적인 소비자 컨셉 테스트의 핵심 결과물을 놀라울 정도로 높은 충실도로 재현할 수 있음을 입증했다. 특히, 의미론적 유사성 평점(SSR) 접근법은 현실적인 리커트 응답 분포와 인간 데이터와의 최대 상관관계의 90% 이상을 달성하는 견고한 제품 순위라는 두 가지 핵심 목표를 동시에 달성했다.
이러한 발견은 LLM을 설문 응답자로 사용하려는 이전 시도들에서 나타났던 편향된 분포, 과도한 긍정성, 평균으로의 회귀와 같은 문제들이 LLM 자체의 내재적 한계가 아니라, 응답을 유도하는 방식의 결함으로 인한 '인공물(artifact)'이었음을 시사한다. 연구진은 리커트 점수를 직접적으로 요구하는 방식에서 벗어나, 텍스트 응답을 유도하고 이를 SSR로 변환함으로써 이러한 문제점 대부분을 해결하고, 훨씬 더 풍부하고 해석 가능한 데이터를 확보할 수 있음을 보여주었다.
주목할 만한 점은 이 모든 성과가 소비자 응답 데이터에 대한 어떠한 사전 훈련이나 미세조정(fine-tuning) 없이, 즉 제로샷(zero-shot) 방식으로 달성되었다는 것이다. 이는 SSR 방법론이 특정 데이터셋에 종속되지 않고 광범위하게 적용될 수 있으며, 훈련 및 보정 과정이 필요한 다른 대안들에 비해 비용 효율적임을 의미한다. SSR 접근법은 자유 텍스트 응답을 리커트 분포로 변환하는 투명하고 해석 가능한 '플러그 앤 플레이(plug-and-play)' 도구로서 기능하며, 전통적인 소비자 조사와의 비교 가능성을 유지하면서도 비정형 응답의 미묘한 뉘앙스를 포착하는 데 성공했다.
소비자 조사 산업에 대한 실질적 시사점
SSR을 통해 구현된 합성 소비자 기술은 초기 단계의 제품 연구 방식을 근본적으로 변화시킬 잠재력을 가지고 있다. 현재 기업들은 모든 새로운 제품 아이디어에 대해 비용과 시간이 많이 소요되는 대규모 인간 패널 조사를 의뢰해야 하는 경우가 많다. 그러나 이 방법론이 더욱 검증되고 확산된다면, 기업들은 수많은 초기 컨셉들을 먼저 합성 소비자를 통해 빠르고 저렴하게 스크리닝하고, 그중 가장 유망한 후보들만을 선별하여 인간 패널 조사를 진행하는 효율적인 프로세스를 구축할 수 있다.
이는 단순히 비용 절감과 반복 주기 단축을 넘어, 이전에는 막대한 조사 비용 때문에 소비자 인사이트에 접근하기 어려웠던 소규모 기업이나 스타트업에게도 시장 조사의 문턱을 낮추는 효과를 가져올 것이다. 동시에, LLM이 제공하는 상세한 평가 근거 텍스트는 기존의 정량적 데이터만으로는 파악하기 어려웠던 소비자 인식에 대한 깊이 있는 이해를 제공함으로써 인간 패널 조사를 보완하는 역할을 할 수 있다.
연구의 한계점 및 유의사항
이 연구는 유망한 결과를 제시했지만, 저자들은 방법론의 한계 또한 명확히 인지하고 있다.
- 기준 문장 의존성(Reference Statement Sensitivity): SSR의 결과는 리커트 척도의 각 점수를 정의하는 '기준 문장'의 설계에 민감하게 반응할 수 있다. 본 연구에서는 6개의 다른 문장 세트를 사용하여 평균을 내는 방식으로 이 문제를 완화했지만, 최적의 기준 문장을 설계하거나 동적으로 생성하는 방법에 대한 추가 연구가 필요하다. 이는 앵커링 비네트 방법론이 비네트의 선택에 민감하다는 기존 연구 결과와도 일맥상통한다.
- 불일관된 인구통계학적 재현: LLM은 나이와 소득에 따른 응답 패턴은 비교적 잘 포착했지만, 성별, 거주 지역, 인종과 같은 다른 인구통계학적 특성은 일관되게 재현하지 못했다. 이는 페르소나 조건화가 응답에 영향을 미치기는 하지만, 아직 모든 하위 집단에 대한 신뢰할 수 있는 대리인으로 간주하기에는 이르다는 것을 의미한다. 따라서 합성 패널을 이용한 하위 집단 분석 결과를 해석할 때는 각별한 주의가 요구된다. 이는 LLM에 내재된 인구통계학적 편향을 완화하는 것이 여전히 중요한 연구 과제임을 보여준다.
- 도메인 지식 의존성(Domain Knowledge Dependency): 이 방법론의 성공은 LLM의 훈련 데이터에 해당 조사 도메인(본 연구에서는 퍼스널 케어 제품)에 대한 풍부한 인간의 논의가 포함되어 있다는 사실에 크게 의존한다. 만약 온라인 포럼이나 소비자 리뷰 등에서 거의 논의되지 않는 매우 전문적이거나 새로운 분야에 대해 조사를 시도한다면, LLM은 유효한 소비자 선호를 생성하지 못하고 '환각(hallucination)'을 일으킬 위험이 있다. 따라서 합성 조사는 보편적으로 신뢰할 수 있는 도구가 아니라, LLM의 훈련 데이터와 조사 도메인 간의 정합성에 따라 유효성이 결정되는 도구로 이해해야 한다.
향후 연구 방향
본 연구는 다음과 같은 여러 확장 가능성을 제시하며 마무리된다.
- 일반화(Generalization): 구매 의도를 넘어 만족도, 신뢰도, 관련성 등 다른 리커트 척도 기반의 질문들로 SSR 방법론을 확장하는 연구가 가능하다. 이를 위해서는 각 구성 개념에 맞는 새로운 기준 문장 세트를 설계해야 한다.
- 최적화(Optimization): SSR의 변환 과정에 포함된 파라미터(예: 유사도 점수를 확률 분포로 변환하는 데 사용되는 온도(temperature) 파라미터)를 자동으로 조정하여, 별도로 확보된 인간 데이터와의 상관관계를 극대화하는 최적화 전략을 탐색할 수 있다.
- 하이브리드 접근법(Hybrid Approaches): 본 연구는 제로샷 성능을 입증하는 데 초점을 맞췄지만, SSR을 가벼운 미세조정(fine-tuning) 기법과 결합하는 하이브리드 방법론은 훨씬 더 높은 충실도를 달성할 잠재력을 지닌다. 예를 들어, 특정 제품 카테고리나 소비자 집단의 응답 데이터로 모델을 미세조정한 후 SSR을 적용하면, 일반 모델보다 더 정확한 시뮬레이션이 가능할 것이다. 이는 최근 활발히 연구되고 있는 설문조사 응답 예측을 위한 LLM 미세조정 연구 흐름과도 연결된다.
결론적으로, 본 연구는 해석 가능성, 통계적 신뢰성, 정성적 풍부함을 결합한 SSR 프레임워크를 통해 LLM을 합성 설문 응답자로 활용하는 데 있어 기존의 많은 제약 조건을 해결했다. 비록 인간 연구를 완전히 대체할 수는 없지만, SSR은 소비자 인사이트 생성 과정을 보강하고 가속화하기 위한 신뢰할 수 있는 프레임워크를 확립했다는 점에서 중요한 학술적, 실용적 기여를 한 것으로 평가된다.
'AI-ML > LLM' 카테고리의 다른 글
| EntropyLong: 예측 불확실성을 통한 효과적인 장문맥 훈련 (0) | 2025.11.04 |
|---|---|
| 언어 모델은 단사적이며 따라서 가역적이다 (0) | 2025.11.04 |
| LLM 평가의 4가지 주요 접근법 이해하기 (0) | 2025.10.06 |
| 논문 읽어보기 - Learning to Reason as Action Abstractions with Scalable Mid-Training RL (0) | 2025.10.05 |
| GPT-OSS 시각화 (0) | 2025.08.21 |