[개인] RFM·코호트·이탈 분석을 통한 상위 고객 구매 유지율 하락 문제 정의 및 가설 검증 - 가설검정 및 실험설계
총 8개의 가설을 수립하여 문제의 원인을 정밀하게 파악하고자 했다.
먼저 문제를 설명할 수 있는 가설을 정의한 뒤, 각 가설에 적합한 통계 검정 방법을 선정하여 실험 설계를 진행했다.
지표 산출은 SparkSQL·SQL로 수행했으며, 검정은 Python을 활용해
카이제곱 검정, 로지스틱 회귀, ANOVA, Wilcoxon signed-rank test 등을 적용하여 검증했다.
A. 유지율 변화 확인 가설
1) 초기 Cohort 유지율 하락 가설
H0 (귀무가설): 최근 Cohort의 초기 유지율(1개월 Retention)은 과거 Cohort와 차이가 없다.
H1 (대립가설): 최근 Cohort의 초기 유지율(1개월 Retention)은 과거 Cohort 대비 유의하게 낮다.
기준 정의
- 최근 Cohort: 2020년 2–3월 Retention 평균
- 과거 Cohort: 2019년 10월–2020년 1월 Retention 평균
- 2020년 4월 Cohort는 1개월 Retention 계산을 위해 2020년 5월 데이터가 필요하므로 분석 대상에서 제외
목적
- 최근 Cohort의 1개월 유지율이 과거 대비 유의하게 하락했는지 확인
검정 방법
- 카이제곱 검정 (Chi-square)
2) 세그먼트 간 초기 유지율 차이 가설
H0 (귀무가설): 세그먼트(VIP / 우수 / 성장 / 일반) 간 초기 유지율에는 차이가 없다.
H1 (대립가설): 세그먼트 간 초기 유지율에는 유의한 차이가 있다.
기준 정의
- 분석 대상: 2020년 2–3월 Cohort
목적
- 유지율 하락이 특정 세그먼트에 집중되어 있는지 확인
검정 방법
- ANOVA
B. 행동 지표(초기 경험) 기반 가설
3) View · Cart 행동이 초기 유지율에 영향을 준다는 가설
H0 (귀무가설): View 수와 Cart 수는 초기 유지율에 영향을 주지 않는다.
H1 (대립가설): View 수와 Cart 수는 초기 유지율에 유의한 영향을 준다.
기준 정의
- 분석 범위: Cohort Age = 1 (1개월 내 재구매 여부)
목적
- View 및 Cart 행동이 초기 유지율에 미치는 영향을 정량적으로 검증
검정 방법
- 로지스틱 회귀 (Logistic Regression)
C. Cohort Age 기반 구매 행동 변화 가설
4) Cohort Age에 따른 구매 행동 차이 가설
H0 (귀무가설): Cohort Age에 따라 구매 횟수(Frequency)와 ARPU에 차이가 없다.
H1 (대립가설): Cohort Age에 따라 구매 횟수(Frequency)와 ARPU는 유의하게 달라진다.
기준 정의
- Cohort Age = 0은 신규 고객 의미와 중복될 수 있어 제외
- Cohort Age > 4는 표본 수 급감 및 일부 월에만 존재하여 변동성이 커 제외
목적
- 유지 기간(Cohort Age)이 길어질수록 Frequency와 ARPU가 어떻게 변화하는지 확인
검정 방법
- Spearman 상관분석 (Correlation Analysis)
D. 상위 세그먼트 행동 패턴 변화 가설
5) 상위 세그먼트 Recency 증가 가설
H0 (귀무가설): 상위 세그먼트 고객의 Recency는 과거와 차이가 없다.
H1 (대립가설): 상위 세그먼트 고객의 Recency는 최근 Cohort에서 유의하게 증가했다.
(구매 간격이 길어지고 있음)
기준 정의
- 최근: 2020년 3–4월 고객당 평균 Recency
- 과거: 2019년 10월–2020년 2월 고객당 평균 Recency
목적
- 핵심 고객군에서 발생하는 이상 신호(구매 간격 증가) 확인
검정 방법
- Wilcoxon signed-rank test
6) 상위 세그먼트 Monetary 감소 가설
H0 (귀무가설): 상위 세그먼트 고객의 평균 구매 금액(Monetary)은 변하지 않았다.
H1 (대립가설): 최근 Cohort의 상위 세그먼트 Monetary는 유의하게 감소했다.
기준 정의
- 최근: 2020년 3–4월 ARPU
- 과거: 2019년 10월–2020년 2월 ARPU
목적
- 핵심 고객군의 구매 단가 및 지출 규모 약화 여부 확인
검정 방법
- Wilcoxon signed-rank test
E. 카테고리 구조 관련 가설
7) 카테고리 다양성 부족이 유지율을 낮춘다는 가설
H0 (귀무가설): 카테고리 다양성과 초기 유지율은 관계가 없다.
H1 (대립가설): 카테고리 다양성이 낮을수록 초기 유지율은 낮다.
기준 정의
- 카테고리 다양성: 구매한 카테고리 종류 수
- 초기 유지율: Cohort Age = 1
목적
- 구매 카테고리 폭이 좁은 고객일수록 재구매로 이어지지 않는지 확인
검정 방법
- 로지스틱 회귀 (Logistic Regression)
F. 상위 세그먼트 신규 유입 품질 가설
8) 상위 세그먼트 고객 품질 저하 가설
H0 (귀무가설): 최근 상위 세그먼트 고객의 행동 지표는 과거와 차이가 없다.
H1 (대립가설): 최근 상위 세그먼트 고객의 행동 지표는 과거와 차이가 있다.
기준 정의
- 최근: 2020년 3–4월
- 과거: 2019년 10월–2020년 2월
- 행동 지표: View / Cart / Purchase
목적
- 상위 세그먼트 고객의 행동 품질 변화 여부 확인
검정 방법
- Wilcoxon signed-rank test