2 분 소요

총 8개의 가설을 수립하여 문제의 원인을 정밀하게 파악하고자 했다.
먼저 문제를 설명할 수 있는 가설을 정의한 뒤, 각 가설에 적합한 통계 검정 방법을 선정하여 실험 설계를 진행했다.

지표 산출은 SparkSQL·SQL로 수행했으며, 검정은 Python을 활용해
카이제곱 검정, 로지스틱 회귀, ANOVA, Wilcoxon signed-rank test 등을 적용하여 검증했다.


A. 유지율 변화 확인 가설

1) 초기 Cohort 유지율 하락 가설

retention.sql

H0 (귀무가설): 최근 Cohort의 초기 유지율(1개월 Retention)은 과거 Cohort와 차이가 없다.
H1 (대립가설): 최근 Cohort의 초기 유지율(1개월 Retention)은 과거 Cohort 대비 유의하게 낮다.

기준 정의

  • 최근 Cohort: 2020년 2–3월 Retention 평균
  • 과거 Cohort: 2019년 10월–2020년 1월 Retention 평균
  • 2020년 4월 Cohort는 1개월 Retention 계산을 위해 2020년 5월 데이터가 필요하므로 분석 대상에서 제외

목적

  • 최근 Cohort의 1개월 유지율이 과거 대비 유의하게 하락했는지 확인

검정 방법

  • 카이제곱 검정 (Chi-square)

2) 세그먼트 간 초기 유지율 차이 가설

fm_segment.sql

H0 (귀무가설): 세그먼트(VIP / 우수 / 성장 / 일반) 간 초기 유지율에는 차이가 없다.
H1 (대립가설): 세그먼트 간 초기 유지율에는 유의한 차이가 있다.

기준 정의

  • 분석 대상: 2020년 2–3월 Cohort

목적

  • 유지율 하락이 특정 세그먼트에 집중되어 있는지 확인

검정 방법

  • ANOVA

B. 행동 지표(초기 경험) 기반 가설

3) View · Cart 행동이 초기 유지율에 영향을 준다는 가설

retention_view_cart.py

H0 (귀무가설): View 수와 Cart 수는 초기 유지율에 영향을 주지 않는다.
H1 (대립가설): View 수와 Cart 수는 초기 유지율에 유의한 영향을 준다.

기준 정의

  • 분석 범위: Cohort Age = 1 (1개월 내 재구매 여부)

목적

  • View 및 Cart 행동이 초기 유지율에 미치는 영향을 정량적으로 검증

검정 방법

  • 로지스틱 회귀 (Logistic Regression)

C. Cohort Age 기반 구매 행동 변화 가설

4) Cohort Age에 따른 구매 행동 차이 가설

H0 (귀무가설): Cohort Age에 따라 구매 횟수(Frequency)와 ARPU에 차이가 없다.
H1 (대립가설): Cohort Age에 따라 구매 횟수(Frequency)와 ARPU는 유의하게 달라진다.

기준 정의

  • Cohort Age = 0은 신규 고객 의미와 중복될 수 있어 제외
  • Cohort Age > 4는 표본 수 급감 및 일부 월에만 존재하여 변동성이 커 제외

목적

  • 유지 기간(Cohort Age)이 길어질수록 Frequency와 ARPU가 어떻게 변화하는지 확인

검정 방법

  • Spearman 상관분석 (Correlation Analysis)

D. 상위 세그먼트 행동 패턴 변화 가설

high_segment_rm.sql

5) 상위 세그먼트 Recency 증가 가설

H0 (귀무가설): 상위 세그먼트 고객의 Recency는 과거와 차이가 없다.
H1 (대립가설): 상위 세그먼트 고객의 Recency는 최근 Cohort에서 유의하게 증가했다.
(구매 간격이 길어지고 있음)

기준 정의

  • 최근: 2020년 3–4월 고객당 평균 Recency
  • 과거: 2019년 10월–2020년 2월 고객당 평균 Recency

목적

  • 핵심 고객군에서 발생하는 이상 신호(구매 간격 증가) 확인

검정 방법

  • Wilcoxon signed-rank test

6) 상위 세그먼트 Monetary 감소 가설

H0 (귀무가설): 상위 세그먼트 고객의 평균 구매 금액(Monetary)은 변하지 않았다.
H1 (대립가설): 최근 Cohort의 상위 세그먼트 Monetary는 유의하게 감소했다.

기준 정의

  • 최근: 2020년 3–4월 ARPU
  • 과거: 2019년 10월–2020년 2월 ARPU

목적

  • 핵심 고객군의 구매 단가 및 지출 규모 약화 여부 확인

검정 방법

  • Wilcoxon signed-rank test

E. 카테고리 구조 관련 가설

retention_view_cart.py

7) 카테고리 다양성 부족이 유지율을 낮춘다는 가설

H0 (귀무가설): 카테고리 다양성과 초기 유지율은 관계가 없다.
H1 (대립가설): 카테고리 다양성이 낮을수록 초기 유지율은 낮다.

기준 정의

  • 카테고리 다양성: 구매한 카테고리 종류 수
  • 초기 유지율: Cohort Age = 1

목적

  • 구매 카테고리 폭이 좁은 고객일수록 재구매로 이어지지 않는지 확인

검정 방법

  • 로지스틱 회귀 (Logistic Regression)

F. 상위 세그먼트 신규 유입 품질 가설

8) 상위 세그먼트 고객 품질 저하 가설

high_segment_vcp.py

H0 (귀무가설): 최근 상위 세그먼트 고객의 행동 지표는 과거와 차이가 없다.
H1 (대립가설): 최근 상위 세그먼트 고객의 행동 지표는 과거와 차이가 있다.

기준 정의

  • 최근: 2020년 3–4월
  • 과거: 2019년 10월–2020년 2월
  • 행동 지표: View / Cart / Purchase

목적

  • 상위 세그먼트 고객의 행동 품질 변화 여부 확인

검정 방법

  • Wilcoxon signed-rank test