3 분 소요

1. 카이제곱 검정 (Chi-square Test)

1) 초기 Cohort 유지율 하락 가설

✓ 강하게 유의

결과 요약

  • χ² = 1291.49
  • p-value ≈ 8e-283 (사실상 0)
  • Cramér’s V = 0.048 (효과 크기는 작음)
  • 표본 수 = 556,751

해석

  • 과거(past)와 최근(current) Cohort 간 유지율 분포는 통계적으로 명확하게 다름
  • 잔차(Residuals)
    • Past: +21.3 → 과거 Cohort는 기대치보다 활성 고객이 많음
    • Current: −24.3 → 최근 Cohort는 기대치보다 활성 고객이 적음

대규모 표본 특성상 효과 크기는 작지만,
유지율 하락이라는 방향성과 현상 자체는 명확하게 관측됨


2. ANOVA

1) 세그먼트 간 초기 유지율 차이

✓ 유의하지 않음

결과 요약

  • F = 0.867
  • p-value = 0.553
  • Tukey HSD: 전부 reject = False

해석

  • 표본 구조 한계
    • 세그먼트당 사실상 2개의 표본만 존재
    • ANOVA는 그룹 내 분산을 비교하므로, 표본 수 부족으로 검정력이 매우 낮음
  • 개념적 해석
    • 초기 1개월 유지율은 세그먼트 차이보다 첫 경험(초기 행동)의 영향이 큼
    • VIP/우수/성장 세그먼트는 ‘누적된 결과’
    • 초기 유지율은 ‘진입 직후 행동’

초기 유지율 하락은 특정 세그먼트의 문제가 아니라,
전체 Cohort에 공통적으로 발생한 구조적 문제로 해석됨


2) 세그먼트 간 유지율 감소 패턴 차이 (응용 분석)

segment_retention_application.py

가설

  • H0: 세그먼트 간 유지율 감소 패턴(cohort decay)에 차이가 없다.
  • H1: 세그먼트 간 유지율 감소 속도 또는 패턴에는 차이가 있다.

검정 방법

  • Mixed Effect Model

결과

변수 계수 (Coef.) 표준오차 (Std.Err.) z-value p-value 95% CI
Intercept 0.782 0.075 10.415 <0.001 [0.634, 0.929]
성장 고객 -0.107 0.098 -1.086 0.277 [-0.299, 0.086]
우수 고객 -0.066 0.098 -0.674 0.500 [-0.258, 0.126]
이탈 고위험 고객 -0.089 0.098 -0.911 0.363 [-0.282, 0.103]
이탈 예정 고객 -0.099 0.098 -1.013 0.311 [-0.292, 0.093]
일반 고객 -0.105 0.098 -1.071 0.284 [-0.297, 0.087]
cohort_age -0.167 0.027 -6.256 <0.001 [-0.219, -0.115]
cohort_age × 성장 고객 0.003 0.037 0.087 0.930 [-0.069, 0.076]
cohort_age × 우수 고객 0.003 0.037 0.068 0.946 [-0.070, 0.075]
cohort_age × 이탈 고위험 고객 0.003 0.037 0.072 0.943 [-0.070, 0.075]
cohort_age × 이탈 예정 고객 -0.001 0.037 -0.032 0.975 [-0.074, 0.072]
cohort_age × 일반 고객 0.006 0.037 0.155 0.877 [-0.067, 0.078]
Random Effect (Group Var) 0.005 0.023

해석

  • cohort_age는 유의 → 시간이 지날수록 유지율은 전반적으로 감소
  • 세그먼트 효과는 전부 유의하지 않음 (p > 0.27)
  • cohort_age × 세그먼트 상호작용 역시 전부 유의하지 않음 (p > 0.87)

유지율 하락은 특정 세그먼트의 문제가 아니라,
모든 고객에게 공통적으로 작용하는 시간 기반 구조적 문제로 판단됨


3. 로지스틱 회귀

1) 행동 지표 및 카테고리 다양성 기반 가설

✓ 강하게 유의

결과 요약

변수 Odds Ratio
cart_cnt 2.10
category_cnt 0.98
view_cnt 0.999
  • Pseudo R² = 0.323
  • 표본 수 ≈ 950,000

해석

  • cart_cnt: 장바구니 경험이 있으면 유지 확률이 2배 이상 증가
  • category_cnt: 카테고리 탐색이 많을수록 유지 확률은 소폭 감소
  • view_cnt: 조회만 많은 것은 유지 여부에 거의 영향 없음

초기 유지 여부는 단순 조회(View)보다
구체적 행동(Cart) 경험에 의해 강하게 결정됨


4. 상관분석

1) Cohort Age 기반 구매 행동 변화 가설

✓ 유의하지 않음

결과 요약

  • avg_freq: ρ = −0.24, p = 0.28
  • ARPU: ρ = −0.16, p = 0.47
  • n = 22

해석

  • 방향성은 음의 상관을 보이나 통계적으로 유의하지 않음

Cohort Age와 구매 횟수, ARPU 간의 유의미한 관계는 확인되지 않음


5. Wilcoxon Signed-Rank Test

상위 세그먼트 행동 패턴 변화 가설

✓ 강하게 유의

차이 정의

  • diff = current − past

결과 요약

지표 median_diff mean_diff rank_biserial 현재 기준 변화
avg_recency +1.75 +2.05 0.689 ↑ 증가
purchase_cnt 0.00 -0.37 0.673 ↔ 없음
avg_monetary -61.43 -82.03 0.544 ↓ 감소
cart_cnt 0.00 +0.89 0.592 ↔ 없음
view_cnt -1.00 +0.04 0.537 ↓ 감소
  • p-value ≈ 0 (전부 유의)
  • n = 53,732 (paired)
  • 효과 크기(rank-biserial): 0.53 ~ 0.69 (중~대 효과)

해석

  • avg_recency 증가 → 재구매까지 걸리는 시간 증가 (재구매 지연)
  • avg_monetary 감소 → 1인당 구매 금액 감소
  • view_cnt 감소 → 탐색/관심 활동 감소
  • purchase_cnt, cart_cnt → 중앙값 기준 구조적 변화 없음

❗ 최종 결론

total_analysis.py

최근 Cohort의 유지율은 통계적으로 유의하게 감소하고 있으며,
이러한 현상은 특정 세그먼트가 아닌 전체 고객에게 공통적으로 발생한 구조적 문제로 판단된다.
세그먼트 간 유지율 수준이나 감소 속도의 유의미한 차이는 확인되지 않았다.

초기 유지 여부는 View나 카테고리 다양성보다 Cart 경험 여부에 의해 가장 강하게 결정되었으며,
이는 초기 고객 경험 설계에서 구체적 행동 유도가 핵심임을 시사한다.

또한 상위 세그먼트에서는 재구매 주기가 길어지고, 구매 금액과 탐색 활동이 감소하는 경향이 관측되었다.
다만 구매 빈도와 장바구니 행동의 구조는 유지되고 있어, 구매 구조 자체가 붕괴된 단계는 아니며 개입 여지가 충분한 상태로 판단된다.

따라서 유지율 개선을 위해 세그먼트별 차별화 전략보다는,
전 고객을 대상으로 Cart 진입을 강화하는 UX·혜택 중심의 공통 전략이 더 효과적일 것으로 판단된다.