본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Miscellaneous

[2024-1] 김동한 - Nonparametric statistical tests for the continuous data: the basic concept and the practical use

by 동96 2024. 3. 25.

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4754273/

 

Nonparametric statistical tests for the continuous data: the basic concept and the practical use

Conventional statistical tests are usually called parametric tests. Parametric tests are used more frequently than nonparametric tests in many medical articles, because most of the medical researchers are familiar with and the statistical software packages

www.ncbi.nlm.nih.gov

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4754273/pdf/kjae-69-8.pdf

0. Abstract

 

전통적인 통계적 테스트들은 Parametric test라고 불린다. Parametric testnon-parametric test보다 많은 medical분야에서 사용되는데, 이는 medical 연구자들이 통parametric 방식으로 제공되는 통계 소프트웨어에 익숙하기 때문이다.

Parametric test는 중요한 가정을 필요로하는데, 정규성이다. (normality)

이것의 의미는 sample의 분포가 정규분포여야한다는 것.

 

++ 추가 : 전통적 t test / f test / x^2 test는 모두 sample의 정규분포를 가정으로 시작해서, performance가 좋은것이 수학적으로 증명되어 있어서 사용하는 것이다.

 

그러나, 이러한 정규성 가정이 깨져있는 상황에서는 잘못된 결론에 이를수있다.

이럴때는 non-parametric test가 사용되는데(비모수적 방법) 이는 정규성 가정이 깨져있어도 사용가능하기 때문.

주로 부호, 순위 등을 이용함.

이 논문에서는 비모수적 방법의 기본 개념과 적절한 사용을 위한 가이드를 제공함.

 

1. Introduction

자주사용되는 통계적 기법들 유용하지만, 부적절한 통계기법 결론의 사용은 잘못된 결론을 내는데, error도 포함

통계적 software로의 접근이 쉬워지면서, 통계 기법도 이해하지 못하면서, p-value로만 분석을 끝내고 이를 사용하는 경우가 많아, 잘못된 해석이나, 잘못된 기법을 사용하는 경우가 많아짐. 실제 한국 마취 저널을 포함한 다양한 저널들에서 통계적 기법을 잘못사용하고, 오류가 많은 paper들을 확인할 수 있음.

대표적으로 확인가능한게 non-parametric 데이터에 parametric 접근을 해서 분석한 경우임. 이는 의료업계 연구자들이 non-parametric 방법을 잘 사용하지 못하고, parametric방식에 너무 익숙해져 있고, software가 잘 작동하기 때문.

 

2. The History of Nonparametric Statistical Analysis

John Arbuthnott : sign test 제안

Wilcoxon : rank를 이용한 테스트 현재에 많이 쓰이는 방식

Whitney : wilcoxon rank test의 발전

William Kruskal & Allen Wallis : k sample method에서의 적용

이후의 연구들에서 wilcoxon signed rank testMann-Whitney test의 점근 상대효율성이 t검정 대비 0.955인것으로 알려짐. >> 다양한 분야에서 사용가능한 비모수적 방식들

 

 

3. The Basic Principle of nonparametric Statistical Analysis

전통적으로 사용되는 t-test, 분산에대한 검정에서는 분포에 대한 정보나 가정이 많이 필요했음. 의료계열에서 많이 사용되는 연구분야. 가정은 대부분 정규성인데, 이는 표본 그룹의 평균 분포가 normal 분포를 따르고, equal variance(등분산성)을 가정하여, 두 모집단이 동일한지 확인하는 것임. 그러므로, 가정이 만족될때는 이러한 방법이 적절하지만, 가정(정규성 및 등 분산성)이 깨지는 경우(skewed 되어있거나, heavy tail이거나, sample size가 작아서 분포가 알려지지 않은 경우) 등에서는 parametric한 방법을 사용할 수 없음.

 

Non-Parametric parametric 방식과 아예 다른데, 이는 +, - 등의 부호만을 사용하거나, 데이터 크기 내에서 관측값이 아닌 rank를 이용하는 방식임. , data에 값보다는 data들의 순서에 관심이 많은 접근법

 

 

X1, X2, X3, X4, X5 = 32, 47, 32, 18, 99 의 관측치를 얻은 경우를 고려해보면, 이 관측치들에 18, 32, 32, 47, 99 순으로 1, 2, 3, 4, 5를 할당하고, tie(동률)인 경우에는 두 rank의 평균을 할당함. 부호의 경우에는 이 분포의 median으로 측정하고 싶은 값을 기준으로 크면 +, 작으면 를 할당함.

 

parametric 방식이 평균으로부터 떨어진 것에 집중한다면, 여기서는 rank, median value로부터 큰지, 작은지에만 집중하는 것임.

 

이렇게 +,- rank로 변환하는 과정에서 기존 데이터들의 출신 분포 dependancy가 떨어지게 됨.

 

4. Advantages and Disadvantages of Nonparametric Statistical Analysis

 

장점들

분포에 대한 assumption들이 필요하지 않으므로, 잘못된 결론에 다다를 가능성이 낮아진다.

많은 통계적 지식이 필요하지는 않고, 직관적으로 이용이 가능하다.

통계량들이 rank나 부호에 의해 계산되므로, outlier에 대해 robust하다.

작은 수의 sample에 대해서도 적용이 가능하다.

 

단점들

분포에 대한 pdf가 정의되지 않으므로, 집단간의 차이에 대해서는 언급할 수 없다.

parametric 방식에 비해, 얻는 정보에 한계가 있으며, 해석하는데에도 어려움이 있다.

parametric 방식에 비해, 분석 방법들이 적게 존재한다.

데이터의 정보가 완전히 활용되지 못한다.

large sample에서 computational cost가 커진다.

 

 

nonparmetric 분석 방법은 가정이 적게 들어가므로, 잘못된 결론에 이를 가능성을 낮추지만, 통계적 power가 낮다(기각할 가설을 기각할 확률)

 

“always valid, but not always efficient.” : nonparametric

“always efficient, but not always valid.” : parametric

 

  Parametric test NonParametric test
One sample one sample t test Sign test
Wilcoxon’s signed rank test
Two sample paired t test Sign test
Wilcoxon’s signed rank test
unpaired t test Mann-Whitney test
Kolmorogov-Smirnov test
K-sample analysis of variance
(anova)
Kruskal-Wallis test
Jonckheer test
2 way anlaysis of variance Friedman test

 

5. Median test for one sample : the sign test and Wilcoxon’s signed rank test

 

하나의 표본 내에서 각각이 median 보다 큰지 작은지 혹은 가설검정하고싶은 값을 기준으로 진행

 

5-1. Sign test

one sample 에서는 가장 쉬운 방식인데, 모집단의 median θ_0에 대한 가설검정을 진행

H0 : θ = θ_0

H1 : θ > θ_0 or θ < θ_0

Xi 값이 θ_0 보다 크면 + / 작으면 를 할당하고, + 만 다 더한 다음에, B라고 정의하고, 이를 sign test를 위한 statistic(통계량)으로 활용한다.

 

*논문에 없는 내용 추가*

 

under H0 : θ_med = θ_0,

median이 실제로 θ_0이라면, 각 데이터 포인트들이 θ_0보다 큰 값과 작은 값을 가질 확률은 각각 1/2으로 n개의 데이터 포인트에 대해 B ~ B(n,p) 가 된다. 이를 수식으로 표현하면 다음과 같다.

 

- H0 : θ = θ_0 vs H1 : θ > θ_0 or θ < θ_0

<=> H0 : p = 0.5 vs H1 : p > 0.5 or θ < 0.5

 

이를 이항분포에서 p-value를 구해서 미리 설정한 유의수준 값에서 accept, reject를 결정.

--------------------

 

 

5-2. Wilcoxon’s Signed rank test

sign test는 간편하지만, 정보의 손실이 많으므로, 이를 반영하여, 부호뿐 아니라, 상대적 크기도 반영한다.

  X1 X2 X3 X4 X5
Data 47 55 34 26 99
+/- 50비교 - + - - +
Ri = Xi -50 -3 5 -16 -14 49
rank 1 2 4 3 5

 

W+ = ΣΨi ·|Ri|

Ψi={1(whenRi>0)

0(whenRi<0)}

 

*논문에 없는 내용 추가*

By Lyapunov CLT, W+ ~ N(0, n(n+1)(2n+1)/6) 이므로, 정규분포에서의 reject, accept를 결정할 수 있음.

 

6. Comparison of a paried sample : sign test and Wilocxon’s signed rank test

 

6-1. Sign test

pair의 의미 : 특정 집단에 treat를 주기전과 주고난 후의 비교라고 생각하면 됨.

그렇게 + / - 차이가 증가한거 반영

크기 고려 x 그저 +, - 만 이용하니 집단간 차이가 있다 없다정도의 state만 가능

 

-------------------------------------

 

 

 

6-2. Wilcoxon’s signed rank test

  X1 X2 X3 X4 X5
X1j 33 28 33 33 40
X2j 34 33 30 39 42
Rj = X1j - X2j -1 -5 3 -6 -2
rank 1 4 3 5 2
W+ 3
W- =12(1+4+5+2)

 

 

- w+를 통계량으로 사용하여 reject / accept 고려

- 이것 역시도, 위에서의 정규분포를 통해 test 진행

 

7. Comparison of two independent samples: Wilcoxon's rank sum test, the Mann-Whitney test, and the Kolmogorov-Smirnov test

 

7-1. Wilcoxon’s rank sum test and Mann-Whitney test

- 이번에는 독립된 두 표본으로부터의 rank sum test를 진행하는 방식

각 집단의 값을 pooledsample을 기준으로 ranking을 먼저 메김.

H0 : θ_med1 = θ_med2

under H0, sample xi, yj에 대해 P(xi<yj) = P(xi>yj) = 0.5

 

집단 별로 ranking의 평균을 구해, 그 차이가 유의미한지 test를 진행

 

다음은 Mann-Whitney Test

 

*논문에 없는 내용 추가*

Xi<Yj의 수를 모두 세고 그것을 test statistic으로 이용하는데, 사실 이는 위에서의 wilcoxon’s rank sum test에서의 test를 진행하는것과 equvalent하다는 것이 쉽게 증명가능.(rank의 합은 항상 정해져있기 때문 N(N+1)/2)

사용하는 이유는? confidence interval 을 구하는데에 있어서 장점이 있기 때문.

------------------

 

7-2. Kolmogorov-Smirnov test (K-S test)

이는 주로, 데이터셋의 정규성을 check하기 위해 사용되는데, 그러나, 본 목적은 동일한 분포로부터 추출된 sample인지를 확인하는 test. 동일 분포로부터 추출된 것이라면, cumulative distribution function(일명, CDF 누적분포함수) 역시 동일해야함.

그렇지 않다면 다른 CDF가 나타날 것이므로, Emprical CDF( 데이터 포인트마다 1/n jump하는 분포)를 기반으로 차이가 가장많이 나는 값간에 차이가 가장 큰 값을 test statistic으로 사용함.

 

*논문에 없는 내용 예시 추가*

 

 

 

8. Comparison of k independent samples: the Kruskal-Wallis test and the Jonckheere test

 

8-1. Kruskal-Wallis test

Anova수행을 pooled rank를 기반으로 수행한다고 보면됨.

 

Anova의 경우에는 각 그룹별 평균과 전체 평균을 비교하여, 그룹별로 차이가 있는지를 확인하는 작업

 

이와 비슷한 작업을 Ranking을 기반으로 진행

 

 

 

8-2. Jonckheere test

 

ranking에 대해 사전정보(prior information이 있으면 이를 반영한 test가 더 효과적이라는 접근)

 

H0: [τ1 = τ2 = τ3]

H1: [τ1 , τ2, τ3 not all equal]

H2: [τ1 ≤ τ2 ≤ τ3, with at least strict inequality]

 

 

9. Conclusion

정규성 가정이 깨질때는 확실히 비모수적 방법을 택하는 것이 적절하지만, power가 작기 때문에 sample size가 작을 때에는 항상 최선의 선택이지는 않는다. 상황에 맞게 parametric 방식과 nonparametric방식 중 적절한 것이 다르기 때문에, 정규성이 만족하는지, 가정들을 항상 유심히 살펴보아야함.

“always valid, but not always efficient.” : nonparametric

“always efficient, but not always valid.” : parametric