Biological Science/Statistics

[Statistics] p-value 구하는 원리 + 가설검정에서 p-value 활용

komok 2021. 4. 25. 01:38

1. What is the p-value?

 - 생물학을 포함한 데이터 다루는 일을 하다보면 통계학은 뗄래야 뗄 수 없고, 그 중에 p-value와 0.05라는 숫자는 "유의성 있는" 데이터를 선별하는 general threshold로 등장

 

 - p-value = probability value?

 : 결론부터 말하면 No! 그럼 p value의 정의를 살펴보자 (그림1, Thanks to StatQuest again!)

 

그림1. p-value의 정의 (ref: Youtube채널 StatQuest)

 - 그림1에서 볼 수 있듯,
   p-value는 (특정한 경우의 수가 발생할 가능성) + (그것과 동일한 확률이 나올 가능성) + (그것보다 희귀한 경우가 발생할 가능성)의 합이다. (단, 양측검정일 경우에 해당. 단측검정에 대해선 따로 다루겠다.)

 - 즉, 특정한 사건이 일어날 확률과 그 사건의 p-value는 서로 다르다.

 - 그리고 동일한 확률이 나올 다른 가능성이나 그것보다 희귀한 경우 발생할 가능성을 더해주는 이유는, 구하고자 하는 사건의 p-value에 해당 사건이 특별한 일이어보여도, 그것과 같은 확률값을 가지거나 그것보다 희귀한 사건들이 존재할 경우 그 사건의 특별함이 떨어진다는 것을 의미하고, 이에 대한 정보를 함께 반영해주기 위함

 

 - 아래의 동전 예시를 보면 이해가 쉽다.

 - 그림2는 5번의 동전뒤집기 중 4번의 앞면과 1번의 뒷면 (4Heads and 1 Tail case, 4H1T)에 대한 probability(Pr)와 p-value를 각각 나타낸다.

그림2. 4H1T의 사례로 보는 probability와 p-value의 차이 (ref: StatQuest)

 - Pr(4H1T) = 5C1 / (2^5) = 5 / 32 = 0.15625

   반면, p_value(4H1T) = Pr(4H1T) + Pr(1H4T) + Pr(5H) + Pr(5T) = 5/32 +5/32 + 1/32 + 1/32 = 12/32 = 0.375

2. Biological sample에서의 p-value

- 위 동전사례가 이산형 확률분포(앞면 or 뒷면)를 가지는 범주형 변수(categorical data, discrete variable)라면,
많은 biological data는 연속형 변수 (continuous variable)가 많다. ex) 키, 유전자 발현량 등등.

 

- 이럴경우에는 그럼 p-value 계산에 사용할 Probability를 못구하는거 아니냐?

-> 그래서 대안으로 통계분포 (statistical distribution)의 형태를 지닌 "density"곡선을 이용하여 특정 사건 a에 대한 p-value를 계산한다. (그림3)

 

그림3. 연속형 변수에 대한 p-value를 계산하는데 사용하는 density 곡선 (ref: StatQuest)

- 위 그림3에서 사람 키 142~169cm인 구간의 area가 전체의 95%를 차지하는데,
 이는 곧 측정값들의 95%가 해당 구간 내에 존재한다는 말이고,

 동시에! 새로운 사람을 만났을 때 그 사람이 저 142~169cm일 확률이 95%라는 뜻이다.

 

- 키가 142cm인 사람의 p-value 값은,

 앞서 언급한 정의에 의해 Pr(=<142) + Pr(>=169) = 0.05이다 (그림 4).

그림 4. 142cm인 사람의 p-value 계산의 예 (ref: StatQuest)

 - 그리고 이는 "142cm미만 사람인 경우, 파란색 분포의 값에서 유래되었다"라는 귀무가설을 기각시킬 수 있다는 말이 된다.

- 다른 말로, "141cm인 사람이 있으면, 이는 파란색 분포에서 관찰되는데 꽤나 특별한 케이스이다"라고 말할 수 있고,

- 동시에, 좀 더 낮은 평균의 통계 분포 곡선이 있다면 그것에서 유래되었다고 보는 것이 더 적합하다"고 할 수 있다.

 

3. 가설검정에서의 p-value 활용법

 3.1. 가설검정과 임계값, p-value

 - 가설검정에서는 검정의 대상이 되는 "귀무가설"과 그와 대립되는 "대립가설"이 존재

 - 귀무가설은 옳다고 가정 -> 기각이 목표 (반대로 대립가설은 채택이 목표)

 - 이때 판단의 기준점을 "임계값"(critical value)이라 부름

 - 임계값의 정의

   : 주어진 유의수준에서 귀무가설의 채택/기각 의사결정의 기준이 되는 값

 - 위 정의에서 유의수준(level of significance)가 나오는데, 귀무가설이 옳은데 기각할 오류의 확률(=제1종 오류의 확률)를 뜻함

 - 모집단을 알 경우에는, 표준정규분포를 이용하여 z값 변환 후 임계값을 구할 수 있음

 

 - 가설검정에는 임계값을 활용하는 방법과 p-value를 활용하는 방법이 있음

   1) 임계값 활용법
    : 위에서 말한 방법으로 유의수준(ex)0.05)에 해당하는 임계값 구한 후, 그것보다 표본평균이 더 극단적인 값일 경우 대립가설 채택

   2) p-value 활용법

    : 표본평균의 검정통계량에 대한 누적확률을 구한 후 그것의 나머지 면적 (= 1-표본평균의 누적확률)로 p-value 구함 -> p-value가 유의수준보다 낮다면 대립가설 채택

 

 3.2. 생물학에서의 가설검정, p-value<0.05의 의미

 - 귀무가설로 흔히 "두 그룹간 차이가 없다" 혹은 "두 특징 사이에 상관관계가 없다"로 설정

 - p-value<0.05이면 두 그룹간 차이가 없다는 가정이 틀릴 확률이 5%미만이라는 뜻이고 , 귀무가설의 기각 근거로 사용됨(=두 값이 서로 다른 분포에서 유래되었다, 동시에 100번 실험해서 거짓양성이 나올 확률이 5% 미만)

 - 0.05라는 값을 많이 사용하는데는 큰 이유는 없음 (옛날부터 통용되어서 쓰이는 것일뿐, 주관적으로 설정가능)

 

 

References

[1] Youtube, StateQuest with Josh Starmer, False Discovery Rates,FDR,clearly explained

[2] blog.naver.com/mykepzzang/220884858347

[3] Youtube, StateQuest with Josh Starmer, p-values: What they are and how to interpret them

 

Copyright 2021. komok’s sight All Rights Reserved.