1. What is the p-value?
- 생물학을 포함한 데이터 다루는 일을 하다보면 통계학은 뗄래야 뗄 수 없고, 그 중에 p-value와 0.05라는 숫자는 "유의성 있는" 데이터를 선별하는 general threshold로 등장
- p-value = probability value?
: 결론부터 말하면 No! 그럼 p value의 정의를 살펴보자 (그림1, Thanks to StatQuest again!)
- 그림1에서 볼 수 있듯,
p-value는 (특정한 경우의 수가 발생할 가능성) + (그것과 동일한 확률이 나올 가능성) + (그것보다 희귀한 경우가 발생할 가능성)의 합이다. (단, 양측검정일 경우에 해당. 단측검정에 대해선 따로 다루겠다.)
- 즉, 특정한 사건이 일어날 확률과 그 사건의 p-value는 서로 다르다.
- 그리고 동일한 확률이 나올 다른 가능성이나 그것보다 희귀한 경우 발생할 가능성을 더해주는 이유는, 구하고자 하는 사건의 p-value에 해당 사건이 특별한 일이어보여도, 그것과 같은 확률값을 가지거나 그것보다 희귀한 사건들이 존재할 경우 그 사건의 특별함이 떨어진다는 것을 의미하고, 이에 대한 정보를 함께 반영해주기 위함
- 아래의 동전 예시를 보면 이해가 쉽다.
- 그림2는 5번의 동전뒤집기 중 4번의 앞면과 1번의 뒷면 (4Heads and 1 Tail case, 4H1T)에 대한 probability(Pr)와 p-value를 각각 나타낸다.
- Pr(4H1T) = 5C1 / (2^5) = 5 / 32 = 0.15625
반면, p_value(4H1T) = Pr(4H1T) + Pr(1H4T) + Pr(5H) + Pr(5T) = 5/32 +5/32 + 1/32 + 1/32 = 12/32 = 0.375
2. Biological sample에서의 p-value
- 위 동전사례가 이산형 확률분포(앞면 or 뒷면)를 가지는 범주형 변수(categorical data, discrete variable)라면,
많은 biological data는 연속형 변수 (continuous variable)가 많다. ex) 키, 유전자 발현량 등등.
- 이럴경우에는 그럼 p-value 계산에 사용할 Probability를 못구하는거 아니냐?
-> 그래서 대안으로 통계분포 (statistical distribution)의 형태를 지닌 "density"곡선을 이용하여 특정 사건 a에 대한 p-value를 계산한다. (그림3)
- 위 그림3에서 사람 키 142~169cm인 구간의 area가 전체의 95%를 차지하는데,
이는 곧 측정값들의 95%가 해당 구간 내에 존재한다는 말이고,
동시에! 새로운 사람을 만났을 때 그 사람이 저 142~169cm일 확률이 95%라는 뜻이다.
- 키가 142cm인 사람의 p-value 값은,
앞서 언급한 정의에 의해 Pr(=<142) + Pr(>=169) = 0.05이다 (그림 4).
- 그리고 이는 "142cm미만 사람인 경우, 파란색 분포의 값에서 유래되었다"라는 귀무가설을 기각시킬 수 있다는 말이 된다.
- 다른 말로, "141cm인 사람이 있으면, 이는 파란색 분포에서 관찰되는데 꽤나 특별한 케이스이다"라고 말할 수 있고,
- 동시에, 좀 더 낮은 평균의 통계 분포 곡선이 있다면 그것에서 유래되었다고 보는 것이 더 적합하다"고 할 수 있다.
3. 가설검정에서의 p-value 활용법
3.1. 가설검정과 임계값, p-value
- 가설검정에서는 검정의 대상이 되는 "귀무가설"과 그와 대립되는 "대립가설"이 존재
- 귀무가설은 옳다고 가정 -> 기각이 목표 (반대로 대립가설은 채택이 목표)
- 이때 판단의 기준점을 "임계값"(critical value)이라 부름
- 임계값의 정의
: 주어진 유의수준에서 귀무가설의 채택/기각 의사결정의 기준이 되는 값
- 위 정의에서 유의수준(level of significance)가 나오는데, 귀무가설이 옳은데 기각할 오류의 확률(=제1종 오류의 확률)를 뜻함
- 모집단을 알 경우에는, 표준정규분포를 이용하여 z값 변환 후 임계값을 구할 수 있음
- 가설검정에는 임계값을 활용하는 방법과 p-value를 활용하는 방법이 있음
1) 임계값 활용법
: 위에서 말한 방법으로 유의수준(ex)0.05)에 해당하는 임계값 구한 후, 그것보다 표본평균이 더 극단적인 값일 경우 대립가설 채택
2) p-value 활용법
: 표본평균의 검정통계량에 대한 누적확률을 구한 후 그것의 나머지 면적 (= 1-표본평균의 누적확률)로 p-value 구함 -> p-value가 유의수준보다 낮다면 대립가설 채택
3.2. 생물학에서의 가설검정, p-value<0.05의 의미
- 귀무가설로 흔히 "두 그룹간 차이가 없다" 혹은 "두 특징 사이에 상관관계가 없다"로 설정
- p-value<0.05이면 두 그룹간 차이가 없다는 가정이 틀릴 확률이 5%미만이라는 뜻이고 , 귀무가설의 기각 근거로 사용됨(=두 값이 서로 다른 분포에서 유래되었다, 동시에 100번 실험해서 거짓양성이 나올 확률이 5% 미만)
- 0.05라는 값을 많이 사용하는데는 큰 이유는 없음 (옛날부터 통용되어서 쓰이는 것일뿐, 주관적으로 설정가능)
References
[1] Youtube, StateQuest with Josh Starmer, False Discovery Rates,FDR,clearly explained
[2] blog.naver.com/mykepzzang/220884858347
[3] Youtube, StateQuest with Josh Starmer, p-values: What they are and how to interpret them
Copyright 2021. komok’s sight All Rights Reserved.
'Biological Science > Statistics' 카테고리의 다른 글
[Statistics] 단측검정(one-sided) vs. 양측검정(two-sided) p-values, 어떤 걸 써야하는가? (0) | 2021.04.25 |
---|---|
[Statistics] FDR과 Benjamini-Hochberg procedure을 통한 adjusted p-value (4) | 2021.04.19 |
[Statistics] 쉽풀생 뽀개기 - (2) '과학하기' - 가설, 실험, 반례 (0) | 2021.01.29 |
[Statistics] 쉽풀생뽀개기 - (1) 서론 (0) | 2021.01.25 |
[Statistics] 쉽풀생 뽀개기 - 시작하며. (2) | 2020.10.05 |