[Statistics] p-value 구하는 원리 + 가설검정에서 p-value 활용

Biological Science/Statistics

[Statistics] p-value 구하는 원리 + 가설검정에서 p-value 활용

komok 2021. 4. 25. 01:38

1. What is the p-value?

- 생물학을 포함한 데이터 다루는 일을 하다보면 통계학은 뗄래야 뗄 수 없고, 그 중에 p-value와 0.05라는 숫자는 "유의성 있는" 데이터를 선별하는 general threshold로 등장

- p-value = probability value?

: 결론부터 말하면 No! 그럼 p value의 정의를 살펴보자 (그림1, Thanks to StatQuest again!)

그림1. p-value의 정의 (ref: Youtube채널 StatQuest)

- 그림1에서 볼 수 있듯,
p-value는 (특정한 경우의 수가 발생할 가능성) + (그것과 동일한 확률이 나올 가능성) + (그것보다 희귀한 경우가 발생할 가능성)의 합이다. (단, 양측검정일 경우에 해당. 단측검정에 대해선 따로 다루겠다.)

- 즉, 특정한 사건이 일어날 확률과 그 사건의 p-value는 서로 다르다.

- 그리고 동일한 확률이 나올 다른 가능성이나 그것보다 희귀한 경우 발생할 가능성을 더해주는 이유는, 구하고자 하는 사건의 p-value에 해당 사건이 특별한 일이어보여도, 그것과 같은 확률값을 가지거나 그것보다 희귀한 사건들이 존재할 경우 그 사건의 특별함이 떨어진다는 것을 의미하고, 이에 대한 정보를 함께 반영해주기 위함

- 아래의 동전 예시를 보면 이해가 쉽다.

- 그림2는 5번의 동전뒤집기 중 4번의 앞면과 1번의 뒷면 (4Heads and 1 Tail case, 4H1T)에 대한 probability(Pr)와 p-value를 각각 나타낸다.

그림2. 4H1T의 사례로 보는 probability와 p-value의 차이 (ref: StatQuest)

- Pr(4H1T) = 5C1 / (2^5) = 5 / 32 = 0.15625

반면, p_value(4H1T) = Pr(4H1T) + Pr(1H4T) + Pr(5H) + Pr(5T) = 5/32 +5/32 + 1/32 + 1/32 = 12/32 = 0.375

2. Biological sample에서의 p-value

- 위 동전사례가 이산형 확률분포(앞면 or 뒷면)를 가지는 범주형 변수(categorical data, discrete variable)라면,
많은 biological data는 연속형 변수 (continuous variable)가 많다. ex) 키, 유전자 발현량 등등.

- 이럴경우에는 그럼 p-value 계산에 사용할 Probability를 못구하는거 아니냐?

-> 그래서 대안으로 통계분포 (statistical distribution)의 형태를 지닌 "density"곡선을 이용하여 특정 사건 a에 대한 p-value를 계산한다. (그림3)

그림3. 연속형 변수에 대한 p-value를 계산하는데 사용하는 density 곡선 (ref: StatQuest)

- 위 그림3에서 사람 키 142~169cm인 구간의 area가 전체의 95%를 차지하는데,
이는 곧 측정값들의 95%가 해당 구간 내에 존재한다는 말이고,

동시에! 새로운 사람을 만났을 때 그 사람이 저 142~169cm일 확률이 95%라는 뜻이다.

- 키가 142cm인 사람의 p-value 값은,

앞서 언급한 정의에 의해 Pr(=<142) + Pr(>=169) = 0.05이다 (그림 4).

그림 4. 142cm인 사람의 p-value 계산의 예 (ref: StatQuest)

- 그리고 이는 "142cm미만 사람인 경우, 파란색 분포의 값에서 유래되었다"라는 귀무가설을 기각시킬 수 있다는 말이 된다.

- 다른 말로, "141cm인 사람이 있으면, 이는 파란색 분포에서 관찰되는데 꽤나 특별한 케이스이다"라고 말할 수 있고,

- 동시에, 좀 더 낮은 평균의 통계 분포 곡선이 있다면 그것에서 유래되었다고 보는 것이 더 적합하다"고 할 수 있다.

3. 가설검정에서의 p-value 활용법

3.1. 가설검정과 임계값, p-value

- 가설검정에서는 검정의 대상이 되는 "귀무가설"과 그와 대립되는 "대립가설"이 존재

- 귀무가설은 옳다고 가정 -> 기각이 목표 (반대로 대립가설은 채택이 목표)

- 이때 판단의 기준점을 "임계값"(critical value)이라 부름

- 임계값의 정의

: 주어진 유의수준에서 귀무가설의 채택/기각 의사결정의 기준이 되는 값

- 위 정의에서 유의수준(level of significance)가 나오는데, 귀무가설이 옳은데 기각할 오류의 확률(=제1종 오류의 확률)를 뜻함

- 모집단을 알 경우에는, 표준정규분포를 이용하여 z값 변환 후 임계값을 구할 수 있음

- 가설검정에는 임계값을 활용하는 방법과 p-value를 활용하는 방법이 있음

1) 임계값 활용법
: 위에서 말한 방법으로 유의수준(ex)0.05)에 해당하는 임계값 구한 후, 그것보다 표본평균이 더 극단적인 값일 경우 대립가설 채택

2) p-value 활용법

: 표본평균의 검정통계량에 대한 누적확률을 구한 후 그것의 나머지 면적 (= 1-표본평균의 누적확률)로 p-value 구함 -> p-value가 유의수준보다 낮다면 대립가설 채택

3.2. 생물학에서의 가설검정, p-value<0.05의 의미

- 귀무가설로 흔히 "두 그룹간 차이가 없다" 혹은 "두 특징 사이에 상관관계가 없다"로 설정

- p-value<0.05이면 두 그룹간 차이가 없다는 가정이 틀릴 확률이 5%미만이라는 뜻이고 , 귀무가설의 기각 근거로 사용됨(=두 값이 서로 다른 분포에서 유래되었다, 동시에 100번 실험해서 거짓양성이 나올 확률이 5% 미만)

- 0.05라는 값을 많이 사용하는데는 큰 이유는 없음 (옛날부터 통용되어서 쓰이는 것일뿐, 주관적으로 설정가능)

References

[1] Youtube, StateQuest with Josh Starmer, False Discovery Rates,FDR,clearly explained

[2] blog.naver.com/mykepzzang/220884858347

[3] Youtube, StateQuest with Josh Starmer, p-values: What they are and how to interpret them

'Biological Science > Statistics' 카테고리의 다른 글

[Statistics] 단측검정(one-sided) vs. 양측검정(two-sided) p-values, 어떤 걸 써야하는가? (0)	2021.04.25
[Statistics] FDR과 Benjamini-Hochberg procedure을 통한 adjusted p-value (4)	2021.04.19
[Statistics] 쉽풀생 뽀개기 - (2) '과학하기' - 가설, 실험, 반례 (0)	2021.01.29
[Statistics] 쉽풀생뽀개기 - (1) 서론 (0)	2021.01.25
[Statistics] 쉽풀생 뽀개기 - 시작하며. (2)	2020.10.05

현재글[Statistics] p-value 구하는 원리 + 가설검정에서 p-value 활용

komok's sight

생물 관련 이슈, 최신동향, 제품 등에 관심이 많아 이를 공부하고 정리하고자 합니다.

코로나19, biostatistics, 생물통계학, SARS-CoV-2, Statistics, 쉽게풀어쓴생물통계학, 우한폐렴, 신종코로나바이러스, 장내균총, 2019-nCoV, host microbe interaction, 임계값, COVID-19치료제, covid-19, lower tailed, Inovio, StateQuest, COVID-19백신, 이노비오, upper tailed,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

komok's sight