Statistics 3

[Statistics] p-value 구하는 원리 + 가설검정에서 p-value 활용

1. What is the p-value? - 생물학을 포함한 데이터 다루는 일을 하다보면 통계학은 뗄래야 뗄 수 없고, 그 중에 p-value와 0.05라는 숫자는 "유의성 있는" 데이터를 선별하는 general threshold로 등장 - p-value = probability value? : 결론부터 말하면 No! 그럼 p value의 정의를 살펴보자 (그림1, Thanks to StatQuest again!) - 그림1에서 볼 수 있듯, p-value는 (특정한 경우의 수가 발생할 가능성) + (그것과 동일한 확률이 나올 가능성) + (그것보다 희귀한 경우가 발생할 가능성)의 합이다. (단, 양측검정일 경우에 해당. 단측검정에 대해선 따로 다루겠다.) - 즉, 특정한 사건이 일어날 확률과 그 사건..

[Statistics] FDR과 Benjamini-Hochberg procedure을 통한 adjusted p-value

- 전사체 분석을 하다보면서 adjusted p-value의 개념을 공부할 일이 있어 관련 개념을 간략하게 정리 1. multiple comparison problem과 FDR - 대량의 데이터 (ex) 전사체 프로파일)에서 비교대상 간 통계적 유의성 판단할 때 필요한 개념 - 비교 집단이 2개를 초과하는 경우 (ex) 약물 처리에 따른 유전자 10000개의 transcriptome data, 약물처리 후 시간에 따른 transcriptome data), 그만큼 type 1 error*가 발생할 확률이 높아짐 * Type 1 error - 귀무가설이 참인데 그걸 기각하는 오류 = 음성인 걸 양성으로 판정하는 경우 = False positives - Type 1 error 발생확률이 높아진다는 것 풀어서 ..

[Statistics] 쉽풀생뽀개기 - (1) 서론

1.1. 왜 생명과학자들이 실험 통계와 통계를 알아야 하는가 - 생명과학은 모집단(population) 추정이 어려움: 어떤 생물의 집단 내 모든 개체에 대한 정보를 얻는 것은 불가능한 경우가 대부분 - 대표표본을 통한 모집단 추정: 즉, 개체의 총집합인 모집단이 아닌 시험단위(experimental units)로 불리는 일부 부분집합(subset)을 대표표본(representative sample)로 이용해서 모집단을 추측해야함 - 대표표본의 한계: 대표표본을 잘 고르기 위해선 임의적 (random) 선발이 기본적이지만, 실험단위 간 차이 등으로 인해 대표성을 띠지 않을 수 있음 ex 한계의 예시) - 비슷한 모집단이지만 표본은 서로 다른 경우 - 모집단은 비슷한데 표본이 다른 경우 - 표본내 각 개체..