분류 전체보기 33

[Statistics] 단측검정(one-sided) vs. 양측검정(two-sided) p-values, 어떤 걸 써야하는가?

1. 가설검정 단계와 종류 요약 - 가설검정의 단계 :귀무가설과 대립가설 수립 -> 유의수준 설정 -> 표본자료 수집 및 검정통계량 계산 -> (p-value 계산) 혹은 (유의수준에 대한 임계값 결정 및 기각법칙 결정) -> 귀무가설 기각여부 판단 - 가설검정에는 단측검정(one-tailed, one-sided)과 양측검정(two-tailed, two-sided)이 있음 - 당연히 단측검정에는 모집단 평균을 기준으로 왼쪽 검정(lower tail)과 오른쪽 검정(upper tail)이 있음 2. 단측검정 p-value 사용에 유의해야하는 이유 - 보통의 가설은 "두 집단 간의 차이가 있다/없다"로 설정하지만, 간혹 방향이 정해진 가설을 세울때가 있음 - 아래 Superdrug의 예시를 살펴보자 (그림 ..

[Statistics] p-value 구하는 원리 + 가설검정에서 p-value 활용

1. What is the p-value? - 생물학을 포함한 데이터 다루는 일을 하다보면 통계학은 뗄래야 뗄 수 없고, 그 중에 p-value와 0.05라는 숫자는 "유의성 있는" 데이터를 선별하는 general threshold로 등장 - p-value = probability value? : 결론부터 말하면 No! 그럼 p value의 정의를 살펴보자 (그림1, Thanks to StatQuest again!) - 그림1에서 볼 수 있듯, p-value는 (특정한 경우의 수가 발생할 가능성) + (그것과 동일한 확률이 나올 가능성) + (그것보다 희귀한 경우가 발생할 가능성)의 합이다. (단, 양측검정일 경우에 해당. 단측검정에 대해선 따로 다루겠다.) - 즉, 특정한 사건이 일어날 확률과 그 사건..

[Statistics] FDR과 Benjamini-Hochberg procedure을 통한 adjusted p-value

- 전사체 분석을 하다보면서 adjusted p-value의 개념을 공부할 일이 있어 관련 개념을 간략하게 정리 1. multiple comparison problem과 FDR - 대량의 데이터 (ex) 전사체 프로파일)에서 비교대상 간 통계적 유의성 판단할 때 필요한 개념 - 비교 집단이 2개를 초과하는 경우 (ex) 약물 처리에 따른 유전자 10000개의 transcriptome data, 약물처리 후 시간에 따른 transcriptome data), 그만큼 type 1 error*가 발생할 확률이 높아짐 * Type 1 error - 귀무가설이 참인데 그걸 기각하는 오류 = 음성인 걸 양성으로 판정하는 경우 = False positives - Type 1 error 발생확률이 높아진다는 것 풀어서 ..

[Issue] 합성생물학 관련 - 진정한 미니멀세포의 탄생? JCVI-syn3.0+126

1. 합성생물학과 게놈 최소화 (Genome minimization) 1) 합성생물학 - 합성생물학: 자연계에 존재하지 않던 생물 시스템을 설계 및 제작하는 분야 (Genome design) + 자연계 생물 시스템을 재설계/제작하는 분야 / 생명체의 합성 및 응용에 중점을 두고 있음 [4,5, 그림 1] - 응용 예시: 오염물 제거용 미생물 (bioremediation), 베타카로틴 생산능 쌀 (biofortification), 장미유 생산능 효모 (eco-friendly & sustainable substitute) [추가적인 자료는 위키자료에 잘 정리되어 있음] - 생명현상의 수학적 해석을 통한 원칙의 이해를 하는 biomatics와는 지향점이 약간 다름 [4] - Genome design vs. G..

근황. 블로그 운영 소홀에 대한 자기합리화.

꽤 바쁜 3월을 보내면서 블로그 활동을 소홀히 하게 되었다. ㅎㅎ 일단 job을 바꾸면서 많은 일들이 있었는데, 사는 지역도 이동하고, 이전 직장에서의 업무 마무리와 새 직장에서의 업무 적응 등으로 이래저래 바쁜 한 달을 보내게 되었다. 연봉도 깎고 부가적인 고정비도 많아졌지만 내가 원한 선택지였기에 이걸 할 수 있음에 감사해야겠다. 원하던대로 좀 더 dry한 bioinformatics 분석들을 많이 해볼 수 있는 곳으로 오게되었고, 한동안 python공부하느라 시간을 보냈던 것 같다. 여기서도 스스로 부딪혀가며 해봐야하는 것들이 대부분이지만, 공부란 게 원래 그런거니까 받아들이고 도움을 주는 좋은 동료들이 있기에 좋은 경험이 될 것이라 생각한다. 바쁜 와중에도 늘 기본을 생각하며 살자. - 연구는 좋아..

Etc. 2021.04.11

[Statistics] 쉽풀생 뽀개기 - (2) '과학하기' - 가설, 실험, 반례

1. 과학적인 연구방법 - 생물통계학 이전에 '과학적인 연구'에 대한 전통적 견해 소개 2. 기본과학적 연구방법 2.1. 가설적-연역적 (hypothetico-deductive) 관점 : "관찰해서 추측하고, 검정해본 뒤 추측이 사실인지 아닌지 판별" - 가설 (hypothesis): 사용가능한 정보를 바탕으로 어떤 것에 대한 직관적이고 논리적인 추측 - 가설의 검정 보존/기각 여부는 "가설"을 기반으로 한 "예측" (prediction)이 더 많은 표본추출이나 실험을 통해서 관찰되는지를 이용해서 "검정" → 검정 결과가 예측과 모순이 없으면 가설 보존, 그렇지 않다면 가설 기각 및 새로운 가설 세워짐 (그림 1) - 문제를 잘 파악해서 좋은 가설을 세우는 것이 중요 → 교락효과 (고려하지 못한 fact..

[Statistics] 쉽풀생뽀개기 - (1) 서론

1.1. 왜 생명과학자들이 실험 통계와 통계를 알아야 하는가 - 생명과학은 모집단(population) 추정이 어려움: 어떤 생물의 집단 내 모든 개체에 대한 정보를 얻는 것은 불가능한 경우가 대부분 - 대표표본을 통한 모집단 추정: 즉, 개체의 총집합인 모집단이 아닌 시험단위(experimental units)로 불리는 일부 부분집합(subset)을 대표표본(representative sample)로 이용해서 모집단을 추측해야함 - 대표표본의 한계: 대표표본을 잘 고르기 위해선 임의적 (random) 선발이 기본적이지만, 실험단위 간 차이 등으로 인해 대표성을 띠지 않을 수 있음 ex 한계의 예시) - 비슷한 모집단이지만 표본은 서로 다른 경우 - 모집단은 비슷한데 표본이 다른 경우 - 표본내 각 개체..

Adieu 2020. Welcome 2021 (2020년 결산 + 소비 컨텐츠 정리 + 2021년 블로그 계획)

1. 결산 2020년이 끝났다. 금방 잡힐 것 같았던 코로나-19는 처음 발생 후 약 1년이 다 되어가는 지금 오히려 변종 바이러스의 출현과 한국 내 대유행의 조짐 등으로 계속 인류 보건체계를 위협하고 있다. 그러나 다양한 회사들이 백신과 치료제를 개발하면서 인류가 다시 마스크 없는 일상으로 돌아갈 수 있게 노력하고 있다. 또한 이러한 위기는 모더나, 화이자/제넨텍의 mRNA백신의 임상 성공이라는 생물공학의 발전을 이루어주기도 했다. 개인적으로도, 시련과 도전의 과정에서 발전을 도모할 수 있었던 1년이었던 것 같다. 연구실적 paper가 published된 것이 없다는 것과 블로그를 주기적으로 업데이트하지 못했다는 점이 아쉽긴하다. 그래도 다시 꾸준히 독서를 하게 된 점, 연구에 대한 재미를 다시금 느끼..

Etc. 2021.01.01

[Statistics] 쉽풀생 뽀개기 - 시작하며.

1. 뽀개질 책 소개 + 이유 - Steve McKillup이 쓴 "Statistics Explained: An Introductory Guide for Life Scientists"의 번역본 "쉽게풀어쓴 생물통계학" (앞으로 임의로 줄여서 쉽풀생이라 부를 예정, 그림 1). - Back to basic 정신으로 basic하지만 fundamental한 통계학 내용들을 새롭게 다시 공부하고, 이를 정리하여 기록해두고자 함 - 생물학 전공하는 사람들은 특히나 data를 해석함에 있어 통계적인 background가 약한 경우가 많은 것 같음 (일단 나는 그런듯..) - 남들이 쓰니까 쓰는 (un)paired T test, One-way ANOVA & post-hoc test들.. 왜 쓰는지, 지금 내 상황에 ..

[Issue] COVID-19 - 재감염 사례 보고가 내포하는 백신의 한계점과 기회

1. COVID-19의 재감염 사례 - 이전에도 COVID-19 재감염으로 의심되는 사례들이 등장하긴 했으나, 8월 15일 처음으로 문서화된 COVID-19 재감염 사례가 확인됨 (8/25 Clinical Infectious Diseases 저널에 published 됨, 8/23 received 8/25 published라니 부럽다..) [1, 2] - 3월에 초기 감염 후 회복되었던 사람이 8월 홍콩 입국 시 공항 검사에서 발견 - 2번의 바이러스 염기서열을 분석 (genome sequencing*) 해본 결과, 24개의 뉴클레오티드**에 차이가 있는 것 확인 (그림 1) →1개의 stop codon (position 64 of orf8) + 23개의 nucleotide (그 중 13개는 non-syn..