/proje detayları

Computational Biology'de False Discovery Rate Kontrolü

Büyük ölçekli multiple testing senaryoları için BH, Storey's q-value ve Independent Hypothesis Weighting method'larını karşılaştıran bir simulation study implemente ettim.

Bu seminar projesi Korthauer et al. tarafından yazılan 'A Practical Guide to Methods Controlling False Discoveries in Computational Biology' makalesi üzerine kuruldu. Motivasyon basit: modern biological dataset'lerde aynı anda binlerce veya milyonlarca hypothesis test yapılıyor ve correction olmadan p-value kullanmak çok sayıda false positive üretir.

RMarkdown ile 20.000 hypothesis içeren bir simulation implemente ettim ve üç FDR control yaklaşımını karşılaştırdım: Benjamini-Hochberg, Storey's q-value ve Independent Hypothesis Weighting. Simülasyonda RNA-seq'teki mean gene expression'a benzer şekilde signal probability ve detectability ile ilişkili informative covariate kullandım.

Ana fikir şu: biyolojide her hypothesis aynı derecede bilgilendirici değil. IHW gibi covariate-aware method'lar side information kullanarak daha yüksek detection power'a sahip hypothesis'leri önceliklendirebilir ve FDR kontrolünü korurken discovery sayısını artırabilir.

Öne çıkanlar

Covariate-dependent signal probability ile 20.000 large-scale hypothesis test simule ettim.
BH, q-value ve IHW methodlarini ayni nominal alpha seviyesinde karsilastirdim.
Discoveries, true positives, false positives, observed FDR ve true positive rate metriklerini hesapladim.
Simulasyonda IHW'nin low observed FDR'yi korurken en guclu power'i verdigini gozlemledim.
Kod deneyini RNA-seq, single-cell analysis, microbiome, ChIP-seq, GWAS ve gene set analysis gibi high-throughput biyoloji problemleriyle iliskilendirdim.