/proje detayları

World Happiness Üzerine Applied Bayesian Analysis

GDP, social support, health ve regional structure kullanarak country-level happiness'i açıklamak için brms ile Bayesian regression ve hierarchical model'ler kurdum.

Bu Applied Bayesian Analysis projesi, World Happiness Report 2024 veri setini kullanarak ülke düzeyindeki happiness score'ları modellemeye odaklanıyor. Ana predictor'lar GDP, social support ve healthy life expectancy; continent ve region bilgisi ise hierarchical structure kurmak için kullanıldı.

Analiz R ve brms ile yürütüldü. brms, Prof. Dr. Paul Bürkner tarafından geliştirilen bir Bayesian regression modeling package'i. Bu sayede çalışma, expressive model formula'ları, Stan-backed sampling, posterior check'ler ve uncertainty-aware interpretation içeren modern Bayesian workflow'un tam içinde konumlanıyor.

Önce data cleaning, missing-value handling, correlation checks, region mapping ve exploratory visualization adımlarını tamamladım. Ardından dört modeli sırayla kurdum: pooled Gaussian regression, region bazlı varying-intercept model, GDP için region bazlı varying-slope model ve non-linear health effects için spline-based model.

Projenin önemli kısmı yalnızca modelleri fit etmek değil, aynı zamanda dikkatli biçimde kontrol etmekti. Trace plot, posterior summary, posterior predictive check, conditional effect, LOO-PIT style check, Bayesian R2, RMSE ve MAE kullanarak model davranışını ve predictive quality'yi karşılaştırdım.

Öne çıkanlar

World Happiness Report 2024 verisini 143 ülkeden 140 complete country observation'a temizledim.
Hierarchical Bayesian modeling için ülkeleri region/continent seviyesine map ettim.
brms ve Stan kullanarak pooled, varying-intercept, varying-slope ve spline-based model'ler fit ettim.
Coefficient'ler için normal prior, group-level standard deviation için exponential prior gibi weakly informative prior'lar kullandım.
Model'leri posterior predictive check, trace diagnostic, conditional effect, Bayesian R2, RMSE ve MAE ile değerlendirdim.
Uncertainty'yi tek bir point estimate arkasına saklamak yerine model output'unun temel parçası olarak ele aldım.

Model Formülleri

M1 (Pooled) y_i ~ Normal(β0 + β1 * GDP_i + β2 * Support_i + β3 * Health_i, σ)

Tüm ülkeler için ortak katsayılar kullanan temel Gaussian regresyon modeli.

M2 (Varying Intercept) y_i ~ Normal(α_region[i] + β1 * GDP_i + β2 * Support_i + β3 * Health_i, σ), α_r ~ Normal(μ_α, τ_α)

Her bölgenin farklı bir başlangıç mutluluk düzeyine sahip olmasına izin verir.

M3 (Varying Slope)

y_i ~ Normal(α_region[i] + β1,region[i] * GDP_i + β2 * Support_i + β3 * Health_i, σ),   β1,r ~ Normal(μ_β1, τ_β1)

GDP etkisinin bölgelere göre değişmesine izin verir.

M4 (Spline) y_i ~ Normal(α_region[i] + β1,region[i] * GDP_i + β2 * Support_i + s(Health_i), σ)

Hiyerarşik yapıyı korurken health değişkeni için düzgün, doğrusal olmayan bir etki ekler.

Figürler

Bayesian modeller arasında RMSE ve MAE karşılaştırması — Predictive error pooled baseline'dan spline-based modele doğru azalıyor.

Model 4 için LOO-PIT QQ plot — Final Bayesian model için out-of-sample predictive calibration kontrolü.

Model 4 için posterior predictive density overlay — Observed happiness distribution, posterior predictive draw'lardan üretilen replicated distribution'larla karşılaştırıldı.