Merve Yazla | 23 Ocak 2025

Güven Aralığını Kullanmak -ya da P Değeri Neden Yeterli Değil?

Akademik Yayıncılık ve Dergiler İstatistik ve Metodoloji

7 dk

İstatistik analizlerinde p değeri, bir hipotez testinin sonuçlarını değerlendirirken yaygın olarak kullanılır. Ancak, p değerinin bazı sınırlamaları vardır ve tek başına kullanıldığında yanıltıcı olabilir. Özellikle büyük örneklemler, çok küçük farklar için bile anlamlı p değerleri verebilir. Bu yüzden p değerinin alternatifleri veya tamamlayıcı ölçütleri sıklıkla önerilir.

İstatistiksel analizler, popülasyon hakkında genel bilgilere ulaşmak için örneklemlere dayanır. Ancak, örneklemler üzerinden elde edilen tahminler her zaman belirsizlik içerir. Güven aralıkları, bu belirsizliği ölçmeye ve tahminlerin kesinliğini anlamaya yardımcı olan bir istatistiksel tekniktir.

Bu yazıda, araştırma tasarımı, veri analizi, bulguların sunumu ve sonuçları doğru anlama süreçlerinde güven aralığının öneminden bahsedeceğiz.

İyi okumalar !

Güven aralığı (Confidence Interval), bir örneklemden elde edilen ölçümün popülasyonda hangi aralıkta olabileceğini belirten bir istatistiksel ölçüttür. Bir başka deyişle, tahmin edilen bir parametrenin (örneğin, ortalama farkı veya regresyon katsayısı) belli bir güven düzeyiyle bulunabileceği aralığı gösterir. Örneğin, bir popülasyondaki kolesterol değerleri ortalamasını tahmin etmek için kullanılan bir örneklemdeki ortalama değerin etrafındaki aralıktır ya da bir araştırmacı, bir ilaç tedavisinin hastaların kan basıncını ortalama 10 mmHg düşürdüğünü buluyor. %95 güven aralığı ise, bu durumda araştırmacı şu yorumu yapabilir “Bu çalışmaya göre, tedavi popülasyonda %95 güvenle kan basıncını 8 mmHg ile 12 mmHg arasında düşürebilir.”¹

Korean Journal of Anesthesiology dahil olmak üzere önde gelen bilimsel dergiler, P değerine bağlı karar ve açıklamanın bilimsel düşünceyi bozduğunu iddia ediyor. Sıfır hipotez anlamlılık testi, belirlenmiş bir sıfır hipotezini verilen anlamlılık düzeyine göre doğrulayan istatistiksel çıkarım yönteminin çekirdeği olarak kabul edilir. Sıfır hipotez anlamlılık testi’nin en kritik sorunu, “evet” veya “hayır” açısından basit ve ikili bir karar sağlamaktır. Bu basitleştirilmiş yorum, kanıtlanmamış bir beklenti üretir; bir araştırmacı tarafından uygulanan tedavi, karmaşık istatistiksel çıkarım prosedürlerini anlamaya gerek kalmadan pratikte yeterli bir etkiye sahip olabilir. Gerçek dünyada, hiçbir hastalık veya felaket durumu belirli bir tedaviyle anında aşılamaz. Yani, bir tedavinin etkisi basit bir “evet” veya “hayır” açısından değil, bir ölçek açısından ölçülmelidir. İstatistiksel sonuçların önceden belirlenmiş bir hata oranıyla anlamlı şekilde “evet” veya “hayır” olduğunu iddia etmek bilimsel değildir.²

Güven Aralığı Nasıl Yorumlanır?

%95 güven aralığı: Araştırma tekrarlandığında elde edilen güven aralığı %95 ihtimalle gerçek popülasyon parametresini içerir.
Dar güven aralığı: Ölçüm daha hassastır; örneklem daha büyüktür veya varyans düşüktür. %95 güven aralığı ise, sonuç daha güvenilirdir ve tahmin aralığı dardır.
Geniş güven aralığı: Daha fazla belirsizlik vardır; örneklem küçükse veya varyans yüksekse güven aralığı genişler. %95 güven aralığı ise, sonuç çok değişken ve belirsizdir.¹

Güven Aralığı ile İlgili Önemli Noktalar:

Modern istatistiğin kurucularından Ronald Fisher, “Güven aralığı kavramı, tek bir p değerinden daha fazla bilgi sağlar,” diyerek, güven aralıklarının yalnızca bir hipotezin reddedilip reddedilmediğini gösteren p değerinden farklı olarak, bir etkinin büyüklüğünü ve tahminin olası varyasyonlarını sunarak daha kapsamlı bir anlayış sağladığını vurgulamıştır. Bu yaklaşım, istatistiksel sonuçların daha doğru yorumlanmasına ve araştırmacının verilerin altında yatan belirsizliği değerlendirmesine olanak tanır.

Yalnızca anlamlılık değil, etki büyüklüğü de vurgulanır: Bir sonuç istatistiksel olarak anlamlı olabilir, ancak güven aralığına bakarak etkinin ne kadar büyük veya küçük olduğunu görebilirsiniz.

0 veya 1 değerinin güven aralığında yer alması: Güven aralığı “0” değerini içeriyorsa (örneğin bir fark veya regresyon katsayısı için), bu farkın istatistiksel olarak anlamlı olmadığını gösterir. Oranlar için güven aralığı “1” değerini içeriyorsa, etkide anlamlı bir fark olmayabilir.

Güven Aralığı ve P Değeri Karşılaştırması:

Güven aralığı kavramının öncüsü Jerzy Neyman, “Bir güven aralığı, belli bir olasılıkla gerçek parametreyi içermesi için tasarlanmıştır, ancak kesin sonucu tahmin etmek için değil,” diyerek, güven aralıklarının belirsizliği yansıtan bir araç olduğunu ve belirli bir parametre hakkında kesin bir doğruluk iddiasında bulunamayacağını vurgulamıştır. Bu yaklaşım, istatistiksel tahminlerin hata payını anlamak ve olası değerler aralığını değerlendirmek için güven aralıklarının bir rehber olarak kullanılmasını teşvik etmektedir.

P değeri bir sonucun anlamlı olup olmadığını bildirirken, güven aralığı tahmin edilen değerin nerede olduğunu ve etki büyüklüğünü gösterir.
Güven aralıkları, araştırmacıya daha fazla bilgi verir:
“Etki büyüklüğü büyük mü, yoksa tesadüfi mi?”

Örnek Araştırma Sorusu: Bir toplumdaki yetişkin bireylerin günlük ortalama uyku süresi nedir?

Araştırma Yöntemi:

Popülasyon: 18 yaş ve üzeri bireylerden oluşan bir toplum.
Örneklem: Bu popülasyondan rastgele 100 birey seçilir.
Veri Toplama Yöntemi: Katılımcılara günlük uyku süreleriyle ilgili bir anket uygulanır.
Amaç: Örneklemin ortalamasını kullanarak popülasyonun ortalama uyku süresini tahmin etmek ve bu tahmine bir güven aralığı eklemek.

Sonuçlar:

Örneklem Ortalaması (X̄): 7.2 saat
Standart Sapma (s): 1.1 saat
Örneklem Büyüklüğü (n): 100
Güven Seviyesi: %95
Kritik Değer (Z): %95 güven seviyesi için Z ≈ 1.96

Resim-1. Güven aralığı formülü

CI= Bu sonuç, popülasyonun gerçek ortalama uyku süresinin %95 olasılıkla 6.98 saat ile 7.42 saat arasında olduğunu gösterir. Eğer uyku süresiyle ilgili başka bir toplum için farklı bir çalışmada güven aralığı olarak bulunmuşsa, bu iki toplumun uyku süreleri arasında belirgin bir fark olduğu söylenebilir. Çünkü bu aralıklar kesişmemektedir. Ancak güven aralıkları kesişseydi, bu farkın istatistiksel olarak anlamlı olmayabileceği yorumu yapılabilirdi.

Resim-2. Güven aralığı grafiği

Acil tıp literatüründe güven aralığı hesaplama yöntemlerini ele alan bir makalede, bu durumun sonuçların güvenilirliğini nasıl etkileyebileceğini tartışmaktadır. Makalenin amacı, Kuzey Amerika’daki dört büyük acil tıp dergisinde güven aralığı hesaplama yöntemlerinin raporlanma sıklığını değerlendirmektir. Araştırmada, son altı aylık yayınlar taranarak toplamda 212 makale analiz edilmiştir. Sonuçlara göre, makalelerin %58’inde güven aralığı raporlanmış ancak yalnızca %9.8’inde hesaplama yöntemi belirtilmiştir. Bu durum, güven aralığı verilerinin hangi yöntemle üretildiğini bilmeyen okuyucuların sonuçları yanlış anlamasına yol açabilir. Tartışmada, özellikle yaklaşıklık yöntemlerinin (örneğin Wald yöntemi) dar ve yanıltıcı güven aralıkları oluşturabileceği, buna karşılık Clopper-Pearson gibi daha kesin yöntemlerin daha güvenilir sonuçlar verdiği belirtilmiştir. Dar güven aralıkları, veri üzerinde fazla kesinlik algısı yaratabilir ve bu da özellikle küçük veri setleri veya uç noktalara yakın oranlar söz konusu olduğunda ciddi sorunlara yol açabilir. Makale, ayrıca raporlama eksikliğinin nedenlerini de sorgulamaktadır. Yazarlar, dergilerin yazar kılavuzlarında bu yöntemlere ilişkin açık bir rehber sağlamamasının ve araştırmacıların kullanılan istatistiksel yazılımlar hakkında bilgi eksikliğinin bu soruna katkıda bulunabileceğini öne sürmektedir. Makalede güven aralığı hesaplama yöntemlerinin açıklanmasının önemi vurgulanmıştır. Açıklama eksikliği, okuyucuların güven aralıklarının sınırlamalarını anlamasını zorlaştırabilir ve sonuçların yanlış yorumlanmasına neden olabilir. Bu nedenle, makale raporlama standartlarının geliştirilmesi ve güven aralığı hesaplama yöntemlerinin açıkça belirtilmesi, daha güvenilir ve şeffaf sonuçların elde edilmesine katkı sağlayacaktır. Bu durum, yalnızca acil tıp literatüründe değil, genel olarak bilimsel literatürde daha sağlam veri raporlamasına olanak tanıyabilir.³

Sık Karşılaşılan Sorular:

“Gerçek değer güven aralığında %95 ihtimalle bulunuyor” denebilir mi?
- Teknik olarak doğru değil, ancak bu yaygın bir yorumdur ve çoğu durumda uygun bir sonuç çıkarılmasını sağlar.
Güven aralığı popülasyonun %95’ini kapsar mı?
- Hayır. Güven aralığı, popülasyon ortalamasının tahmini bir aralığıdır, tüm popülasyon verilerini kapsamaz.
Rastgele olmayan örneklemle güven aralığı geçerli mi?
- Rastgele örneklem teorisiyle uyumsuz olsa da, genellikle yorum yapılabilir. Ancak, örneklemdeki yanlılıklar sonuçları etkileyebilir.⁴

Resim-3. Özet Tablo⁵

Özetle:

Güven aralığı, istatistiksel analizlerde yalnızca “var mı” sorusuna değil, “ne kadar” sorusuna da yanıt verir. Bu nedenle, p değerinin tek başına kullanılması yerine, güven aralıklarının rapor edilmesi önemlidir.

1.
O’Brien SF, Yi QL. How do I interpret a confidence interval? Transfusion. Published online May 17, 2016:1680-1683. doi:10.1111/trf.13635
2.
Lee D. Alternatives to P value: confidence interval and effect size. Korean J Anesthesiol. 2016;69(6):555-562. doi:10.4097/kjae.2016.69.6.555
3.
Marr A, Kurz M, Stern J, Kulstad E. Confidence Interval Calculation Methods Are Infrequently Reported in Emergency‐medicine Literature. Academic Emergency Medicine. Published online January 2007:74-76. doi:10.1197/j.aem.2006.07.014
4.
AKBULUT Ö. Bilimsel Makalelerde Raporlanması Önerilen Çıkarımsal İstatistikler. Kahramanmaraş Sütçü İmam Üniversitesi Tarım ve Doğa Dergisi. Published online February 28, 2024:238-247. doi:10.18016/ksutarimdoga.vi.1282850
5.
Sharma PK, Yadav M. Confidence Interval: Advantages, Disadvantages and the Dilemma of Interpretation. RRCT. Published online February 2024:76-80. doi:10.2174/0115748871266250231120043345

Bir yanıt yazın Yanıtı iptal et

Yorum yapabilmek için oturum açmalısınız.

YAZAR HAKKINDA

Merve Yazla

Yazar

Gazi Tıp mezunudur. Yuvaya Acil Tıp asistanı olarak geri dönmüştür. Eğitimini tamamladıktan sonra 15 yıllık Ankara macerasından mecburi hizmet için ayrılmış İzmit’e gitmiştir. İçinde ukde kalan matematik sevdasına biyoistatistik ile devam etme kararı almıştır.

BU YAZIYI DİNLE

Spotify'da Aç

SESLENDİREN

Cansu Doğan

Acilcinin Sesleri

Doğan ailesinin tek varisi olarak başladığı hayat serüvenine hiç tahmin edemeyeceği şekilde Acil sevdalısı olarak devam etmektedir. 4 yıl uzmanlık tecrübesinden sonra akademisyenlik hayaline Peygamberler şehri olarak da bilinen Şanlıurfa’da, Harran Üniversitesinde ulaşmıştır. Kitap okumayı, bilim-kurgu film izlemeyi çok sever. Doğada yürüyüş yapmaya ise bayılır.

ETİKETLER

CI Confidence Interval güven aralığı istatistik p değeri