Merve Yazla | 13 Temmuz 2025

P Değeri Vazgeçilmezdir: Bilimsel Yanılsamalar Yerine Doğru Kullanım

19 dk

1-Giriş

Herkese Merhaba, daha önce kaleme aldığım “Etki Büyüklüğünü Kullanmak​1​, “Güven Aralığını Kullanmak​2​, “Olasılık Oranlarını Kullanmak​3​ ve “Odds Oranı Kullanmak​4​ başlıklı yazılarda, istatistiksel analizlerde p değerinin tek başına yeterli olmadığını; araştırma bulgularının klinik ve pratik önemini değerlendirmede önemli sınırlılıkları bulunduğunu ayrıntılı şekilde ele almıştım. Bu yazılarda p değerinin, yalnızca sıfır hipotezinin doğru olduğu varsayımı altında, gözlemlenen veya daha uç sonuçların şansa bağlı olarak elde edilme olasılığını ifade ettiğini; fakat bir etkinin büyüklüğü ya da gerçek yaşamdaki anlamı hakkında doğrudan bilgi sunmadığını vurgulamıştım. Bu nedenle, etki büyüklüğü, güven aralıkları ve odds/olasılık oranları gibi tamamlayıcı ölçütlerin sistematik biçimde raporlanması gerektiğini savundum. Tüm bu eleştirilerin ardından, şimdi p değerini Sokratesvari bir savunmayla yeniden değerlendirme zamanı. Evet, bu yazıda p değerini savunacağım. Çünkü p değeri, yanlış anlaşılmış olabilir; fazla yüceltilmiş ya da gereksiz yere değersizleştirilmiş olabilir… ama istatistiksel karar verme sürecinde hâlâ vazgeçilmez bir ilk duraktır.

P değeri ve istatistiksel anlamlılık testleri uzun süredir tartışma konusu olmuştur. Bu tartışmalar özellikle 2016 yılında American Statistical Association (ASA) tarafından yayımlanan ve p değerine dair yanlış anlamaları açıklığa kavuşturmayı amaçlayan bir bildiriyle hız kazanmıştır. Bu bildiride, p değerinin nasıl doğru kullanılacağına dair 6 temel ilke paylaşılmış, ancak “istatistiksel olarak anlamlı” teriminin tamamen terk edilmesi yönünde net bir öneri getirilmemiştir. 2019 yılında ise The American Statistician dergisinde çıkan özel bir sayıda, bu sefer daha radikal bir yaklaşım benimsenmiş ve p değerinin belirli bir eşik değerin (örneğin 0.05) altına düşüp düşmediğine göre karar vermenin artık terk edilmesi gerektiği savunulmuştur. Yani “istatistiksel olarak anlamlı” ifadesinin hiç kullanılmaması gerektiği öne sürülmüştür. Bu yaklaşım “eşiksiz görüş” olarak tanımlanmıştır. Ancak bu çağrılar bazı kafa karışıklıklarına neden olmuş ve ASA’nın resmi görüşü gibi algılanmıştır. Bunun üzerine ASA, 2021 yılında bu durumu netleştirmiştir. Rapora göre, p değeri ve istatistiksel anlamlılık testleri doğru şekilde kullanıldığında hâlâ bilimsel araştırmalarda önemli ve vazgeçilmez araçlardır. Bu gelişmeler, istatistiksel testlerin sadece teknik bir tartışma konusu olmadığını, aynı zamanda bilimsel güvenin nasıl inşa edildiğiyle ilgili büyük bir mesele olduğunu göstermektedir.​5​

Son yıllarda p değerine yönelik artan eleştiriler, bilimsel araştırmalarda yaşanan tekrarlanabilirlik krizinin başlıca sebeplerinden biri olarak gösteriliyor. Ancak bu eleştirilerin çoğu, p değerinin doğasında var olan bir sorunla değil; onun yanlış anlaşılması, fazla önemsenmesi ve uygun olmayan şekillerde kullanılmasıyla ilgilidir. Oysa doğru kullanıldığında, p değeri istatistiksel analizlerde hâlâ temel bir araç olma özelliğini korur. P değeri, elde edilen bir sonucun tamamen tesadüfen ortaya çıkıp çıkmadığını değerlendirmemize yardımcı olur ve araştırmacılara ilk olarak “Bu fark ya da ilişki yalnızca şansa mı bağlı?” sorusunu sorma fırsatı verir. Bu yönüyle, rastlantısal varyasyon ile gerçek bir etkiyi ayırt etmemizi sağlayan ilk savunma hattıdır. Aynı zamanda Tip I hata riskine dair nesnel bir çerçeve sağlar. Dolayısıyla, p değeri nihai bir karar ölçütü olmaktan çok, bilimsel sorgulamanın ilk filtresidir ve bu yönüyle araştırma sonuçlarının güvenilirliğini değerlendirmede hâlâ kritik bir rol üstlenmektedir.

2-P Değerine Yönelik Temel Eleştiriler

2.1. P Değerinin Yanlış Yorumlanması ve Aşırı Vurgulanması

  • P değeri neyi ölçer, neyi ölçmez?
  • P değeri ile etki büyüklüğünün karıştırılması
  • Anlamsız p > 0.05 yorumlarının sakıncaları

P değeri, elde edilen verilerin —veya daha uç sonuçların— sıfır hipotezi doğru kabul edildiğinde gerçekleşme olasılığını ifade eder. Ancak sıkça karşılaşılan bir yanılgı, p değerinin hipotezin doğru olma ihtimalini ya da araştırılan etkinin büyüklüğünü yansıttığı düşüncesidir. Oysa p değeri, yalnızca gözlemlenen bulgunun tesadüf eseri oluşma olasılığı hakkında bilgi verir; etkinin ne kadar büyük veya önemli olduğunu göstermez.

Küçük bir p değeri, çoğu zaman otomatik olarak büyük veya klinik olarak önemli bir etki olduğu şeklinde yorumlanmaktadır. Ancak bu doğru değildir. P değeri, örneklem büyüklüğüne oldukça duyarlıdır; büyük örneklemler küçük etkileri bile istatistiksel olarak anlamlı gösterebilir. Bu nedenle, yalnızca p değerine bakılarak etki büyüklüğü hakkında yorum yapmak yanıltıcı olabilir.

Diğer yandan, p > 0.05 olması da bir etkinin kesinlikle olmadığı anlamına gelmez. Bu durum yalnızca mevcut verilerin sıfır hipotezi ile çelişmediğini gösterir. Gücü yetersiz çalışmalar, büyük ve önemli etkileri dahi istatistiksel olarak anlamlı göstermekte başarısız olabilir. Bu tür sonuçların yanlış yorumlanması, potansiyel olarak değerli bulguların göz ardı edilmesine yol açabilir.

Sonuç olarak, istatistiksel anlamlılık ile pratik veya klinik anlamın birbirine karıştırılması, p değerinin en yaygın ve en sorunlu yanlış kullanım biçimlerinden biridir. Bir etkinin “istatistiksel olarak anlamlı” olması, onun “bilimsel veya klinik olarak önemli” olduğu anlamına gelmez. Bu nedenle p değeri, mutlaka etki büyüklüğü ve güven aralıkları gibi tamamlayıcı bilgilerle birlikte yorumlanmalıdır.

2.2. Keyfi Eşik Değerler ve İkili Karar Verme

  • 0.05 sınırının eleştirisi
  • 0.049 vs 0.051 çelişkisi
  • P-hacking ve çoklu test problemi

İstatistiksel analizlerde en yaygın kullanılan karar kriterlerinden biri olan p < 0.05 eşiği, yıllardır bilimsel topluluklar tarafından “istatistiksel anlamlılık” için standart bir sınır olarak benimsenmiştir. Ancak bu 0.05 sınırı, tarihsel olarak Fisher tarafından önerilmiş olmasına rağmen, bilimsel olarak zorunlu bir temele dayanmaz ve çoğu durumda keyfi bir eşik niteliği taşır. Farklı çalışma türlerinde, farklı bağlamlarda ya da farklı hata maliyetlerinin olduğu durumlarda aynı eşiğin uygulanması, bilimsel değerlendirme sürecini mekanik ve bağlamdan kopuk hale getirmektedir.

Bu keyfi sınırın en belirgin sorunlarından biri, p değeri 0.049 olan bir sonucun “istatistiksel olarak anlamlı” kabul edilirken, p değeri 0.051 olan bir sonucun “anlamsız” olarak değerlendirilmesidir. Oysa bu iki değerin arasında neredeyse hiç fark yoktur ve böyle bir ayrım, bilimsel gerçeklik açısından anlamsız bir ikilik yaratır. Bu yaklaşım, bilimsel bulguların dereceli ve sürekli bir yapı içinde değerlendirilmesi gerekirken, yapay bir ‘var/yok’ kararıyla sınırlanmasına neden olur. Bu durum hem istatistiksel titizliği hem de sonuçların yorumlanabilirliğini zayıflatır.

0.05’lik eşik, aynı zamanda araştırmacıları bilinçli ya da bilinçsiz biçimde “p-hacking” olarak adlandırılan istatistiksel manipülasyonlara yöneltebilir. P-hacking; analizlerde kullanılan veri alt gruplarının değiştirilmesi, bazı verilerin dışlanması, çok sayıda analiz yapılıp yalnızca anlamlı görünenlerin raporlanması ya da modeldeki değişkenlerin keyfi olarak eklenip çıkarılması gibi yöntemlerle, istatistiksel olarak anlamlı sonuçlar elde etmeye yönelik bir çabadır. Bu tür uygulamalar, görünürde “anlamlı” gibi görünen sonuçların aslında rastlantısal olabileceği riskini doğurur ve literatürde sahte pozitif bulguların artmasına neden olur.

Bir çalışmada çok sayıda hipotez testi yapılması, her bir test için ayrı ayrı %5 hata payı tanınması anlamına gelir. Ancak test sayısı arttıkça, en az birinin tesadüfen anlamlı çıkma olasılığı da ciddi biçimde artar. Örneğin 20 bağımsız test yapıldığında, en az bir tanesinin p < 0.05 olma olasılığı yaklaşık %64’tür. Bu durum, “çoklu test problemi” olarak bilinir ve Tip I hata oranının (yani yanlış pozitif sonuçların) yükselmesine neden olur. Çoklu karşılaştırmaların düzeltilmeden raporlanması, sonuçların güvenilirliğini ciddi biçimde tehlikeye atar ve tekrarlanabilirlik krizine katkıda bulunur.

0.05 sınırına dayalı ikili karar verme anlayışı, hem bilimsel esnekliği hem de yorum gücünü sınırlamaktadır. Bu nedenle, p değerinin sürekli bir olasılık ölçüsü olarak değerlendirilmesi; bağlama, örneklem büyüklüğüne ve etki büyüklüğüne göre daha bütüncül bir şekilde ele alınması önerilmektedir. Ayrıca çoklu test düzeltmeleri (örneğin Bonferroni düzeltmesi, Yanlış Keşif Oranı – FDR gibi) ve daha şeffaf raporlama standartlarının benimsenmesi, istatistiksel sonuçların güvenilirliğini artırmak açısından kritik öneme sahiptir.

 Resim-1. İstatistiksel gerçeklik derecelidir, ikilik yanıltıcıdır.

2.3. Felsefi ve Teorik Eleştiriler:

  • Olabilirlik ilkesi ile çelişki
  • Sıfır hipotezinin gerçek dışılığı
  • Araştırmacının öğrenmek istediği ile p değerinin söylediği şey arasındaki boşluk

P değerine yönelik eleştirilerin bir bölümü, onun temel aldığı istatistiksel felsefenin belirli ilkelerle uyuşmadığına dayanmaktadır. Özellikle Bayesci yaklaşıma dayanan Olabilirlik İlkesi (Likelihood Principle), bir araştırmada elde edilen tüm istatistiksel bilginin yalnızca gözlemlenen verilerde bulunduğunu savunur. Bu ilkeye göre, yalnızca gerçekleşmiş sonuçlar dikkate alınmalıdır; gerçekleşmemiş, olası ama gözlemlenmemiş sonuçlara dayalı çıkarımlar geçerli değildir. Ancak p değeri, gözlemlenen verilerin yanında, sıfır hipotez altında daha uç değerlerin görülme olasılığını da hesaba katar. Yani p değeri yalnızca ne olduğu ile değil, ne olabileceği ile de ilgilenir. Bu yaklaşım, Olabilirlik İlkesi’ni ihlal ettiği gerekçesiyle eleştirilir ve özellikle Bayesci istatistikçiler tarafından sorunlu bulunur. Bu eleştiri, p değerinin teknik olarak yalnızca gözlemlenen verilere dayanan istatistiksel sonuçlarla tam olarak örtüşmediğini ileri sürer.

Birçok araştırmacı, p değeri ile elde ettiği sonucun doğruluğu hakkında doğrudan bilgi aldığını düşünme eğilimindedir. Oysa bu, p değerinin doğasına aykırıdır. P değeri, sıfır hipotezi doğru olduğunda mevcut ya da daha uç bir sonucun görülme olasılığını verir; sıfır hipotezinin doğru olma olasılığını vermez. Bu, yaygın ama ciddi bir yanlış anlamadır. Araştırmacıların çoğu, “hipotezim doğru mu?”, “bu etki gerçekten var mı?” gibi soruların yanıtını ararken, p değerinin bu sorulara doğrudan yanıt vermediğini gözden kaçırır. Bu durum, p değerine olduğundan fazla anlam yüklenmesine neden olur. P değeri, yalnızca gözlenen verinin sıfır hipotezi altında ne kadar olası olduğunu söyler; oysa araştırmacılar, çoğunlukla alternatif hipotezin doğruluğu ya da klinik/pratik anlamlılık hakkında bilgi edinmek ister. Aradaki bu boşluk, p değerinin amacının ve sınırlılığının yeterince anlaşılmamasından kaynaklanır.

Bir başka teorik eleştiri, klasik anlamda sıfır hipotezin (yani etkinin tam olarak sıfır olması) çoğu zaman gerçek dünyada zaten nadiren geçerli olduğudur. Gerçek hayatta, neredeyse her şey arasında az ya da çok bir ilişki, küçük de olsa bir fark vardır. Bu nedenle, “etki yok” varsayımına dayanan testlerin sonuçları bazen anlamsız ya da önemsiz hale gelebilir. Bu görüşe göre, zaten var olmayan mutlak sıfır etkiyi test etmek bilimsel olarak verimli bir çaba değildir. Bunun yerine, klinik açıdan anlamlı minimum etki büyüklükleri gibi daha gerçekçi hipotezlerin test edilmesi önerilir. Ayrıca, sıfır hipotezini reddetmek her zaman önemli bir şey bulmak anlamına gelmez. Örneğin büyük örneklemli çalışmalarda önemsiz büyüklükteki etkiler bile kolayca anlamlı çıkabilir. Bu durum, sıfır hipoteze dayalı testlerin bağlamdan kopuk yorumlanmasına neden olur.

Felsefi ve teorik eleştiriler, p değerinin yalnızca istatistiksel bir hesaplama değil, aynı zamanda belirli varsayımlar ve yaklaşımlar üzerine kurulu bir düşünme biçimi olduğunu hatırlatır. Bu eleştiriler, p değerinin sınırlarını, yanlış kullanımlarını ve araştırmacının beklentileriyle arasındaki boşluğu ortaya koyarak, daha bütüncül ve eleştirel bir bilimsel yaklaşımın gerekliliğine işaret eder. Ancak bu eleştiriler, p değerinin tümüyle terk edilmesini değil, bağlamına uygun olarak dikkatle yorumlanmasını gerekli kılar.​6​

3-P Değerine Yönelik Eleştirilere Yanıtlar

3.1. P Değeri, Yanlış Kullanıma Rağmen Vazgeçilmezdir

  • Eleştirilerin büyük kısmı yanlış yorumlamadan kaynaklıdır
  • Güven aralıkları ve AIC ile ilişkisi
  • %95 güven düzeyi de keyfidir

P değerine yöneltilen eleştirilerin büyük bölümü, aslında bu ölçütün yanlış anlaşılması ve yanlış yorumlanması ile ilgilidir. Bu nedenle p değerini tamamen suçlamak yerine, onun doğru şekilde nasıl kullanılacağını ve nasıl yorumlanması gerektiğini tartışmak daha yapıcı bir yaklaşımdır. Eleştirilerin çoğu, p değerinin ne söylediğini değil, ne söylemediğini görmezden gelen yanlış beklentilere dayanmaktadır.

P değeri, elimizdeki verilerin, sıfır hipotezi doğru kabul edildiğinde ne kadar olağan ya da sıra dışı olduğunu değerlendirir. Başka bir deyişle, “Bu veriler, gerçekten etkisiz bir durum varsa bile bu kadar uç olabilir miydi?” sorusuna yanıt arar. Bu yönüyle p değeri, araştırmacıya ilk olarak bulduğum sonuçlar rastlantı eseri mi? sorusunu sorma ve değerlendirme imkânı tanır. Bu, bilimsel sorgulamanın ilk ve en temel adımıdır.

Ayrıca p değeri, yalnız başına bir karar aracı olarak görülmemelidir. Ancak doğru bağlamda, etki büyüklüğü, güven aralığı ve örneklem büyüklüğü gibi diğer ölçütlerle birlikte değerlendirildiğinde anlamlı sonuçlar sunar. Nitekim, istatistiksel analizlerde yaygın olarak kullanılan güven aralıkları (Confidence Intervals) ve Akaike Bilgi Kriteri (AIC) gibi alternatif ölçütler de, p değeri ile aynı istatistiksel temele dayanır. Örneğin, %95 güven aralığı aslında p < 0.05 eşiği ile örtüşen bir sonuç verir. Yani bir parametrenin %95 güven aralığı sıfırı kapsamıyorsa, bu parametreye ait p değeri 0.05’in altındadır. Bu da gösteriyor ki, p değeri ile güven aralığı aynı bilgiye farklı bakış açıları sunar. Birini savunup diğerini tamamen reddetmek, aslında içsel bir çelişkidir.

Benzer şekilde, AIC gibi bilgi kriterleri de model seçimi için kullanılan, farklı yaklaşımları esas alan ama yine istatistiksel çıkarıma dayalı ölçütlerdir. AIC’nin verdiği sayısal değerler üzerinden yapılan kıyaslamalar da özünde belirli varsayımlara ve sınırlara dayanır. Dolayısıyla, AIC ya da güven aralığını savunup p değerini “keyfi” ya da “gereksiz” ilan etmek, aslında temel hesaplamaları ve çıkarım mekanizmalarını göz ardı etmek anlamına gelir. Üstelik, eleştirilen 0.05 eşiği gibi p değeri sınırlarının keyfi olduğu doğrudur; ancak bu durum sadece p değerine özgü değildir. %95 güven aralığı için belirlenen kapsama oranı da aynı şekilde uzlaşıya dayalıdır. AIC karşılaştırmalarında da mutlak bir sınır yoktur; yine bağlama göre değerlendirme yapılır. Bu nedenle p değerinin keyfi olması, onu diğer istatistiksel ölçütlerden daha az güvenilir yapmaz.

3.2. Doğru Kullanım İçin Geliştirme Önerileri

  • P değeri ile birlikte etki büyüklüğü raporlanmalı
  • Sabit eşikler yerine bağlamsal yaklaşım
  • Çoklu test düzeltmeleri (Bonferroni, FDR)
  • Minimum etki ve eşdeğerlik testlerinin rolü

P değerine yönelik eleştirilerin önemli bir bölümü, onun yanlış ve bağlamdan kopuk şekilde kullanılmasından kaynaklanmaktadır. Bu nedenle, p değerini tamamen terk etmektense, doğru kullanımını teşvik edecek yapısal ve metodolojik iyileştirmeler yapmak çok daha sağlıklı bir yaklaşımdır. Aşağıda, bu amaca yönelik bazı temel öneriler sıralanmıştır:

▪ P Değeri Etki Büyüklüğüyle Birlikte Raporlanmalıdır

P değeri, bir sonucun tesadüf eseri olup olmadığını değerlendirmede faydalı bir ölçüt olsa da, bu sonucun pratik ya da klinik önemini göstermez. Bu nedenle p değeri tek başına asla yeterli değildir. Mutlaka etki büyüklüğü (effect size) ile birlikte raporlanmalıdır. Etki büyüklüğü, gözlenen farkın veya ilişkinin gerçek yaşamda ne kadar anlamlı olduğunu gösterir. Böylece, istatistiksel olarak anlamlı bir farkın aslında klinik olarak önemsiz olup olmadığı anlaşılabilir. Örneğin büyük örneklemlerde önemsiz farklar bile istatistiksel olarak anlamlı çıkabilir. Ancak bu farkın büyüklüğü düşükse, karar verici için anlamlı olmayabilir.

▪ Sabit Eşikler Yerine Bağlamsal Yaklaşım Benimsenmelidir

Geleneksel olarak kullanılan p < 0.05 eşiği, tarihsel nedenlerle yaygınlaşmış keyfi bir sınırdır. Oysa farklı araştırma türleri ve farklı karar düzeyleri için farklı eşikler gerekebilir. Örneğin halk sağlığı alanında %10’luk bir hata payı tolere edilebilirken, ilaç ruhsatlandırma gibi yüksek riskli alanlarda bu eşik %1 ya da daha katı olabilir.

Bu nedenle ikili karar kuralı yerine, p değerinin sürekli bir ölçüt olarak değerlendirilmesi önerilir. Yani p değeri sadece “anlamlı” ya da “anlamsız” olarak etiketlenmemeli; bunun yerine “güçlü”, “ılımlı” ya da “zayıf” düzeyde kanıt sunduğu şeklinde bağlamsal yorum yapılmalıdır.

▪ P-Hacking ve Seçici Raporlama Her Ölçüt İçin Geçerli Risklerdir

P-hacking, yani veri analiz sürecinde istatistiksel anlamlı sonuçlar elde etmek için çeşitli manipülasyonlar yapılması (örneğin, veri alt grupları oluşturmak, kontrol değişkenlerini değiştirerek sonuçları etkilemek), yalnızca p değerine özgü değildir. Aslında bu tür suistimaller, herhangi bir karar ölçütü (örneğin Bayes faktörü, güven aralığı, AIC) için mümkündür.

P değerini tamamen devre dışı bırakmak, araştırmacıların sonuçları değerlendirme sürecinde daha fazla öznel yoruma ve belirsizliğe yönelmesine neden olabilir. Oysa p değeri, tüm sınırlılıklarına rağmen, bilimsel bulguların değerlendirilmesinde nesnel ve standartlaştırılmış bir ölçüt sunar. Bu yüzden çözüm, p değerini tümüyle terk etmek değil; onu, açık, şeffaf ve önceden planlanmış (ön kayıtlı) araştırma yaklaşımlarıyla birlikte kullanmaktır. Bu sayede hem metodolojik bütünlük korunur hem de bulguların güvenilirliği artırılır.

Resim-2. Çözüm, ölçütleri terk etmek değil; şeffaflığı ve planlamayı benimsemektir.

▪ Çoklu Test Düzeltmeleri Uygulanmalıdır

Bir araştırmada birden fazla hipotez test edildiğinde, sadece şans eseri anlamlı sonuçlar elde etme ihtimali artar. Bu da Tip I hata oranının yükselmesine neden olur. Bu sorunu çözmek için çoklu test düzeltmeleri gereklidir. En yaygın yöntemlerden biri Bonferroni düzeltmesi olup, anlamlılık eşiğini test sayısına bölerek daha katı bir eşik tanımlar. Alternatif olarak, daha esnek olan Yanlış Keşif Oranı (False Discovery Rate, FDR) kontrolü, özellikle çok sayıda testin yapıldığı genomik ve psikolojik araştırmalarda tercih edilmektedir. Bu yöntemler, p değerlerinin güvenilirliğini ve bulguların tekrarlanabilirliğini artırmak açısından büyük önem taşır.

▪ Minimum Etki ve Eşdeğerlik Testlerine Yer Verilmelidir

Geleneksel hipotez testleri, yalnızca “etki var mı yok mu?” sorusuna odaklanır. Oysa gerçek hayatta araştırmacılar çoğunlukla “etki ne kadar büyük?”, “bu etki bizim için anlamlı mı?”, “iki tedavi gerçekten eşdeğer mi?” gibi sorulara yanıt arar. Bu nedenle, minimum etki testleri (minimum-effect tests) ve eşdeğerlik testleri (equivalence tests) gibi daha gelişmiş yaklaşımlar kullanılmalıdır. Bu testler, sıfır hipotezini sadece sıfır etki varsayımı olarak değil, “etki boyutu pratik olarak önemli eşiğin altında mı?” gibi daha anlamlı senaryolarla genişletir. İlginç olan şu ki, bu testler de p değerini kullanmaya devam eder; fakat bağlamı zenginleştirerek daha anlamlı sonuçlar üretir. Böylece p değeri, daha sofistike sorgulamalar için bir araç haline gelir.​7​

3.3. P Değerinin Eğitimi ve Bağlamsal Yorumu

  • “İstatistikçinin yanılgısı” kavramı
  • Kontrol edilen deneylerde p değerinin gücü
  • İnsan faktörü ve yazılım desteği
  • Alternatif yaklaşımların da yanlış yorumlanma riski

P değerine yönelik eleştirilerin önemli bir kısmı, istatistiksel yöntemlerin yeterince anlaşılmaması ve doğru yorumlanmamasıyla ilgilidir. Bu durum, bazı uzmanların “istatistikçinin yanılgısı” (statistician’s fallacy) olarak tanımladığı bir soruna işaret eder. Bu yanılgıya göre, istatistikçiler zaman zaman araştırmacılara neyi bilmek istediklerini dikte etmeye çalışmakta; oysa esas görevleri, araştırmacılara hangi soruları sorabileceklerini ve hangi araçlarla bunlara yaklaşabileceklerini öğretmek olmalıdır. Bazı soruların en uygun cevabı hâlâ p değeri olabilir; bu yüzden, bu aracı tamamen dışlamak yerine, onun doğru kullanımı ve sınırlarının iyi anlaşılması gerekir.

P değeri, özellikle randomize kontrollü deneylerde ve belirli bir eşik değerine göre karar verilen test senaryolarında (örneğin minimum etki testleri veya eşdeğerlik testleri) oldukça işlevseldir. Bu tür çalışmalarda p değeri, bir hipotezin doğruluğuna dair önemli nicel ipuçları sunar. Yani, p değeri bilimsel karar verme sürecinde hâlâ etkili bir araçtır — yeter ki bağlamında kullanılsın.

Ancak sorun, p değerinin kendisinden çok, onun nasıl öğretildiği ve kullanıldığıyla ilgilidir. Birçok araştırmacı istatistiksel eğitimi yüzeysel ya da ezbere dayalı biçimde almakta ve p değerini bir “anlamlı/önemsiz” düğmesi gibi görmektedir. Oysa bu yaklaşım, istatistiksel düşüncenin doğasına aykırıdır. Bu nedenle p değeriyle ilgili sorun, teknikten ziyade bir “insan faktörü” ve “eğitim açığı” problemidir.

Ayrıca, istatistiksel analizler için kullanılan yazılımların karmaşık arayüzleri ya da kullanıcıyı yönlendirmeyen yapıları da bu yanlış anlamaların yayılmasına katkı sağlar. Araştırmacılar, sadece bir tuşa basarak elde ettikleri p değerlerini yeterince sorgulamadan kullanma eğilimindedir. Bu nedenle, daha kullanıcı dostu, rehberli ve açıklayıcı istatistiksel yazılım araçlarının geliştirilmesi, yanlış yorumlamaları azaltmada önemli rol oynayabilir.

Son olarak, p değerine alternatif olarak sunulan yöntemlerin de (örneğin Bayes faktörleri, güven aralıkları, bilgi kriterleri) kendi yanlış yorumlama ve kötüye kullanım riskleri vardır. Her istatistiksel araç, bilgi üretiminde ancak kullanıcı tarafından doğru anlaşılır ve uygun bağlamda yorumlanırsa etkili olabilir. Dolayısıyla çözüm, p değerini yasaklamak ya da dışlamak değil; onu ve diğer ölçütleri, eleştirel bir bakış açısıyla, bağlamsal olarak anlamlandırabilen bilimsel okuryazar bir kültür inşa etmektir.​8​

4-Sonuç ve Genel Değerlendirme

  • P değeri yalnız bırakılmamalı ama terk de edilmemeli
  • Doğru yorumlama, etik raporlama ve istatistiksel okuryazarlık teşvik edilmeli
  • Bilimsel ilerleme için araçları değil, onların yanlış kullanımını hedef almalıyız

P değerine yönelik eleştiriler son yıllarda giderek artmış, hatta bazı çevrelerde “tarihin çöplüğüne gönderilmesi” gerektiği dahi dile getirilmiştir. Ancak bu görüşlerin büyük kısmı, p değerinin istatistiksel çıkarımdaki gerçek rolünü yanlış anlamaktan veya sınırlılıklarını abartılı şekilde yorumlamaktan kaynaklanmaktadır. Gerçekte, p değeri ne mucizevi bir hakikat ölçer ne de tüm bilimsel soruları yanıtlayabilir; fakat gözlemlenen etkilerin rastlantısal olup olmadığını değerlendirmede hâlâ temel bir araçtır.

P değerinin yaşadığı bu haksız itibar kaybı, bizleri ünlü filozof Sokrates’in savunmasına benzer bir noktaya getiriyor: Sokrates nasıl Atina mahkemesinde, halkın kendisine yüklediği yanlış anlamalara karşı felsefenin değerini savunduysa, biz de burada p değerinin; tüm eksikliklerine rağmen, bilimsel düşüncenin tutarlı ve nesnel yapı taşlarından biri olduğunu savunuyoruz. Yani, bu yazı aynı zamanda bir “Sokrates’in P Değeri Savunmasıdır.”

P değerini tek başına bırakmak, onu ya kutsal bir sayı gibi görmek ya da tüm hataların kaynağı ilan etmekle eşdeğerdir. Oysa bu araç, doğru bağlamda ve tamamlayıcı ölçütlerle (etki büyüklüğü, güven aralıkları, olasılık oranları vb.) birlikte kullanıldığında, bilimsel değerlendirme sürecine objektiflik ve tutarlılık kazandırır. Tam da bu nedenle, p değerini tamamen terk etmek yerine, onu yalnız bırakmamak; yani başka yöntemlerle destekleyerek yorumlamak çok daha sağlıklı bir yaklaşımdır.

Bu bağlamda:

  • P değeri terk edilmemeli, doğru şekilde kullanılmalıdır. Onun güçlü ve zayıf yönlerini bilen, eleştirel düşünebilen bir istatistiksel okuryazarlık düzeyi yaygınlaştırılmalıdır.
  • Etik ve şeffaf raporlama teşvik edilmelidir. Ön kayıt, açık veri ve açık analiz yaklaşımları, p değerinin yanlış kullanımını azaltmada önemli rol oynar.
  • Sorun, aracın kendisi değil, kullanım şeklidir. Bilimsel ilerleme, istatistiksel araçları yasaklamakla değil; onların doğru kullanımını öğrenmekle sağlanır.

Unutmamak gerekir ki, p değeri yalnızca bir başlangıç noktasıdır; bilimsel bir sonucun anlamlı olup olmadığını belirlemek için atılan ilk adımdır. Ancak bu ilk adım, iyi atıldığında sonraki tüm bilimsel süreci daha sağlam temeller üzerine inşa etmemizi sağlar. Bu nedenle p değerini dışlamak değil, onu doğru konumlandırmak ve güçlendirmek gerekir.

Son söz olarak: “P değeri masumdur, onu kötüye kullananlar suçludur.”

Referanslar

  1. 1.
    Yazla M. Etki Büyüklüğünü Kullanmak -ya da P Değeri Neden Yeterli Değil? Acilci.Net. https://acilci.net/etki-buyuklugunu-kullanmak-ya-da-p-degeri-neden-yeterli-degil/
  2. 2.
    Yazla M. Güven Aralığını Kullanmak -ya da P Değeri Neden Yeterli Değil? Acilci.Net. https://acilci.net/guven-araligini-kullanmak-ya-da-p-degeri-neden-yeterli-degil/
  3. 3.
    Yazla M. Olasılık Oranlarını Kullanmak -ya da P Değeri Neden Yeterli Değil? Acilci.Net. https://acilci.net/olasilik-oranlarini-kullanmak-ya-da-p-degeri-neden-yeterli-degil/
  4. 4.
    Yazla M. Odds Oranı Kullanmak ya da P Değeri Neden Yeterli Değil? Acilci.Net. https://acilci.net/odds-orani-kullanmak-ya-da-p-degeri-neden-yeterli-degil/
  5. 5.
    Mayo DG, Hand D. Statistical significance and its critics: practicing damaging science, or damaging scientific practice? Synthese. Published online May 12, 2022. doi:10.1007/s11229-022-03692-0
  6. 6.
    Verhulst B. In Defense of P Values. AANA J. 2016;84(5):305-308. https://www.ncbi.nlm.nih.gov/pubmed/28366961
  7. 7.
    Murtaugh PA. In defense of P values. Ecology. Published online March 2014:611-617. doi:10.1890/13-0590.1
  8. 8.
    Lakens D. The Practical Alternative to the p Value Is the Correctly Used p Value. Perspect Psychol Sci. Published online February 9, 2021:639-648. doi:10.1177/1745691620958012

Bir yanıt yazın

YAZAR HAKKINDA

Merve Yazla
Yazar
Gazi Tıp mezunudur. Yuvaya Acil Tıp asistanı olarak geri dönmüştür. Eğitimini tamamladıktan sonra 15 yıllık Ankara macerasından mecburi hizmet için ayrılmış İzmit’e gitmiştir. İçinde ukde kalan matematik sevdasına biyoistatistik ile devam etme kararı almıştır.

BU YAZIYI DİNLE

SESLENDİREN

Cansu Doğan
Acilcinin Sesleri
Doğan ailesinin tek varisi olarak başladığı hayat serüvenine hiç tahmin edemeyeceği şekilde Acil sevdalısı olarak devam etmektedir. 4 yıl uzmanlık tecrübesinden sonra akademisyenlik hayaline Peygamberler şehri olarak da bilinen Şanlıurfa’da, Harran Üniversitesinde ulaşmıştır. Kitap okumayı, bilim-kurgu film izlemeyi çok sever. Doğada yürüyüş yapmaya ise bayılır. 

ETİKETLER