Merve Yazla | 28 Kasım 2024

Etki Büyüklüğünü Kullanmak -ya da P Değeri Neden Yeterli Değil?

12 dk

İstatistiksel anlamlılık, sonuçlarla ilgili en az ilgi çekici şeydir. Sonuçları; sadece bir tedavinin insanları etkileyip etkilemediği değil, onları ne kadar etkilediği gibi büyüklük ölçüleri açısından tanımlamalısınız.

-Gene V. Glass¹

Bir araştırma incelemesinin temel ürünü, P değerleri değil, bir veya daha fazla etki büyüklüğü ölçüsüdür.

-Jacob Cohen²

Etki büyüklüklerinin önemi hakkındaki bu ifadeler, son elli yılın en etkili istatistikçi-araştırmacılarının ikisi tarafından yapılmıştır. Buna rağmen, dergilere yapılan birçok makale başvurusunda , nicel çalışmalarda etki büyüklüğünden bahsetmezken P değerini belirgin bir şekilde gösterilmektedir. Bu yazıda, araştırma planlama, analiz etme, raporlama ve anlama için etki büyüklüğünün öneminden bahsedeceğiz.

İyi okumalar !

Giriş

İstatistiksel analizlerde p değeri, uzun yıllardır sonuçların anlamlılığını değerlendirmek için temel bir araç olarak kullanılmaktadır. Ancak, P değerinin sınırlılıkları ve yanlış yorumlanmaları, araştırmacıları alternatif ölçütlere yönlendirmiştir. Bu bağlamda, etki büyüklüğü kavramı, sonuçların klinik ve pratik önemini daha iyi yansıtması nedeniyle giderek daha fazla önem kazanmaktadır.

P Değeri Nedir?

P değeri, sıfır hipotezinin doğru olduğu varsayımı altında, elde edilen veya daha uç bir test istatistiği değerinin gözlenme olasılığını ifade eder. Genellikle 0,05 veya 0,01 gibi belirli bir anlamlılık düzeyi ile karşılaştırılarak, sonuçların istatistiksel olarak anlamlı olup olmadığına karar verilir.

Bir deney ya da araştırma yaptığınızda, genelde elinizde iki hipotez olur:

Sıfır Hipotezi (H₀): “Hiçbir şey değişmiyor ya da etkisi yok” demektir. Örneğin, “Bu ilaç hastalık üzerinde etkili değil” diyebilirsiniz.
Alternatif Hipotez (H₁): “Bir şey değişiyor ya da etkisi var” demektir. Örneğin, “Bu ilaç hastalık üzerinde etkili” diyebilirsiniz.

Bir deney yaptığınızda sonuçlarınızın tesadüfen mi yoksa gerçekten anlamlı mı olduğunu anlamak istersiniz. İşte burada p değeri devreye girer!

P değerinin yanlış anlaşılmaması için bir uyarı: P değeri size sıfır hipotezin kesinlikle doğru ya da yanlış olduğunu söylemez. Sadece, elde edilen sonuçların sıfır hipotezi doğruyken ne kadar olası olduğunu gösterir. Başka bir deyişle, p değeri “ne kadar emin olduğunuz” değil, “tesadüf eseri bu sonucu elde etme şansınız” ile ilgilidir. Ancak, p değeri tek başına sonuçların klinik veya pratik önemini göstermez ve örneklem büyüklüğünden etkilenebilir.

Anlayabileceğiniz gibi, p değeri istatistiğin sadece bir aracıdır ve tek başına yeterli değildir. İşte bu yüzden, sonuçları daha iyi anlamak için etki büyüklüğü gibi başka ölçütlere de ihtiyaç duyulur!

P Değeri ve Hata Yapma Payı

P değeri, sıfır hipotezi doğru kabul edildiğinde elde edilen sonuçların veya daha uç değerlerin yalnızca şans eseri meydana gelme olasılığıdır.
Eğer p değeri 0.05 ise, bu “bu sonuçlar sıfır hipotezi doğruyken %5 ihtimalle tesadüfen meydana gelebilir” demektir.
Dolayısıyla, p değerinin küçük olması, sonuçların tesadüfen elde edilme ihtimalinin az olduğunu, sıfır hipotezi reddetme konusunda daha rahat olabileceğimizi gösterir.

%5 Kuralı ve Tesadüf

Geleneksel olarak, p < 0.05 (yani %5’in altında bir olasılık) “istatistiksel anlamlılık” olarak kabul edilir.
Bu durumda araştırmacılar, “Bu kadar sıra dışı bir sonucun şans eseri ortaya çıkma ihtimali %5’ten az, bu yüzden sıfır hipotezi reddedebiliriz” derler.

Ancak burada önemli bir detay var:

P değeri sıfır hipotezin doğru olup olmadığını kesin olarak kanıtlamaz.
%5 kuralı keyfi bir eşiğin sonucudur; bazı durumlarda p < 0.05 bile sonuçların önemli olduğunu garanti etmez.
Daha küçük p değerleri (örneğin, p < 0.01 veya p < 0.001) daha güçlü kanıt anlamına gelir, ancak bu yine de sıfır hipotezin kesinlikle yanlış olduğunu göstermez. Sadece hata yapma ihtimaliniz azalır.

P Değeri Neden Hata Payı Olarak Düşünülebilir?

Sıfır hipotezi reddettiğinizde iki tür hata yapma ihtimaliniz vardır:

Tip I Hatası: Sıfır hipotezi doğru olduğu halde reddetmek.
- P değeri, bu hatayı yapma ihtimalinizin üst sınırıdır.
- P < 0.05 demek, %5’ten daha düşük bir ihtimalle sıfır hipotezi yanlışlıkla reddediyor olabilirsiniz demektir.
Tip II Hatası: Sıfır hipotezi yanlış olduğu halde onu reddetmemek.
- P değeri bu hatayla ilgili değildir; bu durum genellikle örneklem büyüklüğü ve test gücü ile ilişkilidir.

Özet

P değeri, sıfır hipotezi doğruyken elde ettiğiniz sonuçların şans eseri ortaya çıkma olasılığını temsil eder.
Eğer p < 0.05 ise, “Bu sonuçların şans eseri meydana gelme ihtimali %5’ten az” diyebilirsiniz.
Ancak p değeri kesinlik sağlamaz; sadece sıfır hipotezi reddetme konusunda daha rahat bir temel sunar.
P değerini anlamak için sadece sayıya değil, çalışmanın bağlamına, etkilerin büyüklüğüne ve çalışmanın tasarımına da dikkat etmek gerekir.

Bu yüzden p değerine yalnızca hata yapma payı olarak bakılabilir, ancak her durumda etki büyüklüğü ve bağlamla birlikte değerlendirilmelidir!

Örnek: Sporcuların Performansı

Bir spor antrenörü, yeni bir beslenme programının sporcularının performansını artırıp artırmadığını test etmek istiyor. Bu amaçla, sporcular iki gruba ayrılıyor:

Kontrol Grubu: Normal beslenmeye devam ediyor.
Deney Grubu: Yeni beslenme programını uyguluyor.

Her iki gruptaki sporcuların 100 metrelik koşu süreleri ölçülüyor ve ortalama süreler karşılaştırılıyor. Antrenör, sonuçların istatistiksel olarak anlamlı olup olmadığını görmek için bir test yapıyor ve bir p değeri hesaplıyor.

Sonuç ve P Değeri Yorumlama

Sıfır Hipotezi (H₀): Yeni beslenme programı performansı etkilemiyor (iki grup arasında fark yok).
Alternatif Hipotez (H₁): Yeni beslenme programı performansı etkiliyor (iki grup arasında fark var).

Senaryo 1: P < 0.05 (örneğin, p = 0.03)

Sonuçlar gösteriyor ki, deney grubundaki sporcuların ortalama süreleri kontrol grubuna göre önemli ölçüde daha kısa. P değeri 0.03 olduğu için, bu sonuçların sıfır hipotez doğruyken şans eseri oluşma olasılığı sadece %3’tür.

Antrenör şöyle düşünebilir:
“Bu kadar düşük bir p değeri ile bu sonuçların tamamen tesadüfen oluştuğunu düşünmek zor. Bu nedenle, yeni beslenme programının performansı artırdığına inanabilirim.”

Senaryo 2: P > 0.05 (örneğin, p = 0.20)

Bu kez p değeri 0.20 çıktı, yani %20 olasılıkla, gözlemlenen fark sıfır hipotez doğruyken sadece tesadüf sonucu oluşmuş olabilir.

Antrenör şöyle düşünebilir:
“Bu sonuçlar, tamamen şansa bağlı olarak ortaya çıkmış olabilir. Bu nedenle, yeni beslenme programının etkili olduğuna dair elimde yeterli kanıt yok.”

Sonuç:

P değeri, bu iki grup arasındaki farkın tesadüfen oluşup oluşmadığını anlamamıza yardımcı olur. Ancak:

P değeri düşükse: “Yeni program etkili olabilir.”
P değeri yüksekse: “Etkili olup olmadığını anlamak için daha fazla kanıta ihtiyaç var.

Etki büyüklüğü nicel bir çalışmanın temel bulgusudur. Bir P değeri okuyucuya bir etkinin var olup olmadığını bildirebilirken, etkinin büyüklüğünü ortaya koymaz. Çalışmaları bildirirken ve yorumlarken hem klinik önem (etki büyüklüğü) hem de istatistiksel önem ( P değeri) bildirilmesi gereken temel sonuçlardır. ³

Unutulmaması gereken şey, p değerinin sadece bir araç olduğudur; sonuçların gerçek hayattaki anlamını değerlendirmek için etki büyüklüğü gibi başka faktörlere de bakılmalıdır!

Etki Büyüklüğü Nedir?

Etki büyüklüğü, bağımsız değişkenin bağımlı değişken üzerindeki etkisinin büyüklüğünü veya iki grup arasındaki farkın ne kadar büyük olduğunu gösteren bir ölçüttür. Bu ölçüt, sonuçların pratik ve klinik önemini değerlendirmede kritik bir rol oynar. Örneğin, Cohen’s d, Pearson’s r ve Odds Ratio gibi farklı etki büyüklüğü türleri bulunmaktadır.

Etki büyüklüğü , iki değişken arasındaki ilişkinin gücünü sayısal bir ölçekte ölçen istatistiksel bir kavramdır. Örneğin, erkek ve kadınların boyları hakkında verilerimiz varsa ve ortalama olarak erkeklerin kadınlardan daha uzun olduğunu fark edersek, erkeklerin boyu ile kadınların boyu arasındaki farka etki büyüklüğü denir. Etki büyüklüğü ne kadar büyükse, erkekler ve kadınlar arasındaki boy farkı da o kadar büyük olacaktır. İstatistiksel etki büyüklüğü, farkın gerçek olup olmadığını veya faktör değişikliğinden mi kaynaklandığını belirlememize yardımcı olur.

Etki Büyüklüğü Neden Önemlidir?

Etki büyüklüğü, sonuçların klinik ve pratik önemini değerlendirmede kritik bir rol oynar. P değeri, sadece istatistiksel anlamlılığı gösterirken, etki büyüklüğü, bulgunun gerçek dünyadaki etkisinin büyüklüğünü ortaya koyar. Bu nedenle, araştırmacılar ve klinisyenler, sonuçların uygulanabilirliğini ve önemini değerlendirmek için etki büyüklüğüne dikkat etmelidir. ⁴

Etki Büyüklüğü Size Ne Anlatıyor?

Etki büyüklüğü, iki grup arasındaki farkın veya bir değişkenin diğerine olan etkisinin büyüklüğünü nicel olarak ifade eder. Bu, sonuçların sadece istatistiksel olarak anlamlı olup olmadığını değil, aynı zamanda bu farkın veya etkinin ne kadar büyük olduğunu ve pratikte ne anlama geldiğini gösterir.⁵

Etki Büyüklüğü Nasıl Hesaplanır?

Etki büyüklüğünün hesaplanması, kullanılan istatistiksel test ve veri yapısına bağlıdır.

Yazılımlar ve Araçlarla Hesaplama

Etki büyüklüğünü hesaplamak için çeşitli istatistiksel yazılımlar ve araçlar kullanılabilir:

SPSS: Cohen’s d, eta squared gibi temel metrikleri kolayca hesaplamak için uygundur.
R: Etki büyüklüğü hesaplamaları için effsize, psych gibi paketler kullanılabilir.
G*Power: Araştırmanın tasarım aşamasında etki büyüklüğü ve örneklem büyüklüğünü belirlemek için kullanılır.
Online Hesaplayıcılar: Cohen’s d ve diğer metrikler için çevrimiçi hesaplama araçları da mevcuttur.

Örnek:

Bir çalışmada, yeni bir ilacın kan basıncını düşürmedeki etkisi araştırılmış olsun. Sonuçlar, p değerinin 0,03 olduğunu ve bu nedenle istatistiksel olarak anlamlı olduğunu gösteriyor. Ancak, etki büyüklüğü (örneğin, Cohen’s d = 0,2) küçükse, bu ilacın klinik olarak anlamlı bir etkisi olmayabilir. Bu durum, p değerinin tek başına yeterli olmadığını ve etki büyüklüğünün de değerlendirilmesi gerektiğini gösterir.

Tıbbi Araştırmalardan Etki Büyüklüğü Örnekleri

Örneğin, bir araştırmada iki farklı tansiyon ilacının etkisi karşılaştırılıyor:

Grup 1 (İlaç A): Ortalama tansiyon düşüşü = 10 mmHg, standart sapma = 5.
Grup 2 (İlaç B): Ortalama tansiyon düşüşü = 12 mmHg, standart sapma = 5.

Cohen’s d şu şekilde hesaplanır:

d=(12-10)/5=0.4

Cohen’in kriterlerine göre bu, orta düzeyde bir etki anlamına gelir.

P Değeriyle Anlamlı Ancak Küçük Bir Etki Büyüklüğü Olan Çalışma

Bir çalışmada yeni bir ağrı kesici ilacın etkisi test ediliyor. P değeri 0.03 (istatistiksel olarak anlamlı), ancak Cohen’s d = 0.2 olarak hesaplanıyor. Bu durum, ilacın etkisinin istatistiksel olarak anlamlı, ancak pratik olarak küçük olduğunu gösterir. Yani, ilaç ağrıyı bir miktar azaltıyor, ancak bu azalma klinik olarak fark edilemeyecek kadar küçük olabilir.

Büyük Bir Etki Büyüklüğüyle Anlamlı Olmayan Bir Çalışma

Bir başka çalışmada depresyon tedavisinde kullanılan bir terapinin etkisi inceleniyor. Çalışma küçük bir örneklemle yapılıyor ve p değeri 0.08 (anlamlı değil). Ancak Cohen’s d = 0.9, yani büyük bir etki büyüklüğü hesaplanıyor. Bu durum, örneklem büyüklüğünün yetersiz olduğunu, ancak terapinin güçlü bir etkisi olabileceğini gösteriyor. Daha büyük bir örneklemle tekrarlanan bir çalışmada bu etkinin anlamlı hale gelmesi muhtemeldir.

Sonuç

Etki büyüklüğünün hesaplanması, çalışmanın sonuçlarını değerlendirirken kritik bir adımdır. P değeri yalnızca istatistiksel anlamlılık hakkında bilgi verirken, etki büyüklüğü sonuçların gerçek dünyadaki önemini anlamaya yardımcı olur. Tıbbi araştırmalarda, etki büyüklüğü sonuçların klinik değerini ve pratik uygulanabilirliğini değerlendirmek için vazgeçilmezdir.

Etki Büyüklükleri Neden Raporlanmalıdır?

Etki büyüklüğü, farklı çalışmalardan elde edilen sonuçların karşılaştırılmasında önemli bir rol oynar. P değeri, örneklem büyüklüğünden etkilendiği için farklı çalışmalarda doğrudan karşılaştırma yapmak zordur. Ancak, etki büyüklüğü standartlaştırılmış bir ölçüt olduğundan, farklı çalışmaların sonuçlarını karşılaştırmak ve genel bir sonuca varmak için daha uygundur.

Etki büyüklüklerinin raporlanması, bilimsel şeffaflık ve sonuçların yeniden üretilebilirliği açısından önemlidir. Ayrıca, meta-analizler ve sistematik derlemeler için gerekli olan bu bilgiler, farklı çalışmaların sonuçlarının karşılaştırılmasına ve genel bir sonuca varılmasına olanak tanır.

Etki büyüklüğünü ne zaman hesaplamalısınız?

Çalışmanıza başlamadan önce ve veri toplamayı tamamladıktan sonra etki büyüklüklerini hesaplamak faydalıdır.

Çalışmanıza başlamadan önce beklenen etki büyüklüğünü bilmek, o büyüklükteki bir etkiyi tespit etmek için yeterli istatistiksel güce sahip olmak için ihtiyaç duyduğunuz minimum örneklem büyüklüğünü hesaplayabileceğiniz anlamına gelir .

Çalışmanızda yeterli güç sağlamazsanız, pratik bir öneme sahip olsa bile istatistiksel olarak anlamlı bir sonuç tespit edemeyebilirsiniz. Bu durumda, gerçek bir etki olmasına rağmen sıfır hipotezini reddetmezsiniz.

Güç analizi yaparak, belirli bir güç düzeyi için gereken örneklem büyüklüğünü belirlemek amacıyla belirli bir etki büyüklüğü ve anlamlılık düzeyi kullanabilirsiniz.

Çalışmanızı tamamladıktan, verilerinizi topladıktan sonra, makalenizin özet ve sonuç bölümlerinde gerçek etki büyüklüklerini hesaplayabilir ve raporlayabilirsiniz.

Etki büyüklükleri, standartlaştırılmış ve karşılaştırılması kolay oldukları için meta-analiz çalışmalarındaki ham verilerdir. Bir meta-analiz, belirli bir bulgunun ortalama etki büyüklüğü hakkında fikir edinmek için birçok ilgili çalışmanın etki büyüklüklerini birleştirebilir. Bu, yeni araştırma hatları oluşturabilir.⁶

Son olarak etki büyüklüğü, okuyucuların bulunan farklılıkların büyüklüğünü anlamalarına yardımcı olurken, istatistiksel önem, bulguların şansa bağlı olma olasılığını inceler. Her ikisi de okuyucuların çalışmanızın tam etkisini anlamaları için önemlidir.⁷

Bir sonraki yazıda görüşmek üzere !

Kaynaklar

1.
Kline RB. Beyond Significance Testing: Reforming Data Analysis Methods in Behavioral Research. American Psychological Association; 2004. doi:10.1037/10693-000
2.
Cohen J. Things I have learned (so far). American Psychologist. Published online December 1990:1304-1312. doi:10.1037/0003-066x.45.12.1304
3.
Sharma H. Statistical significance or clinical significance? A researcher’s dilemma for appropriate interpretation of research results. Saudi Journal of Anaesthesia. Published online October 2021:431-434. doi:10.4103/sja.sja_158_21
4.
Vishnu VY, Vinny PW. Statistical Significance and Clinical Importance. Neurology India. Published online September 2021:1509. doi:10.4103/0028-3886.329535
5.
Kaplan M. Sağlık Bilimlerindeki Araştırmalarda İstatistiksel Anlamlılık ve Klinik Uygunluk Arasındaki İlişkinin Değerlendirilmesi. Bingöl Üniversitesi Sağlık Dergisi. Published online April 30, 2024:242-244. doi:10.58605/bingolsaglik.1452046
6.
Bhandari P. What is Effect Size and Why Does It Matter? (Examples). Scribbr. 2023. https://www.scribbr.com/statistics/effect-size/
7.
Sullivan G, Feinn R. Using Effect Size-or Why the P Value Is Not Enough. J Grad Med Educ. 2012;4(3):279-282. doi:10.4300/JGME-D-12-00156.1

2 Responses

Ömer ORAL dedi ki:
6 Aralık 2024, 12:06

Yazı çok güzel olmuş. Emeğinize sağlık konuyla ilgili yazıları ve matematiğe dair yazıları merakla bekliyorum.
Yanıtlamak için oturum açın
1. Merve Yazla dedi ki:
  8 Aralık 2024, 16:50
  
  Değerli yorumunuz için teşekkür ederim.
  Yanıtlamak için oturum açın

Bir yanıt yazın Yanıtı iptal et

Yorum yapabilmek için oturum açmalısınız.

YAZAR HAKKINDA

Merve Yazla

Yazar

Gazi Tıp mezunudur. Yuvaya Acil Tıp asistanı olarak geri dönmüştür. Eğitimini tamamladıktan sonra 15 yıllık Ankara macerasından mecburi hizmet için ayrılmış İzmit’e gitmiştir. İçinde ukde kalan matematik sevdasına biyoistatistik ile devam etme kararı almıştır.

BU YAZIYI DİNLE

Spotify'da Aç

SESLENDİREN

Ali Can Candaş

Acilcinin Sesleri

Ege Tıp’tan mezun, Tepecik’ten ihtisaslı Aile Hekimliği Uzmanı. Pratisyen hekim olarak çalıştığı ve meraklısı olduğu acil servisin içinde hep bir ukde olarak kalacağını bilenlerden.

ETİKETLER