Sergiusz Nawrocki Jak interpretować wyniki badań klinicznych - podstawy metodologii i statystyki Oceń swój 90% przedział ufności • W jakim wieku był M...
6 downloads
46 Views
3MB Size
Jak interpretować wyniki badań klinicznych podstawy metodologii i statystyki
Sergiusz Nawrocki
Oceń swój 90% przedział ufności •
W jakim wieku był M. Luther King gdy zmarł
•
Długość Nilu
•
Ilość krajów OPEC
•
Ilość ksiąg Starego Testamentu
•
Średnica księżyca
•
Waga Boeinga 747
•
Rok ur. Mozarta
•
Długość ciąży słonia indyjskiego
•
Dystans z Londynu do Tokio
•
Najgłębszy punkt oceanu
Oceń swój 90% przedział ufności •
W jakim wieku był M. Luther King gdy zmarł
•
Długość Nilu
•
Ilość krajów OPEC
•
Ilość ksiąg Starego Testamentu.
•
Średnica księżyca.
3476 km
•
Waga Boeinga 747.
176 901 kg
•
Rok ur. Mozarta.
•
Długość ciąży słonia indyjskiego.
•
Dystans z Londynu do Tokio.
•
Najgłębszy punkt oceanu. 11 km
39
6738 km 13 39
1756 645 dni
9638 km
Russo, 1989
Gilovich, 1985
10 koszykarzy rzucających po 30 razy?
Trzy pary drzwi, za jednymi jest nagroda - samochód
Vos Savant, 1997
Test HIV •
W badanej populacji częstość zakażenia HIV wynosi 0,1%
•
Test wykrywa 99 przypadków zakażenia
•
W 1/100 badań wynik jest pozytywny pomimo braku zakażenia
•
Otrzymujemy dodatni wynik testu. Jakie jest P, że badana jest rzeczywiście zakażona a jakie że test jest fałszywie dodatni?
9% że test jest rzeczywiście pozytywny
Statystyka nie jest intuicyjna!
Badania fazy 1 Badania fazy 2 Badania fazy 3 Podstawy wnioskowania Text statystycznego Interpretacja analiz
Wielokrotne porównania •
10 000 000 mieszkańców Ontario, 223 przyczyny hospitalizacji, każda badana pod kątem związku ze znakiem zodiaku?
•
72 choroby związane ze znakiem zodiaku (p<0,05)
Austin, 2006
•
223x12=2676 rożnych porównań
•
0,05 x 2676=134 "istotnych związków" powinno się znaleźć by chance
Jeżeli prevalence = 10% to wynik w 92% prawdziwy
Badania fazy 1 - dawka i sposób dawkowania Badania fazy 2 - aktywność leku/ metody; decyzja o fazie 3 Badania fazy 3 - porównanie ze standardem
Badania fazy 1 podejście tradycyjne: kohorty po 3 chorych wzrost dawki z kohorty na kohortę redukcja dawki jeżeli: poważne działania niepożądane lub zgony toks. ustalenie MTD
Faza 2 celem jest ustalenie czy lek jest aktywny i bezpieczny tradycyjnie badanie jednoramienne, liczba chorych 40-80 Simon’s two-stage design Fleming’s single stage procedure
Faza 2 celem jest ustalenie czy lek jest aktywny i bezpieczny nowe podejście: badanie randomizowane
Faza 3 podstawowe dla EBM (evidence base medicine) 400 - 2000 chorych randomizowane punkty końcowe: OS, PFS ....
Statystyka: Podstawowe założenia: Obiektywna prawda istnieje.....lecz my jej nie znamy W świecie występuje naturalna zmienność (variability) Uzyskujemy dane w wyniku eksperymentu na wycinku świata (populacji) Zgadujemy jaka jest prawda analizując te dane Statystyk powinien umieć “policzyć” prawdopodobieństwo z jakim zgadujemy
Podstawa statystyki: sampling czyli próbkowanie
Eksperyment statystyczny
Wnioskowanie statystyczne: H0: A nie różni się od B HA: A różni się od B “non-inferiority” H0: A jest gorsze od B HA: A nie jest gorsze od B
H0: hipoteza zerowa - chcemy aby była fałszywa tj. odrzucona! HA: hipoteza alternatywna jeżeli H0 jest odrzucona to HA jest logicznie prawdziwa
jeżeli lek naprawdę nie działa
jeżeli lek naprawdę działa
P, że badanie pokaże brak aktywności
1-alfa
beta
P, że badanie pokaże aktywność leku
alfa
1-beta “power”
błąd alfa (błąd I rodzaju) popełniamy odrzucając hipotezę H0 jest to prawdopodobieństwo, że uzyskany wynik (np. że lek działa) został uzyskany przez przypadek podczas gdy w rzeczywistości lek nie działa alfa=p niskie p ma nas zabezpieczyć przed wprowadzeniem do praktyki nieskutecznego leku
błąd beta (II rodzaju) popełniamy odrzucając H0 jest to prawdopodobieństwo, że uzyskany wynik (np. że lek nie działa) został uzyskany przez przypadek podczas gdy w rzeczywistości lek działa wysoka moc testu (1-beta) ma nas zabezpieczyć przed wyrzuceniem do kosza dobrego leku
Aby zwiększyć moc (prawdopodobieństwo wykrycia różnicy jeżeli ona istnieje) próba (liczebność grupy - N) musi wzrosnąć!
Standardy agencji rejestrujących leki wymagają p<0,05 (alfa<2,5% - test jednostronny)
p: prawdopodobieństwo, że różnica została uzyskana przez przypadek (w rzeczywistości nie istnieje)
Prawda o statystyce i eksperymentach: Nigdy nie udowodnimy czegokolwiek w 100%
przyjęcie hipotezy H0 nie oznacza, że hipoteza ta jest prawdziwa
istotność statystyczna to nie istotność kliniczna
“sample size” - poziom istotności alfa: 2,5% (dwustronne p=0,05) - wymaga założenia co do skuteczności: np. nowa metoda redukuje ryzyko zgonu o 30% moc badania min. 80%
poprawka Bonferroniego liczba porównań
szansa uzyskania wyniku fałszywie dodatniego
1
5%
3
14%
6
26%
10
40%
zasada “Intention to treat” analiza wszystkich zrandomizowanych pacjentów niezależnie od faktycznie otrzymanego leczenia jest czymś innym niż: analiza: “per protocol”
Pojęcie mediany vs HR (Hazard Ratio)
HR = ryzyko zgonu w ramieniu badanym w porównaniu do ramienia kontrolnego HR<1: redukcja ryzyka zgonu
Przedział ufności
95% CI (Confidence Intervals): umożliwiają ocenę istotności statystycznej
Testy: Log rank: wymaga ryzka proporcjonalnego w czasie Wilcoxon-Gehan: przykłada większą wagę do zdarzeń wczesnych Cox’s Proportional Hazard Model: bierze pod uwagę nierównowagę czynników prognostycznych
Literatura
Przykłady: "http://www.http://linus.nci.nih.gov/cgi-bin/simonr/cgi_main"
założenia: Odsetek odpowiedzi P(0)=15% (na podstawie badań TAX 323 i TAX 324) Odsetek odpowiedzi P(1)=30%. Błąd α=0.1 Moc testu 90%. Sumowana wielkość próby wynosi 55 chorych. W pierwszej fazie - 23 chorych. Jeśli n CR wyniesie ≤ 3 badanie zostanie wstrzymane. Jeśli n CR wyniesie >3 badanie będzie kontynuowane Jeżeli w końcowej analizie n CR wyniesie ≤ 11 badanie będzie uznane za negatywne.
Ocena przeżycia chorych obserwacje nieucięte i ucięte
czas prowadzenia obserwacji
Analiza przeżycia chorych - krzywe przeżycia - metoda Kaplana-Meiera
Metoda Kaplana-Meiera Przeżycia: grupa 7 chorych: 1, 2+,3+,4, 5+,10, 12+ “+” oznacza, że pacjent żył co najmniej określony czas - obserwacje ucięte Interwał
n chorych na starcie interwału
n obserwcji uciętych w okresie interwału
n chorych na n chorych proporcja skumulowana końcu interwału zmarłych na przeżywających proporcja końcu interwału interwał przeżywających
0-1
7
0
7
1
6/7=0.86
0,86
1-4
6
2
4
1
3/4=0.75
0.86x0.75= 0.64
4-10
3
1
2
1
1/2=0.5
10-12
1
0
1
0
1/1
0.86x0.75x 0.5=0.64=0 .31 0,31
Metoda Kaplana-Meier’a Interwał
n chorych na starcie interwału
n chorych na n chorych proporcja skumulowana końcu interwału zmarłych na przeżywających proporcja końcu interwału interwał przeżywających
7
n obserwcji uciętych w okresie interwału 0
0-1
7
1
6/7=0.86
0,86
1-4
6
2
4
1
3/4=0.75
0.86x0.75=0.64
4-10
3
1
2
1
1/2=0.5
10-12
1
0
1
0
1/1
0.86x0.75x0.5= 0.64=0.31 0,31
NSCLC - terapia podtrzymująca: standard, opcja?
• 4-6 cykli chemioterapii - II linia leczenia:
docetaxel, pemetrexed, gefitinib, erlotinib
• 4-6 cykli chemioterapii - “maintanance therapy”
Maintenance therapy - podsumowanie autor
n
x vs. y
PFS
OS
Fidias
309
Immediate vs delayed docetaxel
5,7 vs 2,7 p<0,05
12,3 vs 9,7 p=0,08
Ciulenau
663
pemetrexed vs palcebo
4,3 vs 2,6 p<0,05
13,4 vs 10,6 p<0,05
Cappuzzo
889
erlotinib vs placebo
2,8 vs 2,5 p<0,05
12 vs 11 p<0,05
768
bev/erlotinib vs. bev./placebo
4,7 vs 3,7 p<0,05
15,9 vs 13,9 p=0,9
Miller
PFS vs OS • • • • •
subiektywny trudny do zmierzenia interval censoring więcej zdarzeń niezależny od terapii II..III rzutu
• • • • •
obiektywny łatwy do zmierzenia right censoring mniej zdarzeń zależny od terapii II..III rzutu
Apples to apples ?
czy można porównać: • • •
maintenance II line - 98% chorych III line 67% chorych
• • •
placebo placebo - 100% II linia - 51% chorych (tylko 18% pemeterxed)
W podobnym badaniu z docetaxelem “immediate vs deleyed” mediana wyniosła 12,5 m. w obu ramionach u chorych, którzy otrzymali lek
Docetaxel vs BSC 2nd line in NSCLC
JCO, May 2000
autor
n
x vs. y
PFS
OS
Shepherd
204
docetaxel vs BSC
10,6 vs 6,7 p<0,05
7,0 vs 4,6 p<0,05
kto odnosi zysk z leczenia podtrzymującego pemetrexedem?
• • • •
pemetrexed
•
33% chorych overtreated !
58% disease control rate 42% progression 58-33=25% chorych odnosi zysk
• •
placebo 33% disease control rate
Weryfikacja skuteczności leków - badania kliniczne III fazy - medycyna oparta na faktach HR (hazard ratio) względne ryzyko zgonu w porównaniu do grupy kontrolnej = 0.73 Mediana - czas przeżycia połowy badanej populacji chorych = 6.7 miesiąca pprawdopodobieństwo, że otrzymana różnica została uzyskana przez przypadek = poziom istotności statystycznej