Appunti di Statistica Matematica - Dipartimento di Matematica

69 downloads 3636 Views 650KB Size Report
Lo scopo di un'analisi statistica `e quello di ottenere informazioni sul parametro θ ; parlando gener- icamente, esse sono di due tipi fondamentali: (a) si vuole ...
Appunti di Statistica Matematica

Rita Giuliano e Maurizio Pratelli

1

1. Modelli statistici (1.1) Esempio di partenza. L’analisi di qualit`a. Si vuole analizzare la qualit`a dei pezzi prodotti da una ditta. C’`e una probabilit`a p (non nota) che il generico pezzo sia difettoso. Lo scopo `e quello di stimare p. Si considera allora un campione di n pezzi (con n noto) e poniamo X = numero di pezzi difettosi (fra gli n scelti). Sappiamo che X ∼ B(n, p), cio`e µ ¶ n k P (X = k) = p (1 − p)n−k , k = 0, 1, . . . , n. k Questa quantit`a dipende dal parametro incognito p (0 < p < 1). La situazione `e la seguente. Abbiamo (i) uno spazio campione Ω (cio`e l’insieme di tutti i possibili risultati) (nel nostro esempio abbiamo Ω = {1, 2, . . . , n}); (ii) una trib` u F (nell’esempio `e F = P(Ω)); ¡ ¢ (iii) una famiglia parametrizzata di leggi di probabilit`a su Ω P θ , θ ∈ Θ (nell’esempio si tratta delle leggi binomiali B(n, p). In questo caso il parametro `e p. In generale, cio`e quando non saremo in situazioni specifiche per le quali si usano tipicamente altre notazioni, il parametro sar`a indicato con θ). Lo scopo di un’analisi statistica `e quello di ottenere informazioni sul parametro θ; parlando genericamente, esse sono di due tipi fondamentali: (a) si vuole stimare il parametro a partire dai dati; (b) si vuole effettuare un test sul parametro. Per capire meglio, torniamo all’esempio di partenza. (a) Intuitivamente una buona stima sembra essere la quantit`a X/n (almeno per valori di n ragionevolmente grandi). (b) Supponiamo di dover effettuare un test per sapere se p ≤ 0.1 (ipotesi), e supponiamo che risulti X/n = 0.07. In questo caso l’ipotesi verr`a accettata con sufficiente tranquillit`a. Con altrettanta tranquillit`a l’ipotesi verrebbe respinta se risultasse ad esempio X/n = 0.35. Ma come comportarsi se risultasse X/n = 0.11? Vedremo in seguito la risposta. ¡ ¢ (1.2) Definizione. Ω, F, (P θ , θ ∈ Θ) si chiama modello statistico (parametrico). La speranza e la varianza fatte rispetto alla legge P θ verranno indicate rispettivamente con i simboli Eθ e V arθ . Per evitare problemi sulle questioni di trascurabilit`a (gli insiemi trascurabili possono essere diversi a seconda della probabilit`a P θ ) si d`a la seguente ¡ ¢ (1.2) Definizione. Il modello statistico Ω, F, (P θ , θ ∈ Θ) si dice dominato se esiste una misura µ σ-finita su (Ω, F) tale che, ∀θ ∈ Θ, risulti P θ ¿ µ. µ si chiama misura dominante. Se le P θ sono tutte equivalenti tra loro (in particolare sono tutte dominanti) il modello si dice regolare. 2

Vale il seguente (1.3) Teorema (di Radon-Nikodym). Siano ν e µ due misure positive e σ−finite su (Ω, F), tali che ν ¿ µ. Allora esiste una e una sola f ∈ L1 (µ) tale che Z ν(E) = f dµ, ∀E ∈ F. E

In questo caso, f si chiama versione della derivata di Radon-Nikodym di ν rispetto a µ. Essa si indica anche con il simbolo dν f= . dµ (1.4) Osservazione. Siano µ1 ,µ2 e µ3 tre misure tali che µ1 ¿ µ2 ; ` facile vedere che E (i) µ1 ¿ µ3 ; (ii) una versione della derivata di

dµ3 dµ1

µ2 ¿ µ3 ;

`e data da dµ3 dµ2 · . dµ2 dµ1

(1.5) Osservazione. Sia ν ¿ µ, e sia f=

dν . dµ

Allora ν ∼ µ se e solo se f > 0 q.o. e dµ 1 1 = = dν dν f dµ (1.6) Esempi. (a) Sia n un intero fissato. Su Ω = {0, 1, . . . , n} consideriamo le leggi binomiali B(n, θ), al variare di θ ∈ (0, 1) =: Θ. Si ha cio`e µ ¶ n k P θ (X = k) = θ (1 − θ)n−k , k = 0, 1, . . . , n. k Questo `e un modello regolare (P θ1 ∼ P θ2 ∀(θ1 , θ2 ) (perch´e tutte le P θ “caricano” i numeri {0, 1, . . . , n}). (b) Su Ω = N consideriamo le stesse leggi B(n, θ). Al variare di (n, θ) ∈ N × (0, 1) =: Θ questo `e un modello dominato ma non regolare. Una misura dominante `e una qualsiasi misura che “carica” tutti gli interi, ad esempio la misura µ che conta i punti. (c) Su (R, B(R)) le leggi uniformi su [a, b] (al variare di a e b) sono un modello dominato ma non regolare (per gli stessi motivi del punto 2): in questo caso si ha θ = (a, b) ∈ R2 =: Θ). 3

(d) Su (R, B(R)) le leggi normali N (m, σ 2 ) (m ∈ IR, σ > 0) hanno tutte densit`a rispetto a λ, misura di Lebesgue; la densit`a `e data dalla formula µ ¶ 1 1 (x − m)2 fm,σ (x) = √ exp − 2 σ2 2πσ Pertanto le leggi normali sono un modello dominato (da λ). Poich´e fm,σ `e strettamente positiva, ciascuna legge N (m, σ 2 ) `e equivalente a λ. Dunque questo `e un modello addirittura regolare. (e) Su (R, B(R)) le (εx )x∈R (εx = misura di Dirac in x) non sono un modello dominato (vedere l’Osservazione (1.8) (ii) ). Si ha la seguente ¡ ¢ (1.7)Proposizione. Sia Ω, F, (P θ , θ ∈ Θ) un modello statistico dominato. Allora esiste una probabilit`a dominante P0 della forma X X P0 = an P θn an ≥ 0, an = 1. n

n

Una tale P0 (cio`e del tipo combinazione lineare convessa di una successione (P θn )) `e detta dominante privilegiata. Dimostrazione (a) Ogni misura σ−finita µ `e equivalente ad una misura ν di probabilit`a. Infatti, se µ− `e σ−finita, esiste una Zv. a. strettamente positiva e µ− integrabile. Allora si ha Z 0 < Zdµ < ∞, e quindi si pu`o porre

Z Z˜ = R , Zdµ

˜ ν = Z.µ.

Dunque possiamo supporre µ(Ω) = 1. (b) Poniamo ora pθ =

dP θ , dµ

C = {C ∈ F : µ(C) > 0 e ∃ θ ∈ Θ, pθ > 0 su C}.

C non `e vuoto: infatti, fissato θ e posto Ωθ = {pθ > 0}, si ha Z Z P θ (Ωθ ) = pθ dµ = pθ dµ = 1, Ωθ



e dunque µ(Ωθ ) > 0, perch´e P θ ¿ µ. 4

(c) Sia ora D={unioni finite di elementi di C}, e poniamo S = sup µ(D). D∈D

Osserviamo che S ≤ 1. Sia ora (Dk ) una successione crescente di elementi di D, tale che sup µ(Dk ) = S. k

Poniamo Do =

S k

Dk . Si hanno i fatti seguenti:

(d) Do `e unione numerabile di elementi di C (in quanto unione numerabile di unioni finite di elementi di C): [ Do = Cn n

(e) Per definizione di C per ogni n esiste θn tale che pθn > 0 su Cn . Poniamo p0 =

X

2−n pθn ,

P0 = p0 .µ.

n

` facile vedere che p0 > 0 su Do (infatti, dal punto (d) segue che , ∀x ∈ Do ∃ Cn tale che x ∈ Cn , E e dunque pθn (x) > 0 per definizione di C). (f) ∀ θ, si ha pθ = 0 µ-q.o. su Doc . (Infatti, supponiamo per assurdo che ∃ θ, ∃ A ⊂ Doc con µ(A) > 0 e pθ > 0 su A. Allora A ∈ C per definizione di C. Poniamo E = A ∪ Dk , dove Dk `e uno degli insiemi usati per costruire Do . Di conseguenza E ∈ D. Poich´e A ∩ Dk = ∅ si ha µ(A) + µ(Dk ) = µ(E) ≤ sup µ(D) = S; D∈D

Passando ora al sup rispetto a k si ottiene µ(A) + S ≤ S, il che `e assurdo perch´e S `e un numero finito e µ(A) > 0). (g) Poich´e p0 > 0 su Do , si ha P0 ∼ µ su Do . Questi fatti implicano che ogni P θ `e assolutamente continua rispetto a P0 . Sia infatti E tale che P0 (E) = 0. Allora: (i) per il punto (f) si ha

Z P θ (E ∩ Doc ) =

pθ dµ = 0; E∩Doc

5

(ii)si ha P0 (E ∩ Do ) ≤ P0 (E) = 0 e quindi, per il punto (g), si ha anche µ(E ∩ Do ) = 0 Dunque `e anche

P θ (E ∩ Do ) = 0,

perch`e P θ `e assolutamente continua rispetto a µ. Si conclude che

P θ (E) = P θ (E ∩ Do ) + P θ (E ∩ Doc ) = 0 + 0 = 0,

cio`e P0 domina ogni P θ . (1.8) Osservazioni. (i) Se il modello `e regolare, ogni P θ `e del tipo della proposizione precedente (basta prendere θ1 = θ, a1 = 1). (ii) Su R, le (²x )x∈R non sono unP modello dominato. Infatti, se per assurdo lo fosse, esisterebbe una P0 dominante, del tipo P0 = n an ²xn ; tuttavia non `e possibile che P0 domini tutte le ²x : sia x 6∈ {x1 , x2 , x3 , . . .}. Allora x `e trascurabile per P0 , ma non per ²x . (iii) Se P0 =

P n

an P θn , allora, ∀A si ha P0 (A) =

X

an P θn (A),

n

e quindi, ∀g limitata,

Z gdP0 =

X

Z an

gdP θn .

n

¡ ¢ (1.9) Definizione. Sia Ω, F, (P θ , θ ∈ Θ) un modello statistico dominato da una misura µ. Si chiama verosimiglianza del modello una funzione L : Θ × Ω → R tale che, per ogni fissato θ, la funzione L(θ) = L(θ, ·) : ω 7→ L(θ, ω) sia una versione della densit`a di P θ rispetto a µ. (1.10) Osservazione. ω 7→ L(θ, ω) `e misurabile (come funzione di ω) e, ∀A ∈ F, si ha Z θ P (A) = L(θ, ω)µ(dω). A

2. La nozione di riassunto esaustivo ¡ ¢ (2.1) Definizione. Sia Ω, F, (P θ , θ ∈ Θ) un modello statistico. Si chiama statistica (definita sul modello statistico) ogni applicazione misurabile S di (Ω, F) in uno spazio misurabile (E, E), che non dipenda da θ. 6

(2.2) Osservazione. La differenza tra una statistica e una variabile aleatoria sta nel fatto che, mentre una v.a. `e definita su uno spazio misurabile (Ω, F) a cui `e associata una sola probabilit`a P , adesso sullo spazio di definizione della statistica c’`e una famiglia di probabilit`a ({P θ , θ ∈ Θ}). (2.3) Definizione. (a) Sia µ una misura di probabilit`a su R. Si chiama campione di taglia n e legge µ una famiglia X1 , X2 , . . . , Xn di v. a. reali indipendenti, tutte con legge µ. Una realizzazione si ottiene nel modo seguente: prendiamo Ω = Rn ; F = B(Rn ), P = µ ⊗ µ · · · ⊗ µ = µ⊗n . | {z } n volte

Poi poniamo Xi : Ω → R = proiezione i-esima, definita da Xi : (x1 , x2 , . . . , xn ) 7→ xi . Allora la legge di ogni Xi `e µ e le Xi sono tra loro indipendenti. (b) Data una famiglia (µθ , θ ∈ a su R, chiamiamo campione di taglia n e ¡ Θ) di leggi di probabilit` ¢ legge µθ il modello statistico Ω, F, (P θ , θ ∈ Θ) definito da Ω = IRn ,

F = B(IRn ),

P θ = µθ ⊗ µθ · · · ⊗ µθ = (µθ )⊗n . | {z } n volte

(2.4) Osservazione. Sia (X1 , . . . , Xn ) un campione¡ di taglia n e legge µθ , θ ∈ Θ; ¢ secondo quanto detto in (2.3) (b), si tratta del modello statistico Rn , B(Rn ), ((µθ )⊗n , θ ∈ Θ) . Se µθ ¿ µ, e dµθ dµ

= f θ (x), allora P θ = µθ ⊗ · · · ⊗ µθ ¿ µ ⊗ · · · ⊗ µ ed inoltre | {z } | {z } n volte

n volte

n Y dP θ L(θ; ω) = ¡ ⊗n ¢ (ω) = f θ (ωi ) d µ i=1

(prodotto tensoriale di n leggi aventi densit`a f θ ).

Si lascia la verifica per esercizio. (2.4) Esempio. Un’altra situazione interessante `e la seguente. Supponiamo di avere una catena di Markov sullo spazio misurabile (E, E), di legge iniziale ρ assegnata e operatore di transizione Z Π(θ, x; A) =

`(θ, x, y)Π(x, dy),

x ∈ E, A ∈ E,

A

dove Π `e un operatore di transizione fissato di E in E e {`(θ, ·, ·)}θ∈Θ `e una famiglia di verosimiglianze. 7

Una notazione. Dato un operatore di transizione (x, A) 7→ Π(x; A) di E in E, poniamo Π⊗1 = Π e per induzione definiamo Z Z ⊗(n+1) Π (x, B) = Π(x, dy) Π⊗n (y, dz)1B (y, z), x ∈ E, B ∈ E ⊗(n+1) ⊗n ⊗n ⊗n (notare che misura `e un operatore di transizione di ¡ la ¢ Π (y, ·) `e definita su E ). Allora Π n ⊗n (E, E) in E , E , e la misura di probabilit`a (definita come abbiamo detto su E ⊗n )

B 7→ Π⊗n (x, B) rappresenta la legge del vettore (X1 , . . . , Xn ) condizionata a X0 = x; in altre parole si ha ¡ ¢ P (X1 , . . . , Xn ) ∈ B|X0 = x = Π⊗n (x, B). Pertanto, se la legge di X0 `e ρ, la legge congiunta del vettore (X0 , X1 , . . . , Xn ) `e data da Z ¡ ¢ C 7→ ρ(dx)Π⊗n (x, dy)1C (x, y) := ρ ⊗ Π⊗n (C), C ∈ E ⊗(n+1) .

Torniamo alla situazione iniziale. Se si osservano i primi n + 1 passi X0 , X1 , . . . , Xn , possiamo prendere come modello statistico ¡

¡ ¢ ¢ E n+1 , E ⊗n+1 , { ρ ⊗ (Πθ )⊗n , θ ∈ Θ} ,

Si vede facilmente che si tratta di un modello dominato; una misura dominante `e ρ ⊗ Π⊗n e una versione della verosimiglianza `e (x = (x0 , . . . , xn )) L(θ, x) = `(θ, x0 , x) · `(θ, x1 , x2 ) · . . . · `(θ, xn−1 , xn ). Infatti (caso n = 2 per semplicit`a), per C ∈ E ⊗3 si ha (y = (y1 , y2 )) Z ¡ ¢ θ ⊗2 ρ ⊗ (Π ) (C) = ρ(dx)(Πθ )⊗2 (x, dy)1C (x, y) Z Z Z = ρ(dx) Πθ (x, dy1 ) Πθ (y1 , dy2 )1C (x, y1 , y2 ) Z Z Z = ρ(dx) `(θ, x, y1 )Π(x, dy1 ) `(θ, y1 , y2 )Π(y1 , dy2 )1C (x, y1 , y2 ).

Diamo ora una motivazione intuitiva per la nozione di riassunto esaustivo, che definiremo tra poco, utilizzando ancora l’esempio del controllo di qualit`a: si estraggono in modo indipendente l’uno dall’altro n pezzi prodotti, e poniamo, per i = 1, . . . , n, n Xi =

1 se il pezzo i-esimo `e difettoso 0 se no 8

Sia p (non nota) la probabilit`a che il generico pezzo sia difettoso. (X1 , . . . , Xn ) `e il nostro campione, e ha legge B(1, p). Poniamo poi X1 + · · · + Xn = numero di pezzi difettosi. Se vogliamo stimare p, `e chiaro che basta sapere qual `e il valore di X1 + · · · + Xn , non `e necessario conoscere il vettore (X1 , . . . , Xn ). In altri termini, il vettore T (X1 , . . . , Xn ) = X1 + · · · + Xn contiene tutta l’informazione necessaria; conoscere separatamente i valori di X1 , . . . , Xn non ci direbbe di pi` u. Cerchiamo di arrivare ad una buona definizione matematica. Sia assegnato il modello statistico (Ω, F, (P θ , θ ∈ Θ)). Osservare T (X1 , . . . , Xn ) equivale ad osservare la σ-algebra generata da T , B = σ(T ). Generalmente risulta B ⊂ F: il nostro scopo `e (o meglio sarebbe!) individuare P θ su tutta la trib` u F conoscendo i valori che essa assume su B, (o, in modo equivalente, per esprimersi in termini di T , conoscendo P θ (T ∈ I), al variare di I sottoinsieme misurabile di R, cio`e conoscendo la legge di T secondo P θ ). Ora, in generale, assegnata una sottotrib` u B di F, ogni probabilit`a P θ `e individuata dalla sua traccia su B (cio`e dai valori che essa assume sugli elementi B ∈ B: P θ (B)) e dalle speranze, condizionate a B, delle v. a. limitate: infatti, se A ∈ F , risulta Z Z (2.5) P θ (A) = Eθ [1A ] = Eθ [Eθ [1A |B]] = Eθ [1A |B]dP θ = Eθ [1A |B]dP θ |B . Dunque, se riusciamo a trovare una versione della speranza condizionale Eθ [1A |B] che non dipen de da θ, per individuare P θ `e sufficiente conoscere P θ |B . (2.6) Esempio. Di nuovo il controllo di qualit`a. Prendiamo n = 2 per semplicit`a. Vogliamo mostrare che la statistica T = X1 + X2 `e esaustiva. In questo caso abbiamo F = B(R2 ). Inoltre µθ = B(1, θ). Faremo i conti solo per il caso particolare in cui A = [1/2, 3/2] × [−1/2, 1/2]. Abbiamo prima di tutto P θ (A) = P θ (X1 = 1, X2 = 0). Calcoliamo ora Eθ [1A |B]. B `e la trib` u generata da X1 + X2 . In altri termini si ha B = {B : B = {X1 + X2 ∈ I}, I misurabile ⊆ R}. Si vede facilmente che B `e generata dai tre eventi B0 = {X1 + X2 = 0}, B1 = {X1 + X2 = 1} e B2 = {X1 + X2 = 2}. Poniamo (ω = (ω1 , ω2 ))

n

1/2 per ω ∈ B1 ; 0 altrimenti. θ Vogliamo far vedere che Y = E [1A |B]. Y `e ovviamente B- misurabile; essa sar`a la speranza condizionale cercata se, ∀B ∈ B, risulta Z Z θ 1A dP = Y dP θ . Y (ω) =

B

B

9

Baster`a verificare la relazione precedente per i tre generatori B0 , B1 e B2 . (i) Per B0 . Si ha Z 1A dP θ = P θ (A ∩ B0 ) B0

Z Y dP θ ;

= P (X1 = 1, X2 = 0, X1 + X2 = 0) = 0 = B0

(ii) Per B2 la verifica `e identica. (iii) Per B1 . In questo caso risulta Z 1A dP θ = P θ (A ∩ B1 ) B1

= P (X1 = 1, X2 = 0, X1 + X2 = 1) = P (X1 = 1, X2 = 0) = θ(1 − θ) Z 1 1 = 2θ(1 − θ) = P θ (B1 ) = Y dP θ . 2 2 B1 Concludiamo questo esempio con la verifica che la speranza condizionale, cio`e la v. a. Y , verifica la relazione (2.3). Si trova infatti Z Y dP θ |B =

1 θ P (B1 ) = θ(1 − θ) = P θ (A). 2

Siamo pronti per dare la definizione formale di riassunto esaustivo: ` assegnato il modello statistico (Ω, F, (P θ , θ ∈ Θ)), dominato da una misura (2.7) Definizione. E µ. Sia T : Ω → (E, E) una v. a. Si dice che T `e un riassunto esaustivo (o una statistica esaustiva o anche sufficiente, sufficient statistic in inglese) se, per ogni v. a. Y definita su Ω, a valori reali e limitata, esiste, definita µ q.o., una versione della speranza condizionale Eθ [Y |T ] che non dipenda da θ. Se T `e cosiffatta, scriveremo E¦ [Y |T ] invece che Eθ [Y |T ]. (2.8) Osservazione. Vediamo un caso particolare importante. Sia (Ω, F, (P θ , θ ∈ Θ)), del tipo Ω = Rn ; Xi = i-esima proiezione, F= trib` u generata da X = (X1 , . . . , Xn ), P θ = (µθ )⊗n . In altre parole X `e un campione di taglia n e ciascuna Xi ha legge µθ . Per il criterio di misurabilit`a di Doob ogni v. a. Y che sia F-misurabile `e del tipo Y = φ(X1 , . . . , Xn ). Dunque, dire che T `e esaustiva equivale a dire che, qualunque sia φ, la speranza condizionale Eθ [φ(X1 , . . . , Xn )|T ] non dipende da θ, o, ci`o che `e lo stesso, che la legge condizionale di (X1 , . . . , Xn ), data T non dipende da θ. Questa seconda definizione `e quella preferita nei libri di tipo applicativo. (2.9) Esempio. (Calcolo di una statistica sufficiente nel caso particolare dell’Oss. (2.8)). Sia (X1 , . . . , Xn ) un campione di legge Πθ . Mostrare che la statistica T = T (X1 , . . . , Xn ) = X1 + · · · + Xn `e esaustiva. 10

Soluzione. Calcolare la legge condizionale del vettore (X1 , . . . , Xn ), data T , significa calcolare P (X1 = x1 , . . . , Xn = xn |T = t) al variare di (x1 , . . . , xn ) ∈ Nn e t ∈ N. Si ha facilmente P (X1 = x1 , . . . , Xn = xn , T = t) P (X1 = x1 , . . . , Xn = xn |T = t) = = P (T = t)  0 se t 6= x1 + · · · xn   P (X1 = x1 , . . . , Xn = xn )   se t = x1 + · · · xn ; P (T = t) continuiamo il calcolo nel secondo caso: ricordando che le Xi sono tra loro indipendenti e di legge Πθ , e di conseguenza T ∼ Πnθ , si ha ¡ θx1 −θ ¢ ¡ θxn −θ ¢ θ x1 +···+xn −nθ e . . . xn ! e e P (X1 = x1 , . . . , Xn = xn ) t! n! = x1 ! nt θt = x1n!···x = , t θt −nθ −nθ P (T = t) x ! · · · xn !nt e e 1 t! t! dato che t = x1 + · · · xn . Come si vede, il risultato non dipende da θ, e quindi si conclude che T `e un riassunto esaustivo. Comunque sia, la definizione non `e comoda per decidere se una statistica `e esaustiva oppure no. Serve un criterio operativo, che `e fornito dal teorema seguente. (2.10) Teorema (di fattorizzazione, o di Neymann–Fisher).Sia (Ω, F, (P θ , θ ∈ Θ)) un modello statistico dominato. Sia µ una misura dominante, T : Ω → E una v.a. Allora sono fatti equivalenti: (a) T `e un riassunto esaustivo; (b) esistono una funzione h non dipendente da θ, e, per ogni θ, una funzione misurabile g θ tali che . dP θ L(θ, ω) = (ω) = g θ (T (ω)) · h(ω), dµ

µ − q.o.;

(c) se P `e una dominante privilegiata, allora . dP θ L(θ, ω) = (ω) = g θ (T (ω)) dP (cio`e si pu`o prendere h = 1, ovvero

dP θ dP

P − q.o.

coincide P –q.o. con una v. a. della forma g θ ◦ T.)

Dimostrazione. (a) ⇒(c). Osserviamo prima di tutto che, per ogni v.a. limitata X, se E ¦ [X|T ] (non dipendente da θ!) `e una versione della speranza condizionale di X rispetto a T relativamente ad ogni P θ , allora E ¦ [X|T ] `e una versione della speranza condizionale di X rispetto a T anche relativamente a P (che `e una dominante privilegiata). Infatti, per ogni B ∈ σ(T ) (σ(T ) = trib` u generata da T ), si ha Z Z ´ ³X X Z X Z an E ¦ [X|T ]dP θn = E ¦ [X|T ]d an P θn an XdP θn = X dP = B

n

Z

B

n

B

E ¦ [X|T ]dP,

= B

11

B

n

per l’Osservazione (1.8)(iii). θ . θ Sia ora dP della verosimiglianza (cio`e della densit`a di P θ rispetto a P ), e dP = L una versione . P θ θ mostriamo che la v. a. g (T ) = E [L |T ] `e anch’essa una versione della verosimiglianza. Infatti, per ogni v. a. X limitata, si ha £ ¤ £ ¤ £ ¤ E θ [X] = E θ E ¦ [X|T ] = E P Lθ E ¦ [X|T ] = E P E P [Lθ E ¦ [X|T ]|T ] £ £ ¤ ¤ = E P E ¦ [X|T ]E P [Lθ |T ] = E P g θ (T )E ¦ [X|T ] |{z} T −misur.di g θ (T )

£ ¤ £ ¤ = E P E ¦ [g θ (T )X|T ] |{z} = E P E P [g θ (T )X|T ] = E P [g θ (T )X]. oss.prec.

In altri termini, per ogni v.a. limitata X si ha Z

Z XdP θ =

Xg θ (T )dP,

il che significa proprio che g θ (T ) `e una versione di

dP θ dP ,

e il punto (c) `e dimostrato.

(c) ⇒ (b). Dato che µ domina tutte le P θ , e di conseguenza anche P , per l’ipotesi si ha dP θ dP θ dP dP (ω) = (ω) · (ω) = g θ (T (ω)) · (ω) = g θ (T (ω)) · h(ω), dµ dP dµ dµ dove si `e posto h =

dP dµ .

(b) ⇒ (a). Premettiamo un (2.11) Lemma. Su (Ω, F) siano Q1 e Q2 due probabilit`a, e supponiamo che Q1 ¿ Q2 . Sia B una dQ1 sottotrib` u di F. Posto Z = dQ , per ogni v.a. X positiva si ha 2 E Q1 [X|B] =

E Q2 [XZ|B] . E Q2 [Z|B]

(2.12) Osservazione. La formula del lemma precedente generalizza la classica formula che definisce la probabilit`a condizionale rispetto ad un evento, nel modo che segue: assegnato lo spazio di probabilit`a (Ω, F, P ), sia B un evento, con P (B) > 0. Prendiamo (nell’enunciato del lemma) ` evidente che Q1 ¿ Q2 ed inoltre si ha Z = dQ1 = 1B : infatti, Q1 (·) = P (·|B), Q(·) = P (·). E dQ2 P (B) per ogni A ∈ F si ha P (A ∩ B) = Q1 (A) = P (A|B) = P (B)

R

1A∩B dP = P (B) 12

Z

1B 1A · dP = P (B)

Z ZdQ2 . A

Sia B = {∅, Ω} la σ−algebra banale; la speranza condizionale rispetto a B non `e altro che la speranza, e il lemma dice allora che, per ogni v.a. X positiva si ha E Q1 [X] =

E Q2 [XZ] ; E Q2 [Z]

traducendo significa 1 E[XZ] = · E[X|B] = E[Z] P (B)

Z XdP, B

dato che E[Z] = 1. In particolare, se X = 1A , con A ∈ F , si trova P (A|B) =

P (A ∩ B) . P (B)

Dimostrazione(del Lemma). Prima di tutto osserviamo che l’evento A = {E Q2 [Z|B] = 0} `e trascurabile rispetto a Q1 (e dunque il secondo membro della relazione precedente `e ben definito). Infatti A `e B− misurabile e quindi, per definizione di speranza condizionale E Q2 [Z|B], Z

Z

Q1 (A) =

dQ1 = A

A

dQ1 dQ = dQ2

Z

Z E Q2 [Z|B] dQ2 = 0.

Z dQ2 = A

A

Q2

Poniamo per semplicit`a U = EE Q2[XZ|B] . U `e chiaramente B–misurabile. Per terminare la di[Z|B] mostrazione basta allora verificare che, per ogni B ∈ B si ha Z

Z U dQ1 = B

X dQ1 . B

Infatti Z

Z

Z Z E Q2 [XZ|B] E Q2 [XZ|B] dP E Q2 [XZ|B] U dQ1 = dQ = 1 dQ = 1 Z dQ2 1 B 2 B Q2 [Z|B] E Q2 [Z|B] dQ2 E Q2 [Z|B] B B E · ¸ · ¸ h E Q2 [XZ|B] ¯ i E Q2 [XZ|B] ¯ = E Q2 1B Q2 Z = E Q2 E Q2 1B Q2 Z ¯B E [Z|B] E [Z|B] · ¸ Q2 £ ¤ £ ¤ E [XZ|B] E Q2 [Z|B] = E Q2 1B E Q2 [XZ|B] = E Q2 E Q2 [1B XZ|B] = E Q2 1B Q2 E [Z|B] Z Z Z dQ1 Q2 = E [1B XZ] = XZ dQ2 = X dQ2 = X dQ1 . dQ2 B B B

Passiamo a dimostrare che (b) ⇒ (a) (nel Teorema di fattorizzazione). Prima di tutto vediamo che non `e restrittivo supporre che µ sia una misura di probabilit`a. Sia infatti W una v. a. con 13

R W > 0 ovunque e tale che W dµ = 1 (µ misura dominante). Quindi la misura Q = W.µ `e una probabilit`a. Inoltre P θ ¿ Q, in quanto P θ ¿ µ ∼ Q; infine, per l’ipotesi, dP θ dP θ dµ dP θ 1 h(ω) = · = · = g θ (T (ω)) · = g θ (T (ω)) · k(ω). dQ dµ dQ dµ W W (ω) Dunque l’ipotesi (b) vale anche per Q. Poich´e Q `e una probabilit`a, possiamo applicare il lemma precedente alla coppia di probabilit`a Q1 = P θ e Q2 = Q e si trova E θ [X|T ] =

g θ (T ) · E Q [Xk|T ] E Q [Xk|T ] E Q [Xg θ (T ) · k|B] = = , E Q [g θ (T ) · k|T ] g θ (T ) · E Q [k|T ] E Q [k|T ]

e quest’ultima variabile aleatoria non dipende da θ, e quindi T `e un riassunto esaustivo. (2.13) Osservazione. Conseguenza del teorema di fattorizzazione `e che, nel caso di un modello dominato, se T `e esaustiva e S = φ(T ), con φ invertibile, allora anche S `e esaustiva. Questa propriet`a non vale se il modello non `e dominato. (2.14) Alcuni esempi di statistiche esaustive. (a) Controllo di qualit` a. Verifichiamo il numero di pezzi difettosi fra n pezzi dati. Poniamo {0, 1}n , F = P(Ω), e, per ogni i = 1, 2, . . . , n n Xi =

1 se l’i–esimo pezzo `e difettoso 0 se no.

In altre parole, se ω ∈ Ω, (ω = (ω1 , . . . , ωn ), con ωi ∈ {0, 1}), si pone Xi (ω) = ωi , cio`e Xi : Ω → {0, 1} non `e altro che l’i− esima proiezione. Poniamo poi P θ (ω) = θω1 +···+ωn (1 − θ)n−(ω1 +···+ωn ) m(ω),

(prodotto tensoriale di n leggi B(1, θ))

dove m `e la misura che assegna massa 1 ad ogni punto di Ω (dunque m `e una misura dominante). Allora, se T (ω) = ω1 + · · · + ωn = X1 (ω) + · · · + Xn (ω), si ha dP θ . (ω) = θT (ω) (1 − θ)n−T (ω) = g θ (T (ω)), dm e quindi T `e un riassunto esaustivo (condizione (b) del Teorema di Neymann–Fisher).

(b) Sia (X1 , . . . , Xn ) un campione di taglia n avente legge di Poisson di parametro θ > 0 (Πθ ), cio`e la legge data dalla formula θk −θ e m(k), k ∈ N, µθ (k) = k! 14

dove m `e la misura che “conta”i punti di N. Secondo la definizione di campione, il modello statistico `e (Ω, F, (P θ , θ ∈ Θ)), con Ω = Rn ,

F = B(Rn ),

P θ = (µθ )⊗n ,

Xi = i−esima proiezione, T = X1 + · · · Xn . La misura dominante in questo modello `e m⊗n , cio`e la misura che “conta”i punti di Nn . Allora, indicato con (k1 , . . . , kn ) (ki ∈ N) il generico elemento ω di Ω, per l’osservazione (2.2) si ha n k1 +···kn ki T (ω) Y dP θ −nθ θ −θ θ −nθ θ ¡ ¢ Qn Qn L(θ; k1 , . . . , kn ) = (k , . . . , k ) = = e e = e 1 n ki ! d m⊗n i=1 ki ! i=1 ki ! i=1

= g θ (T (ω)) · h(ω), dove g θ (k) = e−nθ θk ,

h(ω) = h(k1 , . . . , kn ) = Qn

1

i=1

ki !

.

Dunque si conclude che T = X1 + · · · Xn `e un riassunto esaustivo. (c) Sia µθ la legge, concentrata su (0, 1), assolutamente continua rispetto alla misura di Lebesgue, con densit`a f θ (x) = (θ + 1)xθ 1(0,1) (x), θ > −1. Sia (X1 , . . . , Xn ) un campione di taglia n e legge µθ (costruito con il solito metodo). Una misura dominante `e la misura di Lebesgue n−dimensionale (su (0, 1)n ). Indichiamo con (x1 , . . . , xn ) il generico elemento ω ∈ Ω = (0, 1)n . Ancora per l’Osservazione (2.2), la verosimiglianza ha la forma L(θ; x1 , . . . , xn ) = (θ + 1)n

n ³Y

xi

´θ

= g θ (T (ω)),

i=1 θ n θ dove Qn g (x) = (θ+1) x e T (ω) = T (x1 , . . . , xn ) = e un riassunto esaustivo. i=1 Xi (ω) `

Qn i=1

xi . In altri termini T (X1 (ω), . . . , Xn (ω)) =

(d) Campione di taglia n e legge N (µ, σ 2 ), dove µ ∈ R e σ 2 > 0 sono sconosciuti. Dunque in questo caso il parametro θ `e vettoriale: θ = (µ, σ 2 ), e varia nell’insieme Θ = R × R+ . La legge N (µ, σ 2 ) `e assolutamente continua rispetto alla misura di Lebesgue su R. La misura dominante `e la misura di Lebesgue n−dimensionale. La verosimiglianza `e ³ (x − µ)2 ´ i exp − 2σ 2 (2π)n/2 σ n i=1 P n ´ ³ (xi − µ)2 − n log σ exp − i=1 2 2σ n n ³ ´, X X ¡ ¢ 1 exp − 2 x2i + nµ2 − 2µ xi − n log σ 2σ i=1 i=1

L(µ, σ 2 ; x1 , . . . , xn ) = =

1 (2π)n/2

=

1 (2π)n/2

= gθ

n ³X i=1

xi ,

n X

x2i

n Y

1

´

i=1

15

dove g θ (x, y) =

1 (2π)n/2

³ exp −

1 2σ 2

´ ¡ ¢ y + nµ2 − 2µx − n log σ . Si conclude che il vettore aleatorio n ³X i=1

Xi ,

n X

Xi2

´

i=1

`e un Pnriassunto esaustivo (bidimensionale questa volta). Si dice anche che le due statistiche e i=1 Xi2 sono congiuntamente sufficienti.

Pn i=1

Xi

(e) Sia (X1 , . . . , Xn ) un campione di taglia n di legge uniforme sull’intervallo (θ1 , θ2 ), con θ2 > θ1 . In questo caso Ω = Rn , F = B(Rn ), e il parametro θ `e bidimensionale, θ = (θ1 , θ2 ), con Θ ∈ R2 ∩ {y > x}. µθ `e la legge su R avente densit`a (rispetto alla misura di Lebesgue) f θ (x) =

1 1(θ ,θ ) (x). θ2 − θ1 1 2

La misura dominante `e la misura di Lebesgue su Rn . La verosimiglianza ha la forma L(θ; x1 , . . . , xn ) =

n Y

n Y 1 1 1(θ1 ,θ2 ) (xi ) = 1(θ ,θ ) (xi ). θ − θ1 (θ2 − θ1 )n i=1 1 2 i=1 2

D’altra parte si vede facilmente che ½   1 se u = min(x1 , . . . , xn ) > θ1 v = max(x1 , . . . , xn ) < θ2 1(θ1 ,θ2 ) (xi ) = 1 se xi ∈ (θ1 , θ2 )∀i = 1, . . . , n =  0 altrimenti i=1 0 altrimenti = 1(θ1 ,θ2 )×(θ1 ,θ2 ) (u, v) = g θ (u, v), n Y

n

dove evidentemente si pone

g θ (x, y) = 1(θ1 ,θ2 )×(θ1 ,θ2 ) (y, z).

Tutto questo significa che le statistiche ½ U = min(X1 , . . . , Xn ) V = max(X1 , . . . , Xn ) sono congiuntamente sufficienti (ved. esempio precedente). 3. Teoria della stima. La nozione di stimatore. Sia (Ω, F, (P θ , θ ∈ Θ)) un modello statistico. Supponiamo dapprima che Θ ⊆ R. Stimare il parametro θ significa assegnare una funzione U : Ω → R, che supporremo misurabile (dunque U `e una v.a. (il risultato del nostro esperimento `e un ω ∈ Ω, e in base al risultato assegniamo un numero, che indichiamo con U (ω) perch´e dipende dunque da ω). Pi` u in generale, senza restringerci cio`e al caso di Θ ⊆ R, saremo portati ad assegnare una funzione g : Θ → R, e a stimare g(θ) (ad esempio, in un campione di legge gaussiana nel quale il parametro θ `e la coppia (m, σ 2 ), possiamo essere interessati a stimare solo la media m o la varianza σ 2 ). 16

(3.1) Definizione. Assegnato (Ω, F, (P θ , θ ∈ Θ)) un modello statistico ed una funzione g : Θ → D (D aperto di R), si chiama stimatore (o stima) di g(θ) una v. a. U : Ω → D, che non dipenda da θ. Intuitivamente uno stimatore `e buono quando si avvicina (in qualche senso da definire) al “vero” valore del parametro θ (della sua funzione g(θ) nel caso generale). Pi` u precisamente, `e chiaro che la sostituzione del valore vero con il suo stimatore U comporta un “costo” (o perdita) , ed uno stimatore sar`a tanto migliore quanto pi` u piccolo `e questo costo. Dunque si tratta di chiarire cosa intendiamo per costo. In generale, il “costo” conseguenza della sostituzione di g(θ) con un numero reale a `e una funzione non negativa (θ, a) 7→ C(θ, a). Poich´e noi sostituiamo g(θ) con U (ω), per ogni θ otteniamo la v.a. ω 7→ C(θ, U (ω)). (3.2) Definizione. Si chiama “rischio” dello stimatore U il costo medio, o, pi` u precisamente, la funzione definita su Θ da Z θ θ 7→ RU (θ) := E [C(θ, U )] = C(θ, U )dP θ . Generalmente come funzione “costo” si prende (θ, a) 7→ |g(θ) − a|2 , e si parla in questo caso di costo quadratico. In corrispondenza il rischio RU (θ) = E θ [|g(θ) − U |2 ] si chiama rischio quadratico. Tuttavia altre scelte sono possibili per la funzione costo, e di conseguenza per il rischio. Avvertenza. D’ora in avanti, salvo diverso avviso, utilizzeremo sempre la funzione “costo quadratico”, e di conseguenza, parlando di rischio, intenderemo il rischio quadratico. (3.3) Definizione. (a) Uno stimatore U si dice preferibile ad un altro stimatore V se, per ogni θ ∈ Θ, si ha RU (θ) ≤ RV (θ). (b) U si dice strettamente preferibile a V se `e preferibile ed esiste almeno un θ0 ∈ Θ, tale che RU (θ) < RV (θ) (con la diseguaglianza stretta). (c) Sia D una famiglia di stimatori, e sia U ∈ D. U si dice ammissibile (relativamente a D) se in D non esistono stimatori strettamente preferibili a U . (d) U ∈ D si dice ottimale (relativamente a D) se `e preferibile ad ogni altro stimatore della famiglia D. (3.4) Osservazione. La relazione di preferibilit`a `e un preordinamento nella classe degli stimatori: due stimatori possono essere non confrontabili, cio`e pu`o accadere che per alcuni valori di θ si abbia RU (θ) ≤ RV (θ) e per altri si abbia invece RU (θ) ≥ RV (θ)). (3.5) Esempio Nell’esempio del controllo di qualit`a , consideriamo uno stimatore del parametro θ della forma U = h(X1 + · · · + Xn ), dove h = x+a n+b , e a e b sono due costanti non negative. 17

Calcoliamo RU (θ). Posto Sn = X1 + · · · + Xn , ricordare che E θ [Sn ] = nθ e Varθ Sn = nθ(1 − θ). Si ha allora £ ¤ RU (θ) = E θ (h(Sn ) − θ)2 =

£ ¤ 1 · E θ {(Sn − nθ) + (a − bθ)}2 2 (n + b) ³ £ ¤ £ ¤´ 1 θ θ 2 2 θ θ · E (S − E + (a − bθ) S − E = [S ]) + 2(a − bθ) E [S ] n n n n (n + b)2 {z } | =0

³ ´ (b2 − n)θ2 + (n − 2ab)θ + a2 1 2 = · Var S + (a − bθ) = . θ n (n + b)2 (n + b)2 A seconda dei valori che si danno ai parametri a e b, si hanno diversi andamenti della funzione di rischio. In particolare si vede che√ due di questi stimatori possono essere non confrontabili √ tra loro. Per esempio, ponendo a = 2n e b = n, si ottiene lo stimatore U1 di rischio costante 1 RU1 (θ) = 4(√n+1) 2 (si tratta dello stimatore bayesiano (v.)). Invece per a = b = 0 (che corrisponde al caso in cui si prende come stimatore U2 la media campionaria, di cui parleremo tra poco), si ottiene la funzione di rischio RU2 (θ) = θ(1−θ) ; si vede facilmente che RU2 ( 12 ) ≥ RU1 ( 21 ), mentre n RU2 (θ) ≤ RU1 (θ) per θ abbastanza vicino a 0 oppure a 1. (3.6) Definizione. (a) Uno stimatore U di g(θ) si dice corretto (o non distorto, unbiased in inglese) se `e integrabile (cio`e `e integrabile per ogni θ ∈ Θ) ed inoltre E θ [U ] = g(θ),

∀ θ ∈ Θ.

(3.7) Osservazione. Se U `e corretto, allora RU (θ) = V arθ (U ). (3.8) Osservazione. Tutte le definizioni appena date restano valide nel caso multidimensionale, cio`e se si considera (i) una funzione g : Θ → D, con D aperto di Rk (ii) una famiglia di stimatori a valori in Rk (iii) il costo quadratico definito da C(θ, a) = ||g(θ) − a||2 . (3.9) EsercizioR . Si consideri una famiglia di leggi di probabilit`a su R (µθ , θ ∈ Θ) tale che, per ogni θ, si abbia x2 dµθ (x) < +∞. Sia (X1 , . . . , Xn ) un campione di taglia n e legge µθ . Mostrare che R Pn (a) tra tutti gli stimatori corretti della media m(θ) = xdµθ (x) della forma i=1 ai Xi , la media empirica (o media campionaria) X1 + · · · + Xn X= n `e ottimale; (b) la varianza empirica (o varianza campionaria) Pn 2

S =

− X)2 n−1

i=1 (Xi

R `e uno stimatore corretto della varianza σ 2 = (x − m)2 dµθ (x). 18

Soluzione di (b) Cominciamo calcolando la media del numeratore della frazione che definisce S 2 ; sommando e sottraendo µ all’interno della parentesi e svolgendo il quadrato si ha E

·X n

¸ ·X ¸ n ¢2 ¡ (Xi − X)2 = E (Xi − µ) − (X − µ)

i=1

i=1

· ¸ n n n X X £ ¤ X ¤ £ = E (Xi − µ)2 + (Xi − µ) E (X − µ)2 − 2E (X − µ) i=1

i=1

i=1

£ ¤ Osserviamo ora che E (Xi − µ)2 = VarXi = σ 2 ; inoltre ricordando che E[X] = µ, n ³ Pn X ´ £ ¤ σ2 1 X i=1 i E (X − µ)2 = VarX = Var = 2 VarXi = n n i=1 n

(qui `e stata usata l’indipendenza delle Xi ); infine · ¸ · n n ³X ´¸ X E (X − µ) (Xi − µ) = E (X − µ) Xi − nµ i=1

i=1

³ Pn X ´¸ ¤ £ i=1 i = nE (X − µ) − µ = nE (X − µ)2 = nVarX = σ 2 . n ·

Usando le relazioni precedenti si ottiene: n £X ¤ σ2 E (Xi − X)2 = nσ 2 + n − 2σ 2 = (n − 1)σ 2 . n i=1

4. Stimatori ed esaustivit` a In tutto il paragrafo `e assegnato un modello statistico dominato (Ω, F, (P θ , θ ∈ Θ)) ed una funzione g : Θ → R. Useremo le notazioni seguenti: Dc = classe degli stimatori corretti; D2 = classe degli stimatori di quadrato integrabile rispetto ad ogni P θ ∈ Θ; D2c = Dc ∩ D2 . (4.1) Teorema (di Blackwell–Rao). Sia T un riassunto esaustivo a valori in (E, E), e sia U uno stimatore di quadrato integrabile (cio`e di quadrato integrabile per ogni P θ ). Allora (i) V = E ¦ [U |T ] (versione della speranza condizionale non dipendente da θ) `e preferibile a U ; inoltre V `e strettamente preferibile a U a meno che U non sia σ(T )−misurabile. (ii) Se U `e corretto, anche V `e corretto. Dimostrazione. (i) Si ha RU (θ) = E θ [(U − g(θ))2 ] = ||U − g(θ)||2L2 (Ω,F ,P θ ) . Inoltre V − g(θ) = E ¦ [U |T ] − g(θ) = E ¦ [U − g(θ)|T ] = E θ [U − g(θ)|T ]. 19

Ricordiamo che E θ [U − g(θ)|T ] coincide con la proiezione ortogonale di U − g(θ) sul sottospazio chiuso L2 (Ω, σ(T ), P θ ). La sua norma L2 `e quindi pi` u piccola di quella di U − g(θ); inoltre essa `e strettamente pi` u piccola a meno che U − g(θ) non appartenga gi`a a L2 (Ω, σ(T ), P θ ), e cio`e non coincida P θ –q.o. con una funzione σ(T )–misurabile. (ii) E θ [V ] = E θ [E ¦ [U |T ]] = E θ [E θ [U |T ]] = E θ [U ] = g(θ). (4.2) Osservazione. Una conseguenza del Teorema di B–R `e che `e necessario cercare stimatori che siano T − misurabili, cio`e della forma h(T ), con h : E → R funzione opportuna. In altre parole, i“buoni” stimatori dipendono da ω solo attraverso T (ω). (4.3) Definizione. Una statistica esaustiva T si dice completa se ogni v.a. reale Y che sia T − misurabile (cio`e della forma h(T )), integrabile e tale che E θ [Y ] = 0 per ogni θ ∈ Θ `e nulla q.c. Il seguente teorema giustifica l’importanza della definizione appena data. (4.4) Teorema. Supponiamo che esista una statistica esaustiva completa T e sia U uno stimatore corretto e di quadrato integrabile di g(θ). Allora E ¦ [U |T ] `e preferibile ad ogni altro stimatore corretto e di quadrato integrabile di g(θ). (4.5) Osservazione. Il teorema precedente dice in altre parole che, nel caso esista una statistica esaustiva completa, o la classe D2c `e vuota, oppure contiene un elemento ottimale. Dimostrazione. Per il Teorema di B–R, sappiamo che, se U appartiene a D2 , allora E ¦ [U |T ] `e preferibile a U . Quindi baster`a dimostrare che, per ogni coppia U e V di elementi di D2c , si ha E ¦ [U |T ] = E ¦ [V |T ]. Questo `e vero: infatti E ¦ [U − V |T ] `e T –misurabile (cio`e del tipo h(T ) con h misurabile) ed inoltre £ ¤ £ ¤ £ ¤ £ ¤ £ ¤ E θ E ¦ [U − V |T ] = E θ E θ [U − V |T ] = E θ U − V = E θ U − E θ V = g(θ) − g(θ) = 0, perch´e U e V sono stimatori corretti. Dunque E ¦ [U |T ] − E ¦ [V |T ] = E ¦ [U − V |T ] = 0 perch´e la statistica T `e completa. Le statistiche esaustive complete possono essenzialmente essere trovate in due modi: o per calcolo diretto oppure mediante l’uso dei modelli esponenziali, che vedremo fra poco. Qui facciamo un calcolo diretto. (4.6) Esempio. Consideriamo un campione (X1 , . . . , Xn ) di legge uniforme sull’intervallo (0, θ) (con θ ¡> 0). La¢ verosimiglianza (rispetto alla misura di Lebesgue n–dimensionale sullo spazio Rn + = [0, +∞) ha la forma L(θ; x1 , . . . , xn ) = θ−n

n Y

1(0,θ) (xi ) = θ−n 1(0,θ) ( max xi ). 1≤i≤n

i=1

Dunque T = max1≤i≤n Xi `e una statistica esaustiva. Vogliamo vedere che T `e completa. Il modello non `e esponenziale (lo vedremo poi) quindi non ci resta che il calcolo diretto. Sia dunque Y = h(T ) 20

una v.a. T −misurabile, (h boreliana integrabile), tale che E θ [h(T )] = 0 per ogni θ > 0. Dobbiamo vedere se Y = 0 q.c. Indicando con f la densit`a della legge di T (sotto la probabilit`a P θ ) si ha R +∞ E θ [h(T )] = −∞ h(t)f (t) dt, e quindi tutto `e ricondotto al calcolo di f . Calcoliamo dapprima la funzione di ripartizione di T . Si ha subito ½ 0 per t < 0 F (t) = P θ ( max Xi ≤ t) = 1 per t > θ. 1≤i≤n Per 0 ≤ t ≤ θ si ha invece n Y

P θ ( max Xi ≤ t) = P θ (∩ni=1 {Xi ≤ t}) = 1≤i≤n

¡ ¢n P θ (Xi ≤ t) = P θ (X1 ≤ t) .

i=1

Dato che

Z

t

P θ (X1 ≤ t) =

1 t = , θ θ

0

si conclude che, per 0 ≤ t ≤ θ risulta P θ ( max Xi ≤ t) = tn θ−n . 1≤i≤n

Una densit`a di T si ottiene allora “per derivazione ”, e vale ½ −n n−1 per 0 < t < θ = nθ−n tn−1 1 f (t) = nθ t (0,θ) (t). 0 altrimenti Si conclude quindi che Z E θ [h(T )] =

+∞

Z

θ

h(t)f (t) dt = nθ−n

−∞

h(t)tn−1 dt = 0

∀θ > 0

0

se e solo se h(t)tn−1 = 0, e quindi h(t) = 0 q. c. rispetto alla misura di Lebesgue. In altre parole h(T ) = 0 P θ − q.c. per ogni θ, e cio`e T `e completa. Per trovare uno stimatore corretto non ci sono regole generali. In questo caso possiamo procedere cos`ı : calcoliamo Z

θ

E θ [T ] = nθ−n

Z t · tn−1 dt = nθ−n

0

Se ne deduce che

θ

tn dt =

0

n θn+1 nθ · n = . n+1 θ n+1

¢ n + 1¡ max Xi 1≤i≤n n

`e uno stimatore corretto (e dunque ottimale) di θ. Diamo ora la nozione di statistica libera. Si tratta dell’opposto della nozione di esaustivit`a , nel senso che, mentre una statistica esaustiva conserva tutta l’“informazione”sul parametro θ fornita dal modello statistico, una statistica libera non d`a su θ alcuna informazione (questa affermazione 21

sar`a pi` u chiara una volta che avremo il concetto di informazione di Fisher). La formalizzazione di questa idea `e data dalla seguente (4.7) Definizione. Assegnato il modello statistico (Ω, F, (P θ , θ ∈ Θ)), una statistica S definita su di esso e a valori in (E, E), si dice che S `e libera se la sua legge S(P θ ) non dipende da θ. n (4.8) Esempio. Sia (X1 , . . . , Xn ) un campione di legge N (θ, 1). Poniamo X = X1 +···+X (media n campionaria). Pn (a) Consideriamo la statistica S1 = i=1 (Xi − X)2 . Si tratta di una statistica libera in quanto, posto Yi = Xi − θ, si ha Y = X − θ, e quindi

S1 =

n X

(Yi − Y )2 .

i=1

Il vettore (Y1 , . . . , Yn ) ha per legge il prodotto tensoriale di n leggi N (0, 1), quindi una legge non dipendente da θ; dunque anche S1 ha una legge non dipendente da θ (vedremo in seguito che si tratta della χ2 (n − 1)). (b) Poniamo S2 = max Xi − min Xi . Si vede subito che S2 = max Yi − min Yi , dove il vettore (Y1 , . . . , Yn ) `e quello introdotto sopra. Dunque anche S2 `e una statistica libera. Vediamo ora quali relazioni sussistono tra i concetti di statistica esaustiva, completa, libera. (4.9) Teorema. Sul modello statistico (Ω, F, (P θ , θ ∈ Θ)) siano S e T due statistiche. Supponiamo che T sia esaustiva e completa e S sia libera. Allora S e T sono indipendenti (come statistiche, cio`e relativamente ad ogni P θ ). Dimostrazione. Per ogni funzione limitata h si ha h £ h £ £ ¤ £ ¤ ¤i £ ¤ ¤ £ ¤i 0 = E θ h(S) − E θ h(S) = E θ E θ h(S)|T − E θ h(S) = E θ E θ h(S)|T − E θ h(S) . D’altra parte £ ¤ • E θ h(S)|T `e misurabile rispetto a T (perch´e `e una speranza condizionata a T ) e non dipende da θ perch´e T `e esaustiva; £ ¤ • E θ h(S) (misurabile rispetto a T perch´e costante rispetto ω) non dipende da θ perch´e S `e libera. Dunque, per il criterio di Doob, esiste una funzione misurabile φ (non dipendente da θ) tale che £ ¤ £ ¤ E θ h(S)|T − E θ h(S) = φ(T ); pertanto, da quanto precede, si ottiene £ ¤ E θ φ(T ) = 0, 22

da cui, dato che T `e completa, si deduce che φ ≡ 0, cio`e , in modo equivalente, £ £ ¤ ¤ E θ h(S)|T = E θ h(S) . Dato che questa relazione vale per ogni h, si conclude che S e T sono indipendenti relativamente a P θ , per ogni θ. (4.10) Osservazione. Mettiamoci nella situazione dell’esempio precedente (4.8); vedremo tra poco (paragrafo sui modelli esponenziali) che la statistica X `e esaustiva completa. Si deduce allora dal Teorema che X `e indipendente da S1 e da S2 . Ritroveremo l’indipendenza di S1 e X come conseguenza del teorema di Cochran (v.) Del Teorema precedente vale un viceversa, in ipotesi particolari. Precisamente (4.11) Teorema. Sul modello statistico (Ω, F, (P θ , θ ∈ Θ)) dominato da µ siano S e T due statistiche. Supponiamo che T sia esaustiva e T e S siano indipendenti (in quanto statistiche). Supponiamo inoltre che, per ogni coppia (θ1 , θ2 ), P θ1 e P θ2 non siano tra loro singolari. Allora S `e libera. Dimostrazione. Dato che T `e esaustiva, per ogni h limitata consideriamo (una versione di) £ ¤ E ¦ h(S)|T non dipendente da θ. Allora, per ogni coppia (θ1 , θ2 ), esiste B ∈ F, con µ(B) = 1 tale che £ ¤ £ ¤ £ ¤ E ¦ h(S)|T (ω) = E θ1 h(S)|T (ω) = E θ2 h(S)|T (ω), per ∀ω ∈ B. D’altra parte, dato che S e T sono indipendenti, esistono A1 ∈ F e A2 ∈ F con P θ1 (A1 ) = P θ1 (A2 ) = 1 e £ ¤ £ ¤ £ ¤ £ ¤ E θ1 h(S)|T (ω) = E θ1 h(S) , ∀ ω ∈ A1 ; E θ2 h(S)|T (ω) = E θ2 h(S) , ∀ ω ∈ A2 . Possiamo sempre supporre che A1 ⊆ B e A2 ⊆ B (infatti, dato che µ(B c ) = 0, si ha anche P θ1 (A1 ∩ B c ) = 0, dunque anche P θ1 (A1 ∩ B c ) = 0 (perch´e P θ1 (A1 ∩ B c ) ≤ P θ1 (B c )). Quindi P θ1 (A1 ∩ B) = P θ1 (A1 ) − P θ1 (A1 ∩ B c ) = 1. In modo analogo si vede che P θ2 (A2 ∩ B) = 1. Basta allora sostituire A1 con A1 ∩B e A2 con A2 ∩B). Se fosse A1 ∩A2 = ∅, A1 e A2 sarebbero due eventi disgiunti, il primo dei quali porta la probabilit`a P θ1 e il secondo P θ2 ; ma questo non `e possibile dato che P θ1 e P θ2 sono tra loro non singolari. Dunque esiste almeno un ω ∈ A1 ∩ A2 ⊆ B; per tale ω abbiamo allora £ ¤ £ ¤ £ ¤ £ ¤ E θ1 h(S) = E θ1 h(S)|T (ω) = E θ2 h(S)|T (ω) = E θ2 h(S) ; dunque, per ogni h limitata, troviamo £ ¤ £ ¤ E θ1 h(S) = E θ2 h(S) , il che equivale a dire che la legge di S non dipende da θ, cio`e che S `e libera. (4.12) Applicazione. Sia X = (X1 , . . . , Xn ) un campione di legge N (m, σ 2 ); sia assegnata una matrice A = (ai,j )i,j=1,...,n simmetrica e semidefinita positiva. Condizione necessaria e sufficiente 23

Pn Pn affinch´e X e t XAX siano indipendenti `e che i=1 ai,j = 0, per ogni j = 1, . . . , n ( i=1 ai,j `e la somma degli elementi della matrice A che si trovano sulla colonna j− esima). Dimostrazione. Supponiamo dapprima che sia σ 2 = 1. Indicati rispettivamente con 0 e e i vettori n−dimensionali t (0, . . . , 0) e t (1, . . . , 1) (vettori colonna con tutte le componenti uguali a 0 e 1), poniamo Y = X − me. Il vettore aleatorio X ha legge N (me, I) (gaussiana n− dimensionale di media me e matrice di covarianza I. Quindi Y ha legge N (0, I) (e di conseguenza t Y AY `e libera). Osserviamo poi che n X ¡ ¢ ¡t ¢ ai,j = Ae j = eA j . i=1

Si ha d’altra parte t

XAX =t (Y + me)A(Y + me) =t Y AY +t (me)AY +t Y A(me) +t (me)A(me) ¡t ¢ ¡ ¢ =t Y AY + 2m eAY + m2 t eAe .

Pn Dunque se i=1 ai,j = 0, si ha t XAX =t Y AY , e quindi t XAX `e libera. Poich´e X `e esaustiva (a varianza σ 2 fissata, ved. Es. (2.14) (d)), t XAX e X sono indipendenti per il teorema (4.9); e viceversa, se t XAX e X sono indipendenti, allora t XAX `e libera per il teorema (4.11) D’altra parte per definizione t XAX `e libera se la sua legge non dipende dal parametro m; pertanto non ¡ ¢ dipende da m neppure E m [t XAX] = E m [t Y AY ] +t (me)AE m [Y ] + E m [t Y ]A(me) + m2 t eAe . Dato che E m [t Y AY ] non dipende da m, E m [Y ] = 0 e E m [t Y ] =t E m [Y ] =t 0, deve essere t eAe = 0, da cui si deduce Ae = 0. Infatti, essendo A semidefinita positiva, i suoi autovalori λ1 , . . . , λn sono tutti ` noto che, posto non negativi. E   λ1 0 . . . 0  0 λ2 . . . 0  K= , .. ..   ... . .  0

0

. . . λn

esiste una matrice ortogonale O tale che A =t OK O. Sar`a o

1,1

 o2,1 O=  .. . on,1

o1,n  o2,n  ..  , .

o1,2 o2,2 .. .

... ...

on,2

. . . on,n

e l’elemento di posto (i, j) della matrice A si scrive allora nella forma X X or,i λr or,j ai,j = ok,i λk δk,r or,j = r

k,r

Se si pone v = Oe, il vettore (colonna) v =t (v1 , . . . , vn ) ha la forma vr =

n X

or,j ,

r = 1, . . . , n.

j=1

24

La relazione 0 = t eAe = t e(tOK O)e =t (Oe)K (Oe) =t vK v pu`o essere scritta nella forma n X

λr vr2 = 0,

r=1

e dato che tutti gli addendi di questa somma sono non negativi, si deduce che, per ogni r = 1, . . . , n si ha λr vr2 = 0, e quindi anche λr vr = 0. La componente i−esima del vettore Ae `e allora data da X

X

ai,j =

j

or,i λr or,j =

X

or,i λr

r

j,r

X

or,j =

X

j

or,i (λr vr ) = 0.

r

5. I modelli esponenziali. Prima di introdurre i modelli esponenziali, occorre richiamare qualche propriet`a della trasformata di Laplace di una misura. Sia µ una misura σ−finita su (Rk , B(Rk )), e sia Z Dµ = {θ ∈ Rk : Per θ ∈ Dµ , definiamo

Z Lµ (θ) =

¡ ¢ exp hθ, xi dµ(x) < +∞}.

¡ ¢ exp hθ, xi dµ(x).

La funzione Lµ : Dµ → R+ cos`ı definita si chiama trasformata di Laplace della misura µ. Le propriet`a essenziali che ci serviranno nel seguito sono le seguenti: (i) Dµ `e un convesso di Rk (eventualmente vuoto); (ii) all’interno di Dµ , l’applicazione θ 7→ Lµ (θ) `e di classe C ∞ ed inoltre la derivata passa sotto il segno di integrale, cio`e ∂ ∂ L(θ) = ∂θi ∂θi

Z

¡ ¢ exp hθ, xi dµ(x) =

Z

¡ ¢ ∂ exp hθ, xi dµ(x) = ∂θi

Z

¡ ¢ xi exp hθ, xi dµ(x);

pi` u in generale, se α = (α1 , . . . , αk ), `e un multiindice, si ha Z α

D L(θ) = D

α

¡

¢ exp hθ, xi dµ(x) =

Z

¢ D exp hθ, xi dµ(x) = α

¡

Z

¡ ¢ xα exp hθ, xi dµ(x),

dove come al solito si pone xα = xα1 · · · xαk .

D α = D α1 · · · D αk ,

(iii) Siano µ e ν due misure: se esiste un aperto non vuoto A ⊆ Dµ ∩ Dν tale che Lµ (θ) = Lν (θ) per ogni θ ∈ A, allora µ = ν. 25

Cenno di dimostrazione. (i) poich´e u 7→ eu `e convessa, si ha, per t ∈ (0, 1) ethθ1 ,xi+(1−t)hθ2 ,xi ≤ tehθ1 ,xi + (1 − t)ehθ2 ,xi e dunque, integrando Lµ (tθ1 + (1 − t)θ2 ) ≤ tLµ (θ1 ) + (1 − t)Lµ (θ2 ). (ii) `e immediata, a condizione di provare che, se θ ∈ Dµ◦ , allora xi ehθ,xi `e µ−integrabile. (iii) si pu`o dedurre dall’analogo risultato riguardante le funzioni caratteristiche, nel modo seguente (cenno): nelle ipotesi fatte, per alcuni risultati sulle funzioni analitiche (di pi` u variabili) le funzioni θ 7→ Lµ (θ) e θ 7→ Lν (θ) (definite su un sottoinsieme aperto di Rn ) possono essere estese a (un sottoinsieme aperto di) Cn . Prendendo allora θ = (it1 , . . . , itn ), si vede che µ e ν hanno la stessa trasformata di Fourier (o funzione caratteristica) e pertanto coincidono. (5.1) Definizione. Un modello statistico dominato (Ω, F, (P θ , θ ∈ Θ)) si dice esponenziale se esiste una misura dominante µ tale che si abbia L(θ) =

¡ ¢ dP θ = C(θ) exp hθ, T i dµ

dove (i) C(θ) `e una costante (rispetto a ω); (ii) T `e una v.a. a valori in Rk ; (iii) Θ `e un aperto convesso di Rk , contenuto in Z D = {θ ∈ Rk :

exp(hθ, T i)dµ < +∞}. Ω

Poich´e si deve avere

R Ω

L(θ)dµ = 1, si ha necessariamente ³Z

´−1 exp(hθ, T i)dµ .

C(θ) = Ω

Dunque, se si pone

³Z

´ exp(hθ, T i)dµ

ψ(θ) = log Ω

si ottiene la forma canonica della verosimiglianza ³ ´ L(θ) = exp hθ, T i − ψ(θ) . (5.2) Osservazione. (i) T `e una statistica esaustiva (ovvio per il teorema di fattorizzazione). (ii) Il modello statistico `e regolare. Infatti L(θ) `e strettamente positiva ovunque (se fosse C(θ) = 0 θ per qualche valore di θ, avremmo una densit`a dP e possibile). dµ (ω) = 0 per ogni ω ∈ Ω, e questo non ` Vediamo come si usano i modelli esponenziali per trovare statistiche complete. Vale il 26

³ ´ (5.3) Teorema. In un modello esponenziale nel quale L(θ) = C(θ) exp hθ, T i , T `e una statistica esaustiva completa. Dimostrazione. Sia Y = h(T ) tale che, per ogni θ, si abbia Z Z ³ ´ ³ ´ θ 0 = E [h(T )] = C(θ) h(T ) exp hθ, T i dµ = C(θ) h(x) exp hθ, xi dµT (x) Ω



dove µT = T (µ) indica la misura immagine di µ secondo T . Scriviamo h nella forma h+ − h− ; si ha allora Z Z ³ ´ ³ ´ exp hθ, xi h+ (x)dµT (x) = exp hθ, xi h− (x)dµT (x). Ω



Dunque, per la propriet`a (iii) della trasformata di Laplace, le due misure h+ .µT e h− .µT coincidono, cio`e h+ = h− µT q. o. Ci`o significa che h = 0 µT q. o., ossia che h(T ) = 0 µ q. o. (5.4) Esempio. Nell’esempio (2.9) (c) avevamo trovato la seguente verosimiglianza, rispetto alla misura di Lebesgue su [0, 1]n : L(θ; x1 , . . . , xn ) = (θ + 1)n

n ³Y i=1

xi

´θ

n ³ X ´ ¡ ¢ = exp θ log xi + n log(θ + 1) = exp θT − ψ(θ) , i=1

Pn

dove T (x1 , . . . , xn ) = i=1 log xi e ψ(θ) = −n log(θ + 1). Dunque, se poniamo T (X1 , . . . , Xn ) = P n e una statistica esaustiva completa. Calcoliamone la speranza rispetto a P θ . Si ha i=1 log Xi , T ` E θ [T ] = E θ [

n X

log Xi ] =

i=1

Pn Dunque − ottimale di

log Xi n

i=1

n X

Z E θ [log Xi ] = nE θ [log X1 ] = n(θ + 1) 0

i=1

1

xθ log xdx =

−n . θ+1

`e una statistica esaustiva completa e corretta, e quindi `e uno stimatore

1 θ+1 .

(5.5) Osservazione. Attenzione: non `e affatto vero che − Pn

n log Xi

sia uno stimatore corretto

i=1

di θ + 1.

Pn Xi i=1 (5.6) Esercizio. (a) In un campione di legge di Poisson di parametro θ, `e uno stimatore n ottimale di θ. Soluzione. Abbiamo visto nell’esempio (2.9) (b) che, rispetto alla misura µ che conta i punti di Nn , la verosimiglianza `e data da e−nθ θk1 +···kn dP θ (k1 , . . . , kn ) = . dµ k1 ! · · · kn ! Per “scaricare i fattoriali”, cambiamo misura dominante e prendiamo m(k1 , . . . , kn ) = 27

1 k1 ! · · · kn !

Allora la verosimiglianza diventa ¡ ¢ dP θ (k1 , . . . , kn ) = e−nθ θk1 +···kn = exp (k1 + · · · kn ) log θ − nθ . dm Posto allora T (k1 , . . . , kn ) = k1 +· · ·+kn , e cambiando il parametro t = log θ, ψ(t) = net , possiamo scrivere la verosimiglianza nella forma ¡ ¢ L(t) = exp t(k1 + · · · + kn ) − ψ(t) . Si riconosce quindi un modello esponenziale, e dunque la statistica T = X1 + · · · + Xn `e esaustiva Pn X i i=1 completa. Dato che E θ [T ] = nθ, si ottiene che `e uno stimatore ottimale di θ. n Pn Xi i=1 (b) In un campione di legge esponenziale di parametro θ, `e uno stimatore ottimale di θ1 . n (5.7) Osservazione. Talvolta il modello non `e di tipo esponenziale, ma lo diventa se si effettua un opportuno cambio di parametro θ˜ = g(θ). Abbiamo gi`a trovato un esempio nell’esercizio (5.6) (a). Vediamone un altro. Le leggi normali N (m, σ 2 ) hanno densit`a (rispetto alla misura di Lebesgue) µ ¶ µ ¶ (x − m)2 1 m 1 2 m2 1 exp − L(m, σ 2 ; x) = √ = exp x − x − − log σ − log(2π) 2σ 2 σ2 2σ 2 2σ 2 2 2πσ Se m e σ 2 sono entrambi sconosciuti, il modello diventa esponenziale ponendo µ ¶ m 1 θ= , − , T (x) = (x, x2 ). σ2 2σ 2 Nel caso che m sia noto, il modello diventa esponenziale ponendo θ=−

1 , 2σ 2

T (x) = (x − m)2 .

Nel caso che σ 2 sia noto, il modello diventa esponenziale ponendo θ=

m , σ2

T (x) = x,

e prendendo come misura dominante la misura con densit`a (rispetto alla misura di Lebesgue su R) µ ¶ 1 m2 1 exp − 2 x2 − log σ − 2 − log(2π) . 2σ 2σ 2 θ

(5.8) Osservazione. Sia µθ una famiglia esponenziale di probabilit`a su R (cio`e si ha dµ dµ (x) = ¡ ¢ θ exp hθ, T (x)i − ψ(θ) . Consideriamo un campione di taglia n e legge µ ; allora la verosimiglianza rispetto alla misura dominante µ⊗n `e data da L(θ; x1 , . . . , xn ) =

n Y

n ¡ ¢ ¡ X ¢ exp hθ, T (xi )i − ψ(θ) = exp hθ, T (xi )i − nψ(θ) ;

i=1

i=1

28

quindi anche Pn il campione `e un modello esponenziale e, se si pone come al solito Xi (x1 , . . . , xn ) = Xi , la v. a. e una statistica esaustiva. i=1 T (Xi ) ` (5.9) Esempi. Vediamo alcuni esempi di modelli esponenziali su R. (a) Legge di Bernoulli di parametro θ. La densit`a, rispetto alla misura che assegna massa unitaria ai punti 0 e 1, `e data da ¶ µ θ k 1−k + log(1 − θ) , L(θ; k) = θ (1 − θ) = exp k log 1−θ che diventa esponenziale passando al parametro t = log

θ . 1−θ

(b)Legge di Poisson di parametro θ. La densit`a, rispetto alla misura che conta gli interi, `e data da L(θ; k) = e−θ

θk , k!

k ∈ N,

che non ha una forma esponenziale. Se per`o cambiamo misura dominante, prendendo la misura µ 1 concentrata su N tale che µ(k) = k! , allora la densit`a `e dµθ = e−θ θk = exp(k log θ − θ), dµ che `e esponenziale se passiamo al parametro t = log θ. (ved. anche es. (5.6) (a)). (c) Legge Γ di parametri r > 0, λ > 0. La sua densit`a rispetto alla misura di Lebesgue su R+ , `e data da λr xr−1 e−λx L(r, λ; x) = = exp(−λx + (r − 1) log x + r log λ − log Γ(r)), Γ(r) che diventa esponenziale se si pone θ = (λ, r − 1),

T (x) = (−x, log x).

Torniamo adesso alle propriet`a dei modelli esponenziali, dimostrando un risultato che utilizzeremo nel seguito. (5.10) Proposizione. Valgono le seguenti equazioni (a)

(b)

∂ψ(θ) = E θ [Ti ], ∂θi

i = 1, . . . , k;

∂ 2 ψ(θ) = Covθ (Ti , Tj ). ∂θi ∂θj 29

Dimostrazione. (a) Se T = (T1 , . . . , Tk ), si ha Z Z ¡ ¢ exp hθ, T i dµ = Rk



¡ ¢ exp hθ, xi dµT (x),

dove µT `e l’immagine di µ secondo l’applicazione T : Ω → Rk . Dunque, per una delle propriet`a della trasformata di Laplace sopra ricordate, Z Z Z ¡ ¢ ¡ ¢ ¡ ¢ ∂ ∂ exp hθ, T i dµ = exp hθ, xi dµT (x) = xi exp hθ, xi dµT (x) ∂θi Ω ∂θi Rk Rk Z ¡ ¢ Ti exp hθ, T i dµ = Ω

e dunque ³ ∂ ∂ψ(θ) = log ∂θi ∂θi

Z

Z ¡ ¢ ´ ¡ ¢ exp hθ, T i dµ = Ti exp hθ, T i − ψ(θ) dµ = E θ [Ti ]. Ω



(b) Continuando a derivare, si trova ∂ 2 ψ(θ) = ∂θi ∂θj

Z

¡ ¢ ∂ Ti exp hθ, T i − ψ(θ) dµ = ∂θj Ω

Z

¡ ¢³ ∂ψ(θ) ´ Ti exp hθ, T i − ψ(θ) Tj − ∂θj Ω

= E θ [Ti Tj ] − E θ [Ti ]E θ [Tj ] = Covθ (Ti , Tj ). 6. Informazione secondo Fisher e diseguaglianza di Cramer–Rao. Quando si deve stimare il parametro θ ∈ Θ (con Θ aperto di Rk ) l’importante `e il tipo di variabilit`a delle leggi P θ intorno a θ. Di qui l’idea di un’ “informazione locale”. A questa esigenza risponde il concetto di informazione introdotto da Fisher. ³ ´ Supponiamo assegnato in tutto il paragrafo un modello statistico regolare Ω, F, (P θ , θ ∈ Θ) , una misura dominante P ed una scelta della verosimiglianza L(θ) = l’operatore di speranza fatta rispetto a P .

dP θ dP .

Indicheremo con E

Si suppone che Θ sia un aperto di Rk , che la funzione θ 7→ L(θ, ω) sia per ogni ω strettamente positiva e differenziabile (pi` u in generale potremmo supporre che l’insieme Aθ = {ω ∈ Ω : L(θ, ω) > 0} non dipenda da θ). Inoltre faremo l’ipotesi che si possa scambiare l’operazione di integrazione con quella di derivazione nel derivare le¡ funzioni del tipo θ 7→ E[L(θ)Y ], per ogni v. a. Y ∈ L2 (P ) ¢ (questa ipotesi `e vera ad esempio se ∇ L(θ) `e di quadrato integrabile secondo P ). In particolare R R θ θ si ha E[L(θ)] = Ω dP dP dP = Ω dP = 1, e quindi, per ogni i = 1, . . . , k ¸ ∂ ∂ ∂ L(θ) = E[L(θ)] = 1 = 0, E ∂θi ∂θi ∂θi ·

30

che significa E[∇L(θ)] = ∇E[L(θ)] = ∇1 = 0, (dove 0 `e il vettore a componenti tutte nulle). Dall’ultima relazione segue che · ¸ Z Z ¡ ¢ 1 1 1 dP θ E θ [∇ log L(θ) ] = E θ ∇L(θ) = ∇L(θ)dP θ = ∇L(θ) dP L(θ) dP Ω L(θ) Ω L(θ) Z ∇L(θ)dP = E[∇L(θ)] = 0. = Ω

In altre parole, questa relazione dice che, per ogni i = 1, . . . , k, le v. a. ω 7→

¡ ¢ ∂ log L(θ, ω) ∂θi

sono centrate rispetto a ogni P θ . ¡ ¢ Supponiamo infine che ∇ log L(θ) sia di quadrato integrabile secondo P θ per ogni θ ∈ Θ. (6.1)Osservazione. Su Ω = (R+ )n sia (X1 , . . . , Xn ) un campione di legge µθ = U[0, 1]. Dato che L(θ, ω) = 1[0,1] (ω), in questo caso non `e vero che L(θ, ω) > 0 per ogni ω ∈ Ω. Invece `e vero che Aθ (=[0, 1]) non dipende da θ. Tuttavia ci sono casi in cui anche questa ipotesi non `e valida; ad es. se siamo nel caso di un campione di legge µθ = U[0, θ]. ¡ ¢ (6.2) Definizione. Si chiama matrice di informazione secondo Fisher la matrice I(θ) = I(θ)i,j dove ¸ · ∂ ∂ log L(θ) · log L(θ) . I(θ)i,j = E θ ∂θi ∂θj

(6.3) Osservazione. Dato che per ogni j ∂ log L(θ) 1 ∂L(θ) = · , ∂θj L(θ) ∂θj si ha la formula alternativa · I(θ)i,j = E θ

¸ ∂L(θ) ∂L(θ) 1 · · . L2 (θ) ∂θj ∂θi

(6.4) Osservazione. I(θ) `e una matrice simmetrica e semi–definita positiva. Infatti essa `e la ¡ ¢ matrice di covarianza del vettore ∇ log L(θ) (che come abbiamo visto `e centrato). D’altra parte, 31

la matrice di covarianza C di un vettore aleatorio (X1 , . . . , Xk )`e sempre simmetrica (ovvio) e semi–definita positiva. Infatti hCx, xi = E

hX

X i,j

i,j

à h X

 ! i X xi (Xi − E[Xi ])  xi (Xj − E[Xj ])

i

=E

i X h E xi (Xi − E[Xi ])xj (Xj − E[Xj ]) =

i xi (Xi − E[Xi ])xj (Xj − E[Xj ])

i,j

=E

Cov(Xi , Xj )xi xj =

à h X

j

!2 xi (Xi − E[Xi ])

i

h i = E hx, X − E[X]i2 ≥ 0.

i

Vogliamo vedere ora come si comporta l’informazione quando il numero di esperienze fatte aumenta. Per prima cosa, vediamo cosa accade quando le varie ripetizioni sono tra loro indipendenti. Supponiamo di¢ essere nella situazione seguente: si hanno due modelli ¡ statistici dominati¢ ¡ Ω1 , F1 , {P1θ , θ ∈ Θ} (misura dominante P1 e verosimiglianza L1 (θ)) e Ω2 , F2 , {P2θ , θ ∈ Θ} (misura dominante P2 e verosimiglianza L2 (θ)). Poniamo Ω = Ω1 ×Ω2 ; F = F1 ⊗F2 ; P θ = P1θ ⊗P2θ ¡(ω ∈ Ω `eθ del tipo¢ ω = (ω1 , ω2 ), con ω1 ∈ Ω1 e ω2 ∈ Ω2 ); `e immediato vedere che il modello Ω, F, {P , θ ∈ Θ} ora costruito `e dominato da P1 ⊗ P2 e che una versione della verosimiglianza `e data da L(θ; ω) = L1 (θ, ω1 ) · L2 (θ; ω2 ). Denotiamo (come al solito) con X1 e X2 le proiezioni (X1 (ω) = ω1 e X2 (ω) = ω2 ), che risultano indipendenti per costruzione. Indichiamo infine con I, I1 e I2 le informazioni di Fisher nei relativi modelli (con notazioni ovvie). ¡ ¢ (6.5) Esercizio. Su (Ω, F, P ) siano U e V due vettori aleatori a valori in Rk , B(Rk ) , tra loro indipendenti. Indichiamo con CovU , CovV e Cov(U + V ) le matrici di covarianza di U , V e U + V rispettivamente. Mostrare che Cov(U + V ) = CovU + CovV. ` ). Nelle ipotesi fatte sopra, per ogni θ ∈ Θ si ha (6.6) Teorema (di additivita I(θ) = I1 (θ) + I2 (θ). ¡ ¢ Dimostrazione. Si ha prima di tutto log L(θ; ω) = log L1 (θ, ω1 ) · L2 (θ; ω2 ) = log L(θ; ω1 ) + log L(θ; ω2 ). Dunque, ricordando che I(θ) `e la matrice di covarianza del vettore ∇ log L(θ; ω)(osservazione (6.4)), si ha ¡ ¢ ¡ ¢ I(θ) = Cov ∇ log L(θ; ·) = Cov ∇{log L1 (θ; X1 ) + log L2 (θ; X2 )} ¡ ¢ = Cov ∇ log L1 (θ; X1 ) + ∇ log L2 (θ; X2 ) ¡ ¢ ¡ ¢ = Cov ∇ log L1 (θ; X1 ) + Cov ∇ log L2 (θ; X2 ) = I1 (θ) + I2 (θ), 32

per l’indipendenza di X1 e X2 . (6.7) Osservazione. (a) Ovviamente il teorema vale anche quando i modelli di partenza sono pi` u di 2; (b) il significato del teorema `e che in caso di indipendenza le informazioni si sommano; in particolare l’informazione In fornita da un campione (X1 , . . . , Xn ) (di legge µθ e misura dominante µ), e cio`e l’informazione del modello ¡ n ¢ R , B(Rn ), {(µθ )⊗n , θ ∈ Θ} `e uguale a n volte l’informazione I fornita dal modello ¡

¢ R, B(R), {µθ , θ ∈ Θ} .

Cio`e l’informazione fornita da n prove `e n volte l’informazione fornita da una singola prova. Talvolta `e utile una forma alternativa per I(θ). (6.8) Lemma. Si ha

· E

θ

¸ 1 ∂ 2 L(θ) · = 0. L(θ) ∂θi ∂θj

Dimostrazione. · ¸ Z Z 1 ∂ 2 L(θ) 1 ∂ 2 L(θ) θ 1 ∂ 2 L(θ) dP θ θ E · = · dP = · dP L(θ) ∂θi ∂θj L(θ) ∂θi ∂θj L(θ) ∂θi ∂θj |{z} dP Z =

2

·

2

=L(θ)

¸

2

∂ L(θ) ∂ L(θ) ∂ dP = E = E [L(θ)] = 0. ∂θi ∂θj ∂θi ∂θj ∂θi ∂θj | {z } =1

(6.9) Teorema. Vale la formula · I(θ)i,j = −E θ

∂ 2 log L(θ) ∂θi ∂θj

¸

Dimostrazione. Si ha ∂ 2 log L(θ) ∂ ³ ∂ log L(θ) ´ ∂ ³ 1 ∂L(θ) ´ 1 ³ ∂ 2 L(θ) ∂L(θ) ∂L(θ) ´ = = = 2 L(θ) − · ∂θi ∂θj ∂θi ∂θj ∂θi L(θ) ∂θj L (θ) ∂θi ∂θj ∂θj ∂θi 2 ∂ L(θ) 1 ∂L(θ) ∂L(θ) 1 · − 2 · · . = L(θ) ∂θi ∂θj L (θ) ∂θj ∂θi 33

Passando alle speranze e utilizzando il Lemma (6.8) si trova ¸ ¸ · 2 · 1 ∂L(θ) ∂L(θ) θ ∂ log L(θ) θ E = −E · · = −I(θ)i,j , ∂θi ∂θj L2 (θ) ∂θj ∂θi per l’osservazione (6.3) (6.10)Esempi. (a) Sia (X1 , . . . , Xn ) un campione di legge N (m, σ 2 ). Calcoliamo In (m). La verosimiglianza `e data da L(m; x1 , . . . , xn ) =

n n o 1 1 X −n σ (xi − m)2 . exp − 2 n/2 2σ i=1 (2π)

Quindi (la notazione L(m) usata qui sotto sta a rammentare che stiamo considerando la verosimiglianza come funzione di m, che `e il parametro che ci interessa) log L(m) = −

n n 1 X log(2π) − n log σ − 2 (xi − m)2 ; 2 2σ i=1

n n o o d2 d2 n 1 X d n1 X n 2 log L(m) = − (x − m) = (xi − m) = − 2 . i 2 2 2 2 dm dm 2σ i=1 dm σ i=1 σ

Dunque In (m) = −E m

h d2 i n log L(m) = 2. 2 dm σ

Osserviamo comunque che, per il teorema di additivit`a, si ha In (m) = nI1 (m), e quindi basterebbe calcolare I1 (m) = σ12 . (b) Come in (a), sia (X1 , . . . , Xn ) un campione di legge N (m, σ 2 ). Calcoliamo In (σ 2 ). La verosimiglianza `e la stessa che in (a), ma questa volta va guardata come funzione di σ 2 , quindi scriviamo n n n 1 X log L(σ 2 ) = − log(2π) − log(σ 2 ) − 2 (xi − m)2 ; 2 2 2σ i=1 n o d2 d2 n n 1 X 2 2 2 log L(σ ) = − log(σ ) − (x − m) i d(σ 2 )2 d(σ 2 )2 2 2σ 2 i=1 P Pn n 2o 2 n n d n i=1 (xi − m) i=1 (xi − m) − + = − . = d(σ 2 ) 2σ 2 2σ 4 2σ 4 σ6

Quindi

Pn h n i 2i d2 2 σ2 i=1 (Xi − m) log L(σ ) = −E − In (σ ) = −E d(σ 2 )2 2σ 4 σ6 n n n 1 X σ2 h³ Xi − m ´2 i n n =− 4 + 4 =− 4 + 4 = . E 4 2σ σ i=1 | σ 2σ σ 2σ {z } ´ ³ 2

σ2

h

=V ar

Xi −m σ

=1

34

(c) Ancora come in (a), sia (X1 , . . . , Xn ) un campione di legge N (m, σ 2 ). Calcoliamo In (σ). Ora scriviamo

n n 1 X log L(σ) = − log(2π) − n log σ − 2 (xi − m)2 ; 2 2σ i=1 n o d2 d2 n 1 X 2 (x − m) log L(σ) = − n log σ − i dσ 2 dσ 2 2σ 2 i=1 P Pn n 2o 3 i=1 (xi − m)2 d n n n i=1 (xi − m) = − + = 2− ; dσ σ σ3 σ σ4 Pn i h h d2 3 i=1 (Xi − m)2 i σ n In (σ) = −E σ log L(σ) = −E − dσ 2 σ2 σ4 n h³ ´ i n 3 X σ2 Xi − m 2 3n 2n n =− 2 + 2 E = − 2 + 2 = 2. σ σ i=1 | σ σ σ {z σ } ³ ´ =V ar

Xi −m σ

=1

In tutti gli esempi precedenti sono valide le ipotesi necessarie per poter sviluppare la teoria dell’informazione di Fisher (dunque fra l’altro, come abbiamo potuto verificare con i calcoli diretti, vale il teorema di additivit`a). Vediamo cosa accade nell’esempio che segue, in cui, come abbiamo osservato in (6.1), le ipotesi non valgono. (d) Sia (X1 , . . . , Xn ) un campione di legge U(0, θ) (θ > 0). (i) Calcoliamo I1 (θ) con la definizione. La verosimiglianza `e L(θ; x) =

1 1(0,θ) (x); θ

dunque Aθ = {x : L(θ, x) > 0} = (0, θ), e, per x ∈ Aθ = (0, θ), abbiamo d 1 log L(θ, x) = − ; dθ θ in altre parole

d 1 log L(θ, x) = − 1(0,θ) (x) dθ θ

e quindi I1 (θ) = E θ

Z θ hn 1 hn d o2 i o2 i £ ¤ 1 1 1 1 log L(θ, X) = E θ − 1(0,θ) (X) = 2 E θ 1(0,θ) (X) = 2 dx = 2 . dθ θ θ θ 0 θ θ

(ii) Proviamo ad usare la formula del Teorema (6.9): I(θ) = −E θ

h i i h d2 1 θ 1 log L(θ) = −E 1 (X) = − 2. (0,θ) dθ2 θ2 θ 35

Si osserva che in questo modo non otteniamo il valore corretto (quello del punto (i)); fra l’altro si tratta di un numero negativo (sappiamo che l’informazione `e sempre non negativa). (iii) Verifichiamo che non vale il teorema di additivit`a, calcolando In (θ). La verosimiglianza del campione (X1 , . . . , Xn ) `e L(θ; x1 , . . . , xn ) = Dunque

1 1(0,θ) (x1 ) · . . . · 1(0,θ) (xn ). θn

Aθ = {x1 , . . . , xn : L(θ; x1 , . . . , xn ) > 0} = (0, θ)n ; log L(θ; x1 , . . . , xn ) = (−n log θ)1(0,θ)n (x1 , . . . , xn ).

Pertanto o2 i hn n o2 i hn d log L(θ; X1 , . . . , Xn ) = E θ − 1(0,θ)n (X1 , . . . , Xn ) dθ θ Z ¤ n2 n2 θ £ 1 n2 = 2 E 1(0,θ)n (X1 , . . . , Xn ) = 2 dx = 2 6= nI1 (θ). θ θ (0,θ)n θn θ

In (θ) = E θ

(6.11) Esempio (un caso bidimensionale). Sia (X1 , . . . , Xn ) un campione di legge N (m, σ 2 ). Calcoliamo I(m, σ 2 ). Osserviamo che in questo caso si ha θ = (m, σ 2 ), cio`e il parametro `e bidimensionale. I(θ) sar`a dunque una matrice 2 × 2: µ ¶ I1,1 (θ) I1,2 (θ) I(θ) = I2,1 (θ) I2,2 (θ) La verosimiglianza `e data da L(θ; x1 , . . . , xn ) = L((m, σ 2 ); x1 , . . . , xn ) = Quindi log L((m, σ 2 )) = −

n n o 1 1 X −n 2 σ exp − (x − m) . i 2σ 2 i=1 (2π)n/2

n n n 1 X log(2π) − log σ 2 − 2 (xi − m)2 , 2 2 2σ i=1

da cui •

n n o o ∂2 ∂2 n 1 X ∂ n1 X n 2 2 log L((m, σ )) = − (x − m) = (x − m) = − 2; i i 2 2 2 2 ∂m ∂m 2σ i=1 ∂m σ i=1 σ

n o ∂2 n n 1 X ∂2 2 2 log L((m, σ )) = − log(σ ) − (xi − m)2 2 2 2 2 2 ∂(σ ) ∂(σ ) 2 2σ i=1 P P n n (xi − m)2 o (xi − m)2 ∂ n n n = − 2 + i=1 4 = − i=1 6 ; 2 4 ∂(σ ) 2σ 2σ 2σ σ n n o ∂2 ∂ n1 X 1 X 2 • log L((m, σ )) = (x − m) = − (xi − m). i ∂m∂(σ 2 ) ∂(σ 2 ) σ 2 i=1 σ 4 i=1



36

Dunque h ∂2 i n 2 log L((m, σ )) = 2 2 ∂m σ Pn h ∂2 i h n 2i σ2 2 σ2 i=1 (Xi − m) • I2,2 (θ) = −E log L((m, σ )) = −E − 2 2 4 6 ∂(σ ) 2σ σ n h³ ´ i n 1 X σ2 Xi − m 2 n n n =− 4 + 4 E =− 4 + 4 = ; 2σ σ i=1 | 2σ σ 2σ 4 {z σ } ´ ³

• I1,1 (θ) = −E θ

=V ar

• I1,2 (θ) = I2,1 (θ) = −E θ

Xi −m σ

h

=1

i i 1 θh X ∂2 2 log L((m, σ )) = E (X − m) = 0; i ∂m∂(σ 2 ) σ4 i=1 n

e quindi la matrice d’informazione `e  n 2 In (m, σ 2 ) =  σ 0

 0 n . 2σ 4

(6.12) Il caso di una catena di Markov. Un’altra situazione interessante in cui studiare come varia l’informazione all’aumentare delle osservazioni `e quella del modello statistico dell’esempio (2.4) (catena di Markov). Supponiamo di avere una catena di Markov sullo spazio misurabile (E, E), di legge iniziale ρ assegnata e operatore di transizione Z Π(θ, x; A) = `(θ, x, y)Π(x, dy), x ∈ E, A ∈ E, A

dove Π `e un operatore di transizione fissato di E in E. Prendiamo il modello statistico (definito in (2.4)) ¡ n+1 ⊗n+1 ¢ E ,E , {P θ , θ ∈ Θ} , dove P θ = ρ ⊗ (Πθ )⊗n sappiamo che si tratta di un modello dominato; una misura dominante `e ρ ⊗ Π⊗n e una versione della verosimiglianza `e (x = (x0 , . . . , xn )) L(θ, x) = `(θ, x0 , x1 ) · `(θ, x1 , x2 ) · . . . · `(θ, xn−1 , xn ). Calcoliamo In (θ) con la formula della definizione. Prendiamo n = 2 per semplicit`a e poniamo ˙ x, y) = ∂ `(θx, y). Allora L(θ, X0 , X1 , X2 ) = `(θ, X0 , X1 )`(θ, X1 , X1 ) e `(θ, ∂θ ˙ X0 , X1 )`(θ, X1 , X1 ) + `(θ, X0 , X1 )`(θ, ˙ X1 , X2 ), L0 (θ) = `(θ, e quindi

˙ X0 , X1 ) `(θ, ˙ X1 , X 2 ) `(θ, L0 (θ) = + . L(θ) `(θ, X0 , X1 ) `(θ, X1 , X2 ) 37

Dunque n L0 (θ) o2 L(θ)

=

n `(θ, ˙ X0 , X1 ) o2 `(θ, X0 , X1 )

+

n `(θ, ˙ X1 , X2 ) o2 `(θ, X1 , X2 )

+2

˙ X0 , X1 ) `(θ, ˙ X1 , X 2 ) `(θ, · , `(θ, X0 , X1 ) `(θ, X1 , X2 )

e passando alle speranze si trova I2 (θ) = E θ

hn `(θ, h `(θ, hn `(θ, ˙ X1 , X2 ) o2 i ˙ X0 , X1 ) `(θ, ˙ X1 , X 2 ) i ˙ X0 , X1 ) o2 i + Eθ + 2E θ · . `(θ, X0 , X1 ) `(θ, X1 , X2 ) `(θ, X0 , X1 ) `(θ, X1 , X2 )

D’altra parte h `(θ, h h `(θ, ii ˙ X0 , X1 ) `(θ, ˙ X1 , X 2 ) i ˙ X0 , X1 ) `(θ, ˙ X1 , X2 ) ¯¯ · · = Eθ Eθ ¯X0 , X1 `(θ, X0 , X1 ) `(θ, X1 , X2 ) `(θ, X0 , X1 ) `(θ, X1 , X2 ) , h `(θ, h `(θ, ii ˙ X0 , X 1 ) ˙ X1 , X2 ) ¯¯ θ θ =E ·E ¯X0 , X1 = 0 `(θ, X0 , X1 ) `(θ, X1 , X2 )



perch´e Z h `(θ, i Z `(θ, ˙ X1 , X2 ) ¯¯ ˙ X1 , y) θ E Π (X1 , dy) = ¯X0 , X1 = `(θ, X1 , X2 ) `(θ, X1 , y) Z Z ˙ X1 , y)Π(X1 , dy) = ∂ = `(θ, `(θ, X1 , y)Π(X1 , dy) = ∂θ θ

˙ X1 , y) `(θ, `(θ, X1 , y)Π(X1 , dy) `(θ, X1 , y) Z ∂ Πθ (X1 , dy) = 0. ∂θ | {z } =1

Si conclude quindi che I2 (θ) = E θ

hn `(θ, hn `(θ, ˙ X0 , X1 ) o2 i ˙ X1 , X2 ) o2 i + Eθ . `(θ, X0 , X1 ) `(θ, X1 , X2 )

In generale, se φ `e una funzione limitata (di due variabili), si ha Z Z h i Z ¡ ¢ E θ φ(X0 , X1 ) = ρ(dx0 ) Πθ (x0 , dx1 )φ(x0 , x1 ) = φ(x0 , x1 )d ρ ⊗ (Πθ ) (x0 , x1 ); Z Z h i Z E θ φ(X1 , X2 ) = ρ(dx0 ) Πθ (x0 , dx1 ) Πθ (x1 , dx2 )φ(x1 , x2 ) Z ¡ ¢ = φ(x1 , x2 )d ρ ⊗ (Πθ )⊗2 (x1 , x2 ). Inoltre, se ρ `e una misura invariante per la catena, la legge di X1 e cio`e l’applicazione A 7→ R ρ(dx0 )Πθ (x0 , A), coincide con ρ. Pertanto Z Z h i Z θ θ E φ(X1 , X2 ) = ρ(dx0 ) Π (x0 , dx1 ) Πθ (x1 , dx2 )φ(x1 , x2 ) Z nZ Z Z oZ = ρ(dx0 )Πθ (x0 , dx1 ) Πθ (x1 , dx2 )φ(x1 , x2 ) = ρ(dx1 ) Πθ (x1 , dx2 )φ(x1 , x2 ) h i = E θ φ(X0 , X1 ) . 38

Si pu`o dunque scrivere Eθ

E

θ

hn `(θ, ˙ X0 , X1 ) o2 i `(θ, X0 , X1 )

hn `(θ, ˙ X1 , X2 ) o2 i `(θ, X1 , X2 )

=

Z n˙ ¢ `(θ, x0 , x1 ) o2 ¡ d ρ ⊗ (Πθ ) (x0 , x1 ); `(θ, x0 , x1 )

Z n˙ ¢ `(θ, x1 , x2 ) o2 ¡ = d ρ ⊗ (Πθ )⊗2 (x0 , x1 , x2 ); `(θ, x1 , x2 )

quindi I2 (θ) =

Z n˙ Z n˙ ¢ ¢ `(θ, x0 , x1 ) o2 ¡ `(θ, x1 , x2 ) o2 ¡ d ρ ⊗ (Πθ ) (x0 , x1 ) + d ρ ⊗ (Πθ )⊗2 (x0 , x1 , x2 ) `(θ, x0 , x1 ) `(θ, x1 , x2 )

e, se ρ `e invariante per la catena, si trova I2 (θ) = 2E θ

hn `(θ, ˙ X0 , X1 ) o2 i `(θ, X0 , X1 )

= 2I1 (θ).

In generale (n ≥ 1) otteniamo la formula I(θ) =

n X i=1

E

θ

hn `(θ, ˙ X

i−1 , Xi )

`(θ, Xi−1 , Xi )

o2 i

n Z n ˙ X ¢ `(θ, xi−1 , xi ) o2 ¡ = d ρ ⊗ (Πθ )⊗i (x0 , x1 , . . . , xi−1 , xi ); `(θ, x , x ) i−1 i i=1

se ρ `e invariante per la catena, si trova In (θ) = nE θ

hn `(θ, ˙ X0 , X1 ) o2 i = nI1 (θ). `(θ, X0 , X1 )

Si nota che l’informazione cresce al crescere del numero n di passi osservati; se per di pi` u ρ `e invariante per la catena, si ritrova la stessa situazione che avevamo visto nel caso di un campione: l’informazione ottenuta dopo n passi della catena `e n volte quella ottenuta dopo un passo. Vogliamo ora vedere se il concetto di informazione di Fisher `e in accordo con l’intuizione per quanto ` necessario innanzitutto definire cosa riguarda i concetti di statistica libera e statistica esaustiva. E si intende per “misura dell’informazione” contenuta in una statistica T . Per questo, mettiamoci nella situazione seguente. Sia (Ω, F, {P θ , θ ∈ Θ}) un modello statistico assegnato, dominato da una misura µ e con verosimiglianza L(θ); su di esso consideriamo la statistica T , a valori nello spazio misurabile (E, E). Indicata con Qθ = T (P θ ) la legge di T (cio`e la probabilit`a immagine di P θ secondo T ), consideriamo il modello statistico (E, E, {Qθ , θ ∈ Θ}) (detto modello immagine di (Ω, F, {P θ , θ ∈ Θ}) secondo T ). Si tratta ovviamente di un modello dominato (una misura dominante `e ν = T (µ), supposta σ−finita); indicheremo la verosimiglianza di questo modello con LT (θ). Supporremo che sia L(θ) che LT (θ) verifichino le ipotesi necessarie per poter definire l’informazione di Fisher; le informazioni dei due modelli (Ω, F, {P θ , θ ∈ Θ}) e (E, E, {Qθ , θ ∈ Θ}) saranno indicate con I(θ) e IT (θ) rispettivamente. 39

Sappiamo che una statistica libera non d`a alcuna informazione sul parametro, mentre all’opposto una statistica esaustiva conserva tutta l’informazione del modello. (6.13) Proposizione. (a)Se T `e una statistica libera, allora IT (θ) = 0 per ogni θ. (b) Viceversa, se IT (θ) = 0 per ogni θ e θ 7→ ∇LT (θ) `e continua, allora T `e libera. Dimostrazione. (a) T `e libera se T (P θ ) = Qθ non dipende da θ. Dunque neppure LT (θ) = dipende da θ (e di conseguenza ∇ log LT (θ) = 0).

dQθ dν

(b) Indicando con X : (E, E) → (E, E) l’applicazione identica X(x) = x, osserviamo che IT (θ) `e la matrice di covarianza del vettore aleatorio centrato ∇ log LT (θ, X). Dunque, se essa `e identicamente nulla, allora, per ogni θ, il vettore ∇ log LT (θ, X) `e Qθ − quasi certamente nullo. In altre parole, per ogni θ ∈ Θ, esiste un evento Nθ ∈ E con Qθ (Nθ ) = 0 e tale che, per ogni x 6∈ Nθ si ha ∇LT (θ, x) = 0. Osserviamo che, poich´e ogni θ ∈ Θ. Infatti

dQθ dν (x)

= LT (θ, x) > 0 per ogni θ e per ogni x, si ha anche ν(Nθ ) = 0 per

Z ν(Nθ ) =

Z dν =





dν dQθ = dQθ

Z Nθ

1 dQθ = 0, LT (θ)

perch´e l’integrale `e fatto su un insieme trascurabile rispetto a Qθ . Sia D ⊆ Θ un sottoinsieme numerabile e denso in Θ, e poniamo [ N= Nθ . θ∈D

Allora ν(N ) = 0. Sia x 6∈ N ; allora x 6∈ Nθ per ogni θ ∈ D e quindi ∇LT (θ, x) = 0,

sempre per ogni θ ∈ D.

Per ogni θ0 ∈ Θ, esiste una successione (θn ) di elementi di D, tali che θn → θ0 . Passando allora al limite nella relazione precedente, per la continuit`a di θ 7→ ∇LT (θ) si ottiene ∇LT (θo , x) = lim ∇LT (θn , x) = 0. n→∞

θ

Dunque LT (θ, x) = dQ e costante rispetto a θ, e di conseguenza anche Qθ = T (P θ ) lo `e: per ogni dν ` A ∈ E abbiamo infatti Z Z dQθ θ θ dν. Q (A) = dQ = A A dν Ci`o significa che T `e libera. (6.14) Proposizione. Si ha la relazione £ ¤ E θ ∇ log L(θ)|T = ∇ log LT (θ, T ) 40

Dimostrazione. Il secondo membro dell’uguaglianza nell’enunciato `e chiaramente T −misurabile, quindi basta vedere che, per ogni B ∈ F ,del tipo B = T −1 (A) = {T ∈ A} (con A ∈ E), e per ogni i si ha Z Z ∂ log L(θ, ω) θ ∂ log LT (θ, T (ω)) θ dP (ω) = dP (ω). ∂θ ∂θi i B B Si ha Z Z ∂L(θ, ω) dµ ∂ log L(θ, ω) θ ∂L(θ, ω) 1 θ dP (ω) = · dP (ω) = · dP θ (ω) ∂θ ∂θ L(θ, ω) ∂θi dP θ i i B B B Z Z Z ∂L(θ, ω) ∂ ∂ dP θ ∂ θ ∂ θ dµ = = dµ = L(θ, ω)dµ(ω) = P (B) = Q (A). ∂θi ∂θi B ∂θi B dµ ∂θi ∂θi B

Z

Ripercorrendo al contrario le relazioni precedenti (con Qθ , ν, A e LT (θ) al posto di P θ , µ, B e L(θ) ripettivamente) e utilizzando la definizione di misura immagine (Qθ = T (P θ )) si perviene all’uguaglianza Z Z ∂ θ ∂ log LT (θ, x) θ ∂ log LT (θ, T ) θ Q (A) = dQ (x) = dP . ∂θi ∂θ ∂θi i A B (6.15) Proposizione. Per ogni θ ∈ Θ si ha IT (θ) ≤ I(θ), nel senso che la matrice I(θ) − IT (θ) `e semidefinita positiva. Dimostrazione. Per il lemma precedente, per ogni u ∈ Rk si ha n £ h i ¤o2 h∇ log LT (θ, T ), ui2 = E θ h∇ log L(θ), ui|T ≤ E θ h∇ log L(θ), ui2 |T (dove la diseguaglianza segue dalla propriet`a generale delle speranze condizionali E 2 [X|Y ] ≤ E[X 2 |Y ]. Sappiamo (oss. (6.4)) che se X `e un vettore aleatorio centrato a valori in Rk , si ha E[hX, ui2 ] = ut (CovX)u. Dunque Passando allora in entrambi i membri alla speranza rispetto a P θ , si trova ut {Cov(∇ log LT (θ, T ))}u ≤ ut {Cov(∇ log L(θ, X))}u, e cio`e, per ogni u ∈ Rk ,

ut IT (θ)u ≤ ut I(θ)u,

che `e la tesi. 41

(6.16) Teorema. Se T `e esaustiva, allora I(θ) = IT (θ) per ogni θ ∈ Θ. Dimostrazione. Si pu`o supporre che µ sia una dominante privilegiata. In tal caso il teorema di Neymann–Fisher ci dice che la verosimiglianza si scrive nella forma L(θ, ω) = g θ , T (ω)). Questo implica che la verosimiglianza nel modello immagine (rispetto alla misura dominante ν = T (µ)) ha la forma LT (θ, t) = g θ (t). Infatti, per ogni A ∈ E si ha Z Z Z Z θ θ θ θ Q (A) = P (T ∈ A) = 1A (T )dP = 1A (T )L(θ) dµ = 1A (T )g (T ) dµ = 1A (t)g θ (t) dν Ω Ω Ω E Z = g θ (t) dν, A

per il teorema di integrazione rispetto alla legge immagine. Dunque, per ogni i, j = 1, 2, . . . k si ha I(θ)i,j = E θ Z =

h ∂ i Z ∂ ¡ ¢ ∂ ∂ log L(θ) · log L(θ) = log g θ (T ) · log g θ (T ) · g θ (T ) dµ ∂θi ∂θj ∂θi ∂θj | {z } =L(θ)dµ=dP θ

∂ ∂ log g θ (t) · log g θ (t) · ∂θi ∂θj

¡ θ g (t) dν(t)) {z } |

.

= IT ()θi,j

=LT (θ)dν(t)=dQθ (t)

Il viceversa di questo risultato ha bisogno di qualche ipotesi supplementare. Precisamente (6.17) Teorema. Se θ 7→ L(θ) e θ 7→ LT θ) sono continue e I(θ) = IT (θ) per ogni θ ∈ Θ, allora T `e esaustiva. Dimostrazione. Dire che I(θ) = IT (θ), significa dire che, per ogni u e per ogni θ, la speranza rispetto a P θ di h i n £ ¤o2 E θ h∇ log L(θ), ui2 |T − E θ h∇ log L(θ), ui|T `e nulla; ma dato che questa quantit`a `e sempre non negativa (per la prima relazione della dimostrazione precedente), si deduce che h i n £ ¤o2 E θ h∇ log L(θ), ui2 |T = E θ h∇ log L(θ), ui|T P θ −quasi certamente, per ogni u e per ogni θ. Vale la 42

Proposizione (reciproca della disuguaglianza di Jensen). Sullo spazio (Ω, F, P ) sia X un vettore aleatorio integrabile a valori in Rd e B una sottotrib` u di F. Sia φ una funzione strettamente convessa definita su Rd e a valori in R. Se accade che ¡ ¢ E[φ(X)|B] = φ E[X|B] , allora 1B X `e B− misurabile per ogni B ∈ B. Applicando questa proposizione si trova che, per ogni u e per ogni θ, la v. a. ω 7→ 1B h∇ log L(θ, ω), ui `e σ(T )−misurabile per ogni B ∈ σ(T ). Dunque, indicando con X la v.a. identica su Ω, si ha £ ¤ 1B h∇ log L(θ, X), ui = E θ 1B h∇ log L(θ, X), ui|T £ ¤ = 1B E θ h∇ log L(θ, X), ui|T ] = 1B h∇ log LT (θ, T ), ui, (dove nell’ultima uguaglianza si `e applicata la proposizione (6.14)). L’uguaglianza ottenuta, applicata a B = Ω, dice allora che h∇ log L(θ, X), ui = h∇ log LT (θ, T ), ui, P θ −quasi certamente. In altre parole, per ogni θ e per ogni u, esiste un evento Nθ,u ∈ F con P θ (Nθ,u ) = 0 tale che, per ogni ω 6∈∈ Nθ,u , si ha h∇ log L(θ, ω), ui = h∇ log LT (θ, T (ω)), ui. Procedendo come nella dimostrazione della proposizione (6.13), si arriva a trovare un evento Nu ∈ F, con µ(Nu ) = 0, tale che, per ogni ω 6∈ Nu , e per ogni θ h∇ log L(θ, ω), ui = h∇ log LT (θ, T (ω)), ui. A questo punto, fissata una base u1 , . . . uk di Rk , e posto N = ∪ki=1 Nui si ha che µ(N ) = 0 e per ogni ω 6∈ N , la relazione precedente vale per ogni u ∈ Rk , e di conseguenza si ha l’uguaglianza ∇ log L(θ, ω) = ∇ log LT (θ, T (ω)). Integrando, si trova che, per ogni ω 6∈ N e per ogni θ risulta log L(θ, ω) = log LT (θ, T (ω)) + g(ω) e cio`e

L(θ, ω) = LT (θ, T (ω)) · eg(ω) .

La conclusione segue allora dal Teorema di fattorizzazione. (6.18) Esempi. (a) Sia (X1 , . . . , Xn ) un campione di legge N (m, 1), e sia T = X (media campionaria). Il modello statistico di partenza `e ¡ n ¢ R , B(Rn ), {P m , m ∈ R} , 43

con P m = Nn (m, In ) (m =t (m, . . . , m), In matrice identit`a n × n); dall’esempio (6.10) (a) segue che che I(θ) = σn2 = n; dato che la legge di X `e N (m, n1 ), il modello di arrivo `e ¡ ¢ R, B(R), {Qm , m ∈ R} , con Qm = N (m, n1 ), e quindi, sempre dall’esempio(6.10) (a), si deduce che IT (θ) =

1 σ2

=

1

1 n

= n.

Dunque IT (θ) = I(θ), in accordo con il fatto che T = X `e esaustiva (a varianza costante). Pn (Xi −X)2 2 2 i=1 (b) Sia (X1 , . . . , Xn ) un campione di legge N (m, σ ), e sia T = S = (varianza n−1 campionaria). In questo caso `e θ = (m, σ 2 ). Il modello di partenza `e ¡ n ¢ R , B(Rn ), {P θ , θ ∈ R × R+ } , con P θ = Nn (m, σ 2 In ) (m =t (m, . . . , m), In matrice identit`a n × n). Vedremo in... che 1 ha legge χ2 (n − 1) = Γ( n−1 a `e 2 , 2 ), la cui densit` f (x) = Dunque P (T ≤ t) = P

1 2(n−1)/2 Γ( n−1 2 )

³ T (n − 1) σ2

x

n−3 2

T (n−1) σ2

x

e− 2 1R+ (x).

t(n − 1) ´ ≤ = σ2

Z

t(n−1) σ2

f (x) dx

−∞

e quindi ³ t(n − 1) ´ n − 1 ³ t(n − 1) ´ n−3 t(n−1) n−1 1 2 − 2σ 2 1 + (t) fT (t) = f · = · e R n−1 σ2 σ2 σ2 σ2 2(n−1)/2 Γ( 2 ) . ³ n − 1 ´ n−1 t(n−1) n−3 1 2 − 2 = (n−1)/2 n−1 t 2 e 2σ 1R+ (t) 2 Γ( 2 ) σ 2 2

Indicheremo la legge di T con il simbolo Qσ (= σ 2 .χ2 (n − 1)). Il modello di arrivo `e Abbiamo gi`a visto che I(σ 2 ) =

¡

¢ 2 R+ , B(R+ ), {Qσ , σ 2 ∈ R+ } .

n 2σ 4 ;

calcoliamo ora IT (σ 2 ). Si ha

LT (θ, t) = LT (σ 2 , t) = Dunque log LT (σ 2 , t) = c +

³n − 1´ 1 σ2 2(n−1)/2 Γ( n−1 2 )

n−1 2

t

n−3 2

e−

t(n−1) 2σ 2

.

n−1 n−1 n−3 (n − 1)t log + log t − . 2 σ2 2 2σ 2

Derivando ∂ n−1 σ2 n − 1 (n − 1)t n − 1 (n − 1)t 2 log L (σ , t) = − · · + =− + . T 2 4 4 ∂σ 2 n−1 σ 2σ 2σ 2 2σ 4 44

Derivando ancora

∂2 n − 1 (n − 1)t log LT (σ 2 , t) = + − . ∂(σ 2 )2 2σ 4 σ6

Quindi IT (σ 2 ) = −E σ

2

hn − 1 2σ 4

Come abbiamo detto,



h i (n − 1)T i 1 σ2 h (n − 1)T i n−1 n−1 σ 2 (n − 1)T + E + E = − = − . σ6 2σ 4 σ6 2σ 4 σ4 σ2

T (n−1) σ2

ha legge χ2 (n − 1), e quindi media n − 1. Per concludere, si trova IT (σ 2 ) =

n−1 n < = I(m, σ 2 ); 2σ 4 2σ 4

dunque T non `e esaustiva per σ 2 . Facciamo ora qualche richiamo di algebra lineare. Sia A una matrice n × n simmetrica; si dice che A `e semi–definita positiva (A ≥ 0) se, per ogni x ∈ Rn , hAx, xi ≥ 0; si dice che A `e definita positiva (A > 0) se, per ogni x ∈ Rn , con x 6= 0, hAx, xi > 0. ` noto che A `e definita positiva se e solo se A `e semi–definita positiva e invertibile. Nel seguito ci E serviranno due risultati di algebra lineare: (6.19) Lemma. Sia A una matrice n × n simmetrica semidefinita positiva; allora esiste una matrice B n × n simmetrica tale che A = B tB = B 2 . Inoltre, se A `e invertibile, anche B `e invertibile. Dimostrazione. Dato che A `e semidefinita positiva, i suoi autovalori λ1 , . . . , λn sono tutti non ` noto che, posto negativi. E   λ1 0 . . . 0  0 λ2 . . . 0  K= , .. ..   ... . .  0 0 . . . λn esiste una matrice ortogonale O tale che A = OK tO. Poniamo  √ λ1 √0 ... 0 λ2 . . . 0   0 H= .. ..    .. . . √. 0 0 ... λn ¡ ¢ e B = OH tO. B risponde alla questione. Infatti tB =t OH tO = OH tO = B ed inoltre B 2 = ¡ ¢¡ ¢ ¡t ¢ OH tO OH tO = OH OO H tO = OH 2 tO = OK tO = A. La seconda affermazione `e ovvia, perch´e se A `e invertibile, allora `e definita positiva e quindi tutti i suoi autovalori sono strettamente positivi, dunque anche H `e invertibile. (6.20) Lemma. Siano a ∈ Rn , con a 6= 0, A una matrice n × n simmetrica e definita positiva, e sia A−1 la sua matrice inversa; allora sup x∈Rn

hx, ai2 hx, ai2 = maxn = hA−1 a, ai. hAx, xi x∈R hAx, xi 45

Dimostrazione. Dal Lemma precedente sappiamo che esiste una matrice B n × n simmetrica e invertibile tale che A = B 2 , dunque, per ogni x ∈ Rn , esiste uno e un solo y ∈ Rn tale che x = B −1 y; in particolare poniamo b = B −1 a. Allora, poich´e B −1 `e simmetrica e AB −1 = B, si ha ³ |hy, bi| ´2 hB −1 y, ai2 hy, B −1 ai2 hy, B −1 ai2 hy, bi2 hx, ai2 = = = = = . hAx, xi hAB −1 y, B −1 yi hBy, B −1 yi hy, BB −1 yi ||y||2 ||y|| ` ben noto che la funzione y 7→ |hy,bi| assume il suo massimo per y = E ||y|| ||b||. Pertanto il massimo del suo quadrato vale

b ||b||

e che tale massimo vale

¡ ¢2 ¡ ¢−1 ||b||2 = hB −1 a, B −1 ai = h B −1 a, ai = h B 2 a, ai = hA−1 a, ai.

(6.21) Teorema. In aggiunta alle ipotesi fatte finora, supponiamo che I(θ) sia invertibile. Allora, per ogni v. a. Y (di quadrato integrabile secondo P ) si ha ¡ ¢ ¡ ¢ V arθ (Y ) ≥ hI(θ)−1 ∇E θ [Y ] , ∇E θ [Y ] i.

Dimostrazione. Non `e restrittivo supporre che la funzione θ 7→ E θ [Y ] non sia costante (in tal caso la tesi del teorema `e ovvia). Si ha (passando la derivata dentro la speranza) Z ¡ ¢ ¡ ¢ ∇E θ [Y ] = ∇E[L(θ)Y ] = E[∇ L(θ) Y ] = ∇ L(θ) Y dP Ω Z Z ¡ ¢ dP ¡ ¢ ¡ ¢ 1 θ = ∇ L(θ) Y dP = ∇ L(θ) Y dP θ = E θ [∇ log L(θ) · Y ] θ dP L(θ) Ω Ω ¡ ¢ ¡ ¢ θ θ = E [∇ log L(θ) · Y − E [Y ] ], ¡ ¢ ¡ ¢ ricordando che il vettore ∇ log L(θ) `e centrato rispetto a ogni P θ e quindi E θ [∇ log L(θ) · E θ [Y ]] = 0. Moltiplicando scalarmente per x ∈ Rk il primo e ultimo termine della relazione precedente, si ottiene allora ¡ ¢ ¡ ¢ hx, ∇E θ [Y ]i = E θ [hx, ∇ log L(θ) i · Y − E θ [Y ] ], e, per la diseguaglianza di Schwartz, ¡ ¢ hx, ∇E θ [Y ]i2 ≤ V arθ (Y ) · E θ [hx, ∇ log L(θ) i2 ]. Dato che ´2 X ³X ¡ ¢ ∂ ∂ ∂ log L(θ) = log L(θ) · log L(θ), hx, ∇ log L(θ) i2 = xi xj xi ∂θ ∂θ ∂θ i i j i,j i 46

passando alla speranza rispetto a P θ si trova X ¡ ¢ E θ [hx, ∇ log L(θ) i2 ] = xi xj E θ i,j

e si conclude che

·

¸ X ∂ ∂ log L(θ) · log L(θ) = xi xj I(θ)i,j = hI(θ)x, xi ∂θi ∂θj i,j

hx, ∇E θ [Y ]i2 ≤ V arθ (Y ) · hI(θ)x, xi.

Dato che I(θ) `e definita positiva (in quanto I(θ) `e invertibile), la relazione precedente si pu`o scrivere anche nella forma hx, ∇E θ [Y ]i2 V arθ (Y ) ≥ , hI(θ)x, xi e questa disuguaglianza pu`o essere ottimizzata passando al sup in x ∈ Rk . Utilizzando il lemma (6.19) con A = I(θ) e a = ∇E θ [Y ] (che non `e il vettore nullo per l’ipotesi fatta su Y ), si ottiene la tesi. (6.22) Osservazione. Nel caso particolare in cui Θ `e un intervallo della retta, I(θ) si riduce al numero ·³ ´2 ¸ d θ I(θ) = E log L(θ) . dθ Sia Y uno stimatore di g(θ). Posto b(θ) = E θ [Y − g(θ)] (cio`e E θ [Y ] = b(θ) + g(θ)), si ha dal teorema ¡ 0 ¢2 £¡ ¢2 ¤ g (θ) + b0 (θ) θ 2 RY (θ) = E (Y − E [Y ]) − b(θ) = V arθ (Y ) + b (θ) ≥ + b2 (θ). I(θ) θ

L’errore quadratico di Y `e dunque minorato da un numero positivo, tanto pi` u piccolo quanto pi` u nell’intorno di θ l’informazione di Fisher `e grande. Questa osservazione spiega (in parte) quanto detto all’inizio di questo paragrafo. Le cose saranno pi` u chiare quando avremo introdotto l’informazione nel senso di Kullback (v.) L’importanza di questo teorema `e riposta nel corollario seguente. (6.23) Corollario (diseguaglianza di Cramer–Rao). Nelle ipotesi del Teorema precedente, sia Y uno stimatore corretto della funzione g(θ). Allora ¡ ¢ ¡ ¢ RY (θ) = V arθ (Y ) ≥ hI(θ)−1 ∇g(θ) , ∇g(θ) i. (6.24)Osservazione. Nel caso particolare in cui Θ `e un intervallo della retta e Y ∈ D2c , si ha dal corollario (e dall’oss. (6.22), in cui ora `e b = 0) ¡ 0 ¢2 g (θ) . RY (θ) ≥ I(θ) 47

La diseguaglianza di Cramer–Rao dice che uno stimatore corretto ha sempre un rischio non inferiore al termine a destra nella diseguaglianza, ed `e quindi naturale chiedersi se il confine inferiore posto da tale diseguaglianza sia raggiungibile. (6.25) Definizione. Si chiama efficace (efficient in inglese) uno stimatore Y ∈ D2c della funzione g(θ) il cui rischio uguaglia il confine inferiore posto dalla diseguaglianza di Cramer–Rao. (6.26) Esempio. Consideriamo un modello esponenziale con Θ ⊆ R e verosimiglianza della forma ¡ ¢ L(θ) = exp θT − ψ(θ) . Ricordando la proposizione (5.10) si ha I(θ) = E θ

·³

´2 ¸ £¡ ¢2 ¤ £¡ ¢2 ¤ d = E θ T − ψ 0 (θ) log L(θ) = E θ T − E θ [T ] = V arθ (T ) = ψ 00 (θ). dθ

Siccome T `e uno stimatore corretto di g(θ) = ψ 0 (θ), proviamo a vedere se si tratta di uno stimatore efficace. Il confine di Cramer–Rao `e ¡

¢2 ¡ 00 ¢2 g 0 (θ) ψ (θ) = = ψ 00 (θ) = V arθ (T ) = RT (θ). I(θ) ψ 00 (θ)

Dunque T `e uno stimatore efficace di ψ 0 (θ). ¡ ¢ Considerando pi` u in generale un modello esponenziale con L(θ) = exp hθ, T i − ψ(θ) , con θ ∈ Θ aperto di Rk , con passaggi analoghi (che richiedono qualche calcolo di algebra lineare) si prova facilmente che ¡ ¢ (a) la matrice di informazione I(θ) = I(θ)i,j `e data da I(θ)i,j =

∂2ψ (θ); ∂θi ∂θj

∂ψ (b) per ogni i = 1, . . . , k, Ti `e uno stimatore efficace di ∂θ (θ). Se vogliamo parlare in termini i vettoriali, questo fatto si enuncia dicendo che T `e uno stimatore efficace di ∇ψ(θ).

¡ θ (6.27) Esercizio. Sia µθ una famiglia esponenziale su R (significa: dµ dµ (x) = exp hθ, T (x)i − ¢ ψ(θ) ), e si consideri un campione di taglia n e legge µθ . Provare che, al variare di n, il confine inferiore della diseguaglianza di Cramer–Rao decresce come n1 . (6.28) Esercizio. Si consideri un campione di taglia n e legge esponenziale di parametro θ, con 0 < θ < ∞. Provare che non esiste una stima efficace di θ. Pn (Suggerimento: ricordando che i=1 Xi `e una statistica esaustiva completa e che, sotto P θ , ha n−1 legge Γ(n, θ), verificare che Pn X `e uno stimatore corretto (e quindi ottimale nella classe Dc2 ) di θ, che per`o non `e efficace).

i=1

i

7. Informazione di Kullback. 48

Il significato dell’informazione di Fisher si comprende meglio se si introduce un altro concetto di informazione, proposto da Kullback. ¡ ¢ Sia Ω, F, {P θ , θ ∈ Θ} un modello statistico dominato dalla misura µ. Supponiamo che il vero valore di θ sia θ1 ; ci domandiamo in quale misura il modello ci permette di distinguere θ1 da un altro valore θ2 . Consideriamo i due casi estremi (i) L(θ1 , ω) = L(θ2 , ω) per ogni ω ∈ Ω; `e chiaro che in questo caso il risultato ω dell’esperimento non permette di fare alcuna distinzione fra θ1 e θ2 . (ii) L(θ1 , ω) > 0 su (a1 , b1 ), L(θ2 , ω) > 0 su (a2 , b2 ), con (a1 , b1 ) ∩ (a2 , b2 ) = ∅. Dato che ω cade quasi certamente in (a1 , b1 ), possiamo identificare θ1 con certezza (essendo (a1 , b1 ) disgiunto da (a2 , b2 )). Ma naturalmente in generale ci troviamo in una situazione intermedia tra (i) e (ii): in qualche caso l’identificazione non `e proprio possibile, come mostra la figura: Invece, in una situazione come quella della figura sottostante, se il risultato dell’esperimento cade tra a1 e a2 , possiamo di nuovo identificare θ1 . (7.1)Definizione. Il potere discriminante tra θ1 e θ2 da assegnare al risultato ω `e la quantit`a i(θ1 /θ2 )(ω) = log

L(θ1 , ω) , L(θ2 , ω)

definita su {ω : L(θ1 , ω) > 0} ∪ {ω : L(θ2 , ω) > 0} e con la convenzione che log 0 = −∞, log(c/0) = +∞. (7.2)Osservazione. Se siamo nella situazione di perfetta discriminazione, (caso (ii)) allora la quantit`a precedente vale +∞; se invece non `e possibile distinguere (caso (i)) allora essa vale 0. Inoltre, per i risultati ω per i quali si ha L(θ2 , ω) > L(θ1 , ω), i(θ1 /θ2 )(ω) `e negativo: questo `e naturale se si interpreta L(θ1 , ω) come le probabilit`a di ottenere il risultato ω se il valore del parametro `e θ1 , e L(θ2 , ω) analogamente: se la probabilit`a di ottenere ω con il parametro θ1 `e pi` u bassa della probabilit`a di ottenere ω con il parametro θ2 , saremo inclini a decidere in favore di θ2 . Il potere discriminante dipende ovviamente da ω. Quindi, se vogliamo poterlo usare come una misura della discriminazione possibile tra θ1 e θ2 , occorre effettuare una media. Si d`a dunque la (7.3)Definizione. Si chiama informazione di Kullback di θ1 contro θ2 la quantit`a h £ ¤ L(θ1 ) i I(θ1 /θ2 ) = E θ1 i(θ1 /θ2 ) = E θ1 log . L(θ2 ) ` ovviamente necessario verificare che la speranza che compare nella definizione ha senso. E (7.4) Teorema. I(θ1 /θ2 )ha senso per ogni coppia (θ1 , θ2 ). 49

1 ,ω) Dimostrazione. La variabile ω 7→ log L(θ e definita P θ1 – quasi ovunque. (L(θ1 , ω) > 0, P θ1 – L(θ2 ,ω) ` quasi ovunque essendo la densit`a della legge di X(ω) = ω rispetto alla misura dominante µ).

Esercizio (A). Sullo spazio (Ω, F, P ) sia Y una v.a. con media finita (E[|Y |] < +∞). Sia φ una funzione convessa. Allora E[φ(Y )− ] < +∞. Soluzione. Sia a un numero fissato. Poich´e φ `e convessa, per ogni y si ha φ(y)−φ(a) ≥ κ(a)(y−a), dove κ(a) `e un’opportuna costante. Dunque ¡ ¢ ¡ ¢ Φ(Y ) ≥ φ(a) − aκ(a) + κ(a)Y . Esercizio (B). (a) Siano u, v due numeri reali. Allora (u + v)− ≤ u− + v − . (b) Siano w e t due numeri reali. Allora (wt)− ≤ w− t+ + t− w+ . (Verifica per esercizio). Utilizzando queste due relazioni, si trova che h¡ ¢ ¡ ¢i− ¡ ¢− ¡ ¢− Φ(Y )− ≤ φ(a) − aκ(a) + κ(a)Y ≤ φ(a) − aκ(a) + κ(a)Y ¡ ¢− ≤ φ(a) − aκ(a) + κ(a)− Y + + κ(a)+ Y − , e si conclude passando alla speranza. Torniamo alla dimostrazione del teorema. Applichiamo l’esercizio (A) alla funzione convessa x 7→ L(θ2 ,ω) − log x e alla variabile Y (ω) = L(θ , osservando che 1 ,ω) Z E1θ [Y

]= Ω

L(θ2 , ω) θ1 dP (ω) = L(θ1 , ω)

Z Ω

L(θ2 , ω) dP θ1 (ω) dµ = L(θ1 , ω) dµ | {z } =L(θ1 ,ω)

Troviamo che E θ1 h da cui segue che E θ1 log

h³ log

L(θ1 ) L(θ2 )

Z Ω

Z L(θ2 , ω) dµ = | {z } =

dP θ2 = 1. Ω

dP θ2 (ω) dµ

h³ L(θ1 ) ´− i L(θ2 ) ´− i = E θ1 − log < +∞, L(θ2 ) L(θ1 )

i ha senso (eventualmente uguale a +∞).

(7.5) Esempi. (a) Sia (R, B(R), P θ , θ > 0) il modello statistico con P θ = Πθ (con misura dominante µ= misura che conta i punti di N). Calcolare I(θ1 /θ2 ). 50

Soluzione. Per k ∈ N si ha

L(θ1 , k) ³ θ1 ´k −(θ1 −θ2 ) = e , L(θ2 , k) θ2

quindi log

³θ ´ L(θ1 , k) 1 = k log − θ1 + θ2 , L(θ2 , k) θ2

e, integrando rispetto a P θ1 , si trova I(θ1 /θ2 ) = log

³θ ´ 1

θ2

E θ1 [X] − θ1 + θ2 = θ1 log

³θ ´ 1

θ2

− θ1 + θ2 .

¡ ¢ (b) Pi` u in generale, supponiamo di avere il modello esponenziale Ω, F, {P θ , θ ∈ Θ} con verosimiglianza ¡ ¢ L(θ, ω) = C(θ) exp hθ, T (ω)i . Allora log

n C(θ ) ¡ ¢o L(θ1 , ω) 1 = log exp hθ1 − θ2 , T (ω)i = log C(θ1 ) − log C(θ2 ) + hθ1 − θ2 , T (ω)i, L(θ2 , ω) C(θ2 )

e integrando rispetto a P θ1 si trova Z

¡ ¢ hθ1 − θ2 , T (ω)iC(θ1 ) exp hθ1 , T (ω)i dµ(ω) Z ¡ ¢ = log C(θ1 ) − log C(θ2 ) + C(θ1 )hθ1 − θ2 , T (ω) exp hθ1 , T (ω)i dµ(ω)i

I(θ1 /θ2 ) = log C(θ1 ) − log C(θ2 ) +

(7.6) Teorema Per ogni coppia (θ1 , θ2 ) si ha I(θ1 /θ2 ) ≥ 0; inoltre I(θ1 /θ2 ) = 0 se e solo se P θ1 = P θ2 . Dimostrazione. Per la disuguaglianza di Jensen si ha h h L(θ ) i L(θ2 ) i 2 I(θ1 /θ2 ) = E θ1 − log ≥ − log E θ1 = − log 1 = 0. L(θ1 ) L(θ1 ) Inoltre, per l’inversa della disuguaglianza di Jensen, (v. dimostrazione di (6.15)) , nella relazione precedente vale l’uguaglianza se e solo se la funzione integranda `e P θ1 −q.c. costante, cio`e se esiste un evento N ∈ F con P θ1 (N ) = 0 e tal che, per ogni ω ∈ N , si ha L(θ2 , ω) = c, L(θ1 , ω) e poich´e c = E θ1

h L(θ ) i 2 = 1, L(θ1 ) 51

si ottiene L(θ2 , ω) = L(θ1 , ω) per ω ∈ N c , da cui Z Z P θ2 (N c ) = L(θ2 ) dµ = Nc

Nc

L(θ1 ) dµ = P θ1 (N c ) = 1.

Pertanto, per ogni A ∈ F si ha Z

Z P θ2 (A) = P θ2 (A ∩ N c ) + P θ2 (A ∩ N ) = {z } | θ1

c

=0 c

θ1

A∩N c

L(θ2 ) dµ =

A∩N c

L(θ1 ) dµ

= P (A ∩ N ) = P (A ∩ N ) + P θ1 (A ∩ N ) = P θ1 (A). | {z } =0

Vediamo ora che relazione c’`e tra l’informazione di Fisher e quella di Kullback. (7.7) Teorema. Sotto le ipotesi necessarie affinch´e sia possibile definire l’informazion di Fisher, e se la funzione θ 7→ I(θ1 /θ) `e due volte derivabile sotto il segno di integrale, si ha ∂ 2 I(θ1 /θ) ¯¯ . ¯ ∂θi ∂θj θ=θ1

I(θ1 )i,j =

Dimostrazione. Derivando l’espressione Z I(θ1 /θ) = si trova

log

L(θ1 ) L(θ1 ) dµ L(θ)

Z ∇I(θ1 /θ) =

e derivando ancora ∂ 2 I(θ1 /θ) = ∂θi ∂θj

−∇ log L(θ)L(θ1 ) dµ,

Z h ∂L(θ) ∂L(θ) ∂θi

∂θj

L2 (θ)



∂ 2 L(θ) ∂θi ∂θj

L(θ)

i L(θ1 ) dµ,

e calcolando per θ = θ1 , si ha Z ∂L(θ) ∂L(θ) Z ¯ ∂ 2 I(θ1 /θ) ¯¯ ∂θi ∂θj ¯ L(θ1 ) dµ¯ = = ¯ ∂θi ∂θj θ=θ1 L2 (θ) θ=θ1 h Z ∂L(θ) ∂L(θ) i¯ ∂θi ∂θj ¯ = E θ1 = I(θ1 ), ¯ L2 (θ) θ=θ1

∂L(θ) ∂L(θ) ∂θi ∂θj 2 L (θ)

¯ ¯ dP θ1 ¯

θ=θ1

osservando che Z

∂ 2 L(θ1 ) ∂θi ∂θj

L(θ1 )

Z L(θ1 ) dµ =

∂2 ∂ 2 L(θ1 ) dµ = ∂θi ∂θj ∂θi ∂θj 52

Z L(θ1 ) dµ =

∂2 1 = 0. ∂θi ∂θj

` facile vedere che ∇I(θ1 /θ1 ) = 0. Infatti, come abbiamo visto nella (7.8) Osservazione. (a) E dimostrazione precedente, Z Z ¯ ¯ ¯ 1 ¯ ¯ L(θ1 ) dµ = ∇L(θ)¯θ=θ1 dµ − ∇I(θ1 /θ1 ) = ∇ log L(θ) θ=θ1 L(θ1 ) dµ = ∇L(θ) θ=θ1 · L(θ1 ) nZ nZ o¯ o¯ ¯ ¯ =∇ dP θ ¯ = ∇1 = 0. =∇ L(θ) dµ ¯ Z

θ=θ1

θ=θ1

Questo fatto `e naturale, perch´e, come abbiamo visto, I(θ1 /θ) ≥ 0 per ogni θ e I(θ1 /θ1 ) = 0. Dunque θ1 `e punto di minimo per la funzione θ 7→ I(θ1 /θ). (b) Dal teorema appena dimostrato si deduce che l’hessiano di θ 7→ I(θ1 /θ), calcolato in θ1 , `e semidefinito positivo (in quanto uguale a I(θ1 ), che `e una matrice di covarianza). Anche questo `e naturale, per gli stessi motivi del punto (a). (c)Il teorema precedente permette di precisare l’affermazione (fatta all’inizio del paragrafo 6) che l’informazione di Fisher serva per descrivere la variazione “locale”delle leggi P θ . Per semplicit`a supponiamo che il parametro θ sia unidimensionale; ricordiamo da (b) che I(θ1 )`e la derivata seconda di θ 7→ I(θ1 /θ), calcolata in θ1 ), e quindi approssimando al secondo ordine si ha I(θ1 /θ) ≈ I(θ1 /θ1 ) +

¯ ¯ d 1 d2 1 ¯ ¯ I(θ1 /θ)¯ I(θ /θ) (θ − θ1 ) + (θ − θ1 )2 = I(θ1 )(θ − θ1 )2 . ¯ 1 dθ 2 dθ2 2 θ=θ1 θ=θ1

Dunque pi` u I(θ1 ) `e vicino a 0 e pi` u il grafico di θ 7→ I(θ1 /θ) “piatto”nell’intorno di θ1 , ed `e quindi difficile discriminare tra il vero valore θ1 e i valori di θ nel suo intorno. La situazione `e ovviamente inversa per valori grandi di I(θ1 ) (ved. figure). 8. Stimatori di massima verosimiglianza.

Il metodo della massima verosimiglianza `e largamente usato in statistica per la sua presentazione intuitiva e soprattutto per la sua semplicit`a ; tuttavia le giustificazioni rigorose sono solo asintotiche, e pertanto dovrebbe essere usato solo quando si dispone di campioni molto numerosi. Esempio introduttivo. Una moneta d`a testa con probabilit`a θ. Il valore di θ non `e noto; si sa per`o che esso che `e uguale a 1/1000 oppure a 999/1000. Un tizio, che deve stabilire quale di questi due valori `e quello giusto, decide di effettuare 100 lanci della moneta, e ottiene in ciascun lancio la faccia testa. A questo punto, come `e facile capire, egli `e propenso a credere che la probabilit`a che la moneta dia testa `e 999/1000. Ritiene infatti che il risultato ottenuto (100 volte testa in 100 estrazioni) potrebbe s`ı verificarsi anche nell’altro caso , ma con una probabilit`a inferiore. Cerchiamo di formalizzare la situazione. Indichiamo con X il risultato di un generico lancio: n X=

1 0

se la moneta d`a testa se la moneta d`a croce. 53

Allora i 100 lanci effettuati costituiscono un campione di 100 osservazioni del fenomeno, che indicheremo, come sempre, con (X1 , . . . , X100 ). Sulla legge di ogni Xi l’informazione `e la seguente: ½ ¾ 1 999 Xi ∼ B(1, θ), con θ ∈ Θ = , . 1000 1000 Allora la probabilit`a di ottenere 100 volte testa in 100 lanci `e  1 100  ( 1000 ) P θ (X1 = 1, X2 = 1, . . . , X100 = 1) = θ100 =  999 100 ( 1000 )

se θ =

1 1000 ,

se θ =

999 1000

.

Il tizio ha dunque deciso di considerare vero il valore di θ per il quale il risultato effettivamente osservato `e il pi` u probabile. In altre parole, egli ha calcolato max P θ (X1 = 1, X2 = 1, . . . , X100 = 1) = max θ100 , θ∈Θ

θ∈Θ

ed ha deciso per il valore del parametro in cui tale massimo `e raggiunto, cio`e per il punto di massimo della funzione θ 7→ P θ (X1 = 1, X2 = 1, . . . , X100 = 1) = L(θ; 1, . . . , 1) = θ100 . Pi` u in generale, se egli avesse ottenuto il risultato ω = (ω1 , . . . , ωn ), la sua decisione sarebbe stata quella di prendere come vero valore del parametro parametro il punto di massimo della funzione θ 7→ L(θ; ω), che ovviamente dipende da ω. Passiamo alla formalizzazione matematica. Consideriamo un modello statistico (Ω, F, (P θ , θ ∈ Θ)) dominato dalla misura µ. Per il momento supporremo che Θ sia un intervallo della retta (in senso lato, cio`e eventualmente non limitato). Supponiamo assegnata una scelta della verosimiglianza θ L(θ, ω) = dP e una rappresentante nella classe di equivalenza delle dµ (ω) (nel senso che L(θ, ·) ` θ densit`a di P rispetto a µ). (8.1) Definizione. Sia U : Ω → R uno stimatore del parametro θ. Si dice che U `e uno stimatore di massima verosimiglianza se, per ogni ω ∈ Ω, si ha L(U (ω), ω) = sup L(θ, ω). θ∈Θ

(ovviamente questo estremo superiore sar`a un massimo se viene assunto in qualche punto θ0 ). In generale non `e affatto detto che un tale stimatore esista, oppure che sia univocamente determinato; tuttavia, quando esiste, generalmente `e facile calcolarlo, e si usa denotarlo con il simbolo ˆ ˆ Se la funzione θ(ω). Normalmente la specificazione di ω viene omessa, e si scrive pi` u brevemente θ. ˆ θ 7→ L(θ, ω) (a ω fissato) `e differenziabile, θ verifica l’equazione ¯ d ¯ L(θ, ω)¯ =0 ˆ dθ θ=θ(ω) 54

(attenzione: questa `e naturalmente una condizione solo necessaria). (8.2) Esempio. Sia µθ una famiglia di misure di probabilit`a su R, dominata dalla misura µ. θ Sia dµ a, e consideriamo un campione di taglia n e legge µθ . La dµ = f (θ, x) la (una) densit` Qn verosimiglianza (rispetto alla misura µ⊗n ) `e L(θ; x1 , . . . , xn ) = i=1 f (θ, xi ) e l’equazione diventa n ´¯ d ³Y ¯ = 0. f (θ, xi ) ¯ ˆ dθ i=1 θ=θ(ω)

Ovviamente `e inutile cercare il massimo di questa funzione per gli (x1 , . . . , xn ) nei quali essa vale 0. D’altra parte, se x appartiene all’insieme {x = (x1 , . . . , xn ) : f (x, θ) > 0}, `e pi` u comodo (ma equivalente!) cercare il massimo della funzione log L(·, x) (= log L(·, ω)) e l’equazione diventa n ¯ X d ¯ log f (θ, xi )¯ = 0. ˆ dθ θ=θ(ω) i=1

L’equazione sopra scritta si chiama equazione di massima verosimiglianza. (8.3) Esempio. Consideriamo un campione di legge esponenziale di parametro θ, con θ > 0. Allora ½ −θx per x > 0 f (θ, x) = θe 0 altrove. Dunque la verosimiglianza `e ½ L(θ; x1 , . . . , xn ) =

θn e−θ(x1 +···xn ) 0

se xi > 0, ∀i altrove.

L’equazione di massima verosimiglianza `e n ³ X 1 i=1

e cio`e

θ

´ − xi = 0, n

n X − xi = 0, θ i=1

che ha la (unica) soluzione θ = Pnn i=1

xi

; si verifica poi facilmente che si tratta effettivamente di un

punto di massimo, e quindi lo stimatore di massima verosimiglianza di θ `e n θˆ = Pn . i=1 Xi Pn Vediamo se θˆ `e uno stimatore corretto di θ; sotto P θ , la v. a. i=1 Xi ha legge Γ(n, θ). Dunque · ¸ Z +∞ Z +∞ n n 1 n n−1 −θx nθ E Pn = θ x e dx = (θx)n−2 e−θx (θdx) Γ(n) x Γ(n) X i 0 0 i=1 Z +∞ nθ nθ nθ = y n−2 e−y dy = Γ(n − 1) = ; Γ(n) 0 Γ(n) n−1 55

si deduce che θˆ non `e corretto (lo `e solo asintoticamente, cio`e per n che tende a ∞), mentre `e corretto lo stimatore di θ n−1 Pn . i=1 Xi Pn Sappiamo (dalla teoria dei modelli esponenziali) che T = i=1 Xi `e una statistica esaustiva completa. Dunque Pn−1 , essendo uno stimatore T −misurabile e corretto di θ, `e ottimale (per il n X i=1

i

Teorema di B–R). Osserviamo che i due stimatori che abbiamo trovato, cio`e θˆ e quello ottimale Pn−1 differiscono di poco. Questo succede molto spesso (nel caso di stimatori di massima n X i=1

i

verosimiglianza). (8.4) Esercizio. (a) Calcolare lo stimatore di massima verosimiglianza del parametro θ basandosi su un campione di taglia n e di legge di Poisson di parametro θ. (b) Calcolare lo stimatore di massima verosimiglianza del parametro θ > −1 basandosi su un campione di taglia n e di legge avente densit`a ½ θ f (θ; x) = (θ + 1)x per x ∈ [0, 1] 0 altrove.

Come abbiamo accennato all’inizio, per gli stimatori di massima verosimiglianza non si possono dare che dei risultati asintotici (cio`e per la taglia n del campione che tende a ∞). Bisogna allora costruire un modello statistico che idealizzi una successione infinita di esperimenti. Cominciamo con l’ammettere il risultato seguente di teoria della misura (`e un caso particolare del teorema di Ionescu–Tulcea): Q u (8.5) Teorema. Sia P una probabilit`a su (R, B(R). Esiste su RN = n∈N Rn , munito della trib` N prodotto n∈N B(Rn ) una e una sola probabilit`a (indicata usualmente con P ⊗N ) tale che, per ogni successione finita di boreliani A1 , . . . , Ak , risulti ¡ ¢ P ⊗N A1 × A2 × · · · × Ak × R × R · · · = P (A1 ) · . . . · P (Ak ). Quando RN `e munito di questa probabilit`a, le proiezioni canoniche Xi (ω) = Xi (x1 , . . . , xi , . . .) = xi sono indipendenti e tutte di legge P . Nei teoremi che seguiranno, considereremo una famiglia ³(µθ , θ ∈ Θ) di probabilit`a su ´R e un N campione infinito di legge µθ . Il modellostatistico sar`a RN , n∈N B(Rn ), (P θ , θ ∈ Θ) , dove P θ = (µθ )⊗N . Supporremo che le leggi µθ siano dominate da una misura µ, e porremo

dµθ dµ

= f (θ; x), e chiameremo successione di stime di massima verosimiglianza una successione di v. a. θˆn tali che, per ogni n, θˆn sia uno stimatore di massima verosimiglianza per il campione (X1 , . . . , Xn ) (cio`e θˆn `e funzione solo delle variabili X1 , . . . , Xn e si ha ˆ X1 , . . . , Xn ) = sup Ln (θ; X1 , . . . , Xn ), Ln (θ; θ∈Θ

56

dove Ln (θ; X1 , . . . , Xn ) =

n Y

f (θ; Xi )

i=1

`e la verosimiglianza del campione (X1 , . . . , Xn )). (8.6) Definizione. Si dice che la successione (θˆn ) `e consistente (risp. fortemente consistente) se, per ogni θ ∈ Θ, rispetto alla probabilit`a P θ , θˆn converge a θ in probabilit`a (quasi certamente). Noi considereremo solo il caso di un campione di un modello esponenziale ¡ ¢ dµθ (x) = f (θ; x) = exp θT (x) − ψ(θ) , dµ dove θ `e un intervallo della retta (l’esame di casi pi` u generali `e possibile, ma a prezzo di serie complicazioni). L’equazione di massima verosimiglianza `e in questo caso n n n X X ¢ X d d¡ log f (θ; xi ) = θT (xi ) − ψ(θ) = T (xi ) − nψ 0 (θ) = 0, dθ dθ i=1 i=1 i=1

e cio`e Pn (8.7)

ψ 0 (θ) =

T (xi ) . n

i=1

Come sappiamo dalla Proposizione (5.10) (b), ψ 00 (θ) = V arθ (T ) > 0 (se fosse V arθ (T ) = 0, T sarebbe costante, e quindi f (θ; x) sarebbe costante (in x). Questo non `e possibile perch´e l’unica funzione costante integrabile su R `e la funzione identicamente nulla, che non `e una densit`a di probabilit`a). Dunque ψ 0 `e strettamente crescente, dunque biunivoca da Θ a ψ 0 (Θ), e quindi l’equazione di verosimiglianza (8.7) ha al pi` u una soluzione. Pi` u precisamente, la soluzione `e µ Pn ¶ 0 −1 i=1 T (xi ) ˆ θn = (ψ ) , n Pn T (xi ) i=1 a patto che ∈ ψ 0 (Θ). n Negli enunciati seguenti considereremo dunque un campione infinito di una famiglia esponenziale di leggi di probabilit`a su R. (8.8) Teorema. Supponiamo che ψ 0 (Θ) sia un intervallo aperto. Allora, per ogni fissato θ, `e definito P θ −q. c. per n abbastanza grande lo stimatore di massima verosimiglianza θˆn e θˆn → θ P θ −q. c. per n → ∞. 57

Detto in termini pi` u precisi, l’enunciato precedente significa che, per P θ − quasi ogni ω e per n > n0 (ω, θ), l’equazione (nell’incognita θ) Ln (θ; X1 (ω), . . . , Xn (ω)) = sup Ln (θ; X1 (ω), . . . , Xn (ω)) θ∈Θ

ha una e una sola soluzione θˆn (ω) ed inoltre limn→∞ θˆn (ω) = θ, per P θ − quasi ogni ω. Dimostrazione. Per la legge forte dei grandi numeri, la v.a. Pn i=1 T (Xi ) n converge P θ −quasi certamente verso E θ [T (X1 )] = ψ 0 (θ), dove quest’ultima uguaglianza segue dalle relazioni Z E θ [T (X1 )] = T dµθ = ψ 0 (θ), 0 come sappiamo dalla Pn Proposizione (5.10)(a). Dato che ψ (Θ) `e un intervallo aperto, per n abT (Xi ) i=1 bastanza grande appartiene a ψ 0 (Θ) (in quanto convergente a ψ 0 (θ) ∈ ψ 0 (Θ). Dunque n ¶ µ Pn T (xi ) i=1 `e definito (per l’osservazione fatta sopra). Infine, per n → ∞ e P θ −quasi θˆn = (ψ 0 )−1 n

certamente θˆn = (ψ 0 )−1

µ Pn

T (xi ) n



i=1

¡ ¢ → (ψ 0 )−1 ψ 0 (θ) = θ.

(8.9) Osservazione. Dal Teorema precedente si deduce che, a differenza di quanto succedeva per il campione finito (di taglia n fissata, per una famiglia esponenziale di leggi di probabilit`a su R), nel campione infinito le probabilit`a P θ sono tutte tra loro estranee (cio`e portate da insiemi disgiunti). Infatti, sia θ1 6= θ2 . Per i = 1, 2 poniamo Ai = {ω ∈ Ω : θˆn → θi }. Ovviamente A1 e A2 sono disgiunti, ed inoltre P θi (Ai ) = 1 per il teorema precedente. Dunque il campione infinito non `e dominato. (8.10) Corollario. Nelle ipotesi del Teorema precedente, la successione θˆn di stimatori di massima verosimiglianza `e fortemente consistente. (8.11) Esempio. Ripetiamo in un caso concreto il ragionamento fatto nel Teorema (7.8). Sia (X1 , . . . , Xn ) un campione di legge esponenziale di parametro θ, con 0 < θ < 1 (cio`e in questo caso si ha Θ = (0, 1)). Scriviamo prima di tutto l’equazione di verosimiglianza. Si ha ½ −θx = e−θx+log θ per x > 0 f (θ; x) = θe 0 altrimenti . Considerando al solito solo il caso in cui xi `e positivo, si trova ¡ ¢ L(θ; x1 , . . . , xn ) = exp − θ(x1 + · · · + xn ) + n log θ 58

Quindi l’equazione di verosimiglianza in questo caso `e n θ = Pn i=1

ed ha l’eventuale (unica) soluzione

xi

,

n θˆn = Pn

. Xi Tale soluzione per`o in questo caso esiste solo se 0 < Pnn i=1

< 1, e questo non `e necessariamente Pn Xi vero. Tuttavia, la legge forte dei grandi numeri assicura che i=1 converge P θ –quasi certamente n 1 n θ verso θ , e dunque θˆn = Pn X converge P –quasi certamente verso θ ∈ (0, 1). Quindi θˆn `e definito i=1

i=1

Xi

i

a partire da un n0 = n0 (ω, θ) abbastanza grande in poi. Vediamo ora un risultato di convergenza in legge. (8.12) Teorema. Nelle ipotesi del Teorema precedente, probabilit`a P θ ) alla v. a. normale di media 0 e varianza



n(θˆn − θ) converge in legge (secondo la 1 ψ 00 (θ) .

(8.13) Osservazione. Ricordiamo che ψ 00 = I(θ) (informazione di Fisher, Es. (6.25)). Per un parametro θ ∈ Θ ⊆ Rk si pu`o dimostrare che se (θˆn )n `e una successione di stimatori di massima √ verosimiglianza in un modello esponenziale, allora n(θˆn − θ)¡ converge¢ in legge verso una vettore aleatorio k−dimensionale di legge normale (multivariata) Nk 0, I −1 (θ) , dove I(θ) `e la matrice di informazione di Fisher (matrice k × k). Delle leggi normali multivariate parleremo nel paragrafo 9. Per la dimostrazione del Teorema (8.12) ci servono tre lemmi. (8.14) Lemma. Su (Ω, A, P ) sia Xn convergente in legge ad una v. a. X P −quasi certamente finita e Yn convergente a 0 in probabilit`a (o, ci`o che `e lo stesso, in legge). Allora Xn · Yn converge a 0 in probabilit`a . (8.15) Osservazione. Se X non `e P −quasi certamente finita, la tesi pu`o non valere. Per esempio, sia Xn una successione convergente P −quasi certamente verso X = +∞. Prendiamo Yn = X1n , che ovviamente converge a 0. Allora Xn Yn converge a 1. R Dimostrazione. (i) Dato che Xn → X in legge, per ogni f continua e limitata si ha f (Xn )dP → R f (X)dP . Sia c > 0 e consideriamo la funzione g = 1(−∞,−c)∪(c,+∞) . Questa funzione non `e continua, ma esiste una successione decrescente (fm ) di funzioni continue e limitate tali che g = infm fm . Dunque, per ogni m si ha fm ≥ g e quindi, per la convergenza in legge di Xn a X, Z Z Z fm (X)dP = lim fm (Xn )dP ≥ lim sup g(Xn )dP = lim sup P (|Xn | > c). n

n

n

D’altra parte, per il teorema della convergenza monotona Z Z lim fm (X)dP = g(X)dP = P (|X| > c). m

59

Si conclude che P (|X| > c) ≥ lim sup P (|Xn | > c). ¡

n

¢ Dato che limc→+∞ P (|X| > c) = limc→+∞ P (X < −c) + 1 − P (X ≤ c) = 0, fissato ², esiste c² tale che lim sup P (|Xn | > c² ) ≤ P (|X| > c² ) ≤ ². n

Sia ora δ > 0 fissato. Si ha n δo {|Xn · Yn | > δ} ⊆ {|Xn | > c² } ∪ |Yn | > , c² e quindi

³ ³ δ´ δ´ P (|Xn · Yn | > δ) ≤ P (|Xn | > c² ) + P |Yn | > ≤ ² + P |Yn | > . c² c²

Mandando n a ∞, dato che Yn converge a 0 in probabilit`a , si trova lim sup P (|Xn · Yn | > δ) ≤ ², n→∞

e si conclude per l’arbitrariet`a di ². (8.16) Lemma. (Teorema di Slutsky) Se Xn converge in legge a X e Yn converge a c in probabilit`a (o equivalentemente in legge), allora Xn + Yn converge a X + c in legge. Dimostrazione. Non `e restrittivo supporre c = 0. Per un criterio di convergenza in legge (ved. Jacod–Protter, Th. 18.7), Xn +Yn converge in legge a X se e solo se limn E[f (Xn +Yn )] = E[f (X)] per ogni funzione f continua, Lipschitziana (con costante di Lipschitz Lf ) e limitata (da una costante ¡Mf ). Poich´e limn E[f (Xn )]¢ = E[f (X)] (Xn converge in legge a X), baster`a far vedere che limn E[f (Xn + Yn )] − E[f (Xn )] = 0. Ora ¯ ¯ lim ¯E[f (Xn + Yn )] − E[f (Xn )]¯ ≤ lim E[|f (Xn + Yn )] − f (Xn )|] n n ¡ ¢ = lim E[|f (Xn + Yn )] − f (Xn )|1|Yn |≤² ] + E[|f (Xn + Yn )] − f (Xn )|1|Yn |>² ] n

≤ Lf ² + 2Mf lim P (|Yn | > ²). n

Si conclude passando al limite per l’arbitrariet`a di ². (8.17) Lemma (metodo δ). Se Tn converge P −q.c. verso a,



n(Tn − a) converge in legge alla √ ³ variabile N (0, σ ), e g `e una funzione di classe C definita in un intorno di a, allora n g(Tn ) − ´ g(a) converge in legge alla variabile N (0, (g 0 (a))2 σ 2 ). 2

2

Dimostrazione. Sviluppando con la formula di Taylor al secondo ordine si ha g(x) − g(a) = g 0 (a)(x − a) + 60

(x − a)2 00 g (ξ), 2

(con ξ opportuno). Quindi ´ √ √ ³ √ g 00 (Mn ) n g(Tn ) − g(a) = ng 0 (a)(Tn − a) + (Tn − a) n(Tn − a). 2 Il primo addendo converge in legge alla N (0, (g 0 (a))2 σ 2 ). Il secondo addendo `e il prodotto di 00 √ g 00 (Mn ) , che converge a g 2(a) , di n(Tn − a) (che converge in legge) e di (Tn − a) (che converge 2 q.c. e quindi in probabilit`a a 0). Per il Lemma (8.15) si conclude che il secondo addendo tende a 0 in probabilit`a. Per il Lemma (8.16) si conclude che la somma dei due addendi tende alla N (0, (g 0 (a))2 σ 2 ) in legge. Pn T (xi ) i=1 Dimostrazione. (del teorema). Basta applicare il lemma precedente con Tn = , n ¡ ¢ 0 0 −1 .Osserviamo che a = ψ (θ), g = ψ (a) Pn √ T (xi ) − nψ 0 (θ) n(Tn − a) = i=1 √ n converge in legge alla variabile N (0, ψ 00 (θ)) (ricordare che le T (Xi ) sono v. a. indipendenti equidistribuite, con E θ [T (Xi )] = ψ 0 (θ), V arθ (T (Xi )) = ψ 00 (θ)); (b) ³d¡ ¢ ´ 1 1 −1 ³¡ ¢ ´ = 00 . g 0 (a) = ψ0 (ψ 0 (θ)) = −1 dθ ψ (θ) ψ 00 ψ 0 (ψ 0 (θ))

9. Variabili gaussiane e vettori gaussiani. Sullo spazio di probabilit`a (Ω, F, P ) consideriamo un campione X1 , . . . , Xn di legge gaussiana N (0, σ 2 ) e sia X il vettore aleatorio X = (X1 , . . . , Xn ). La sua funzione caratteristica `e n n h ³X ´i hY £ ¡ ¢¤ ©¡ ¢ªi φX (u) = E exp ihu, Xi = E exp i uj Xj = E exp i uj Xj j=1

(9.1) =

n Y j=1

h

©¡ E exp i uj Xj

¢ªi

=

n Y

³ exp −

j=1

j=1

³ σ2 ´ σ 2 uj = exp − ||u||2 , 2 2 2

´

ricordando che la funzione caratteristica di una v. a. unidimensionale Z di legge N (m, σ 2 ) `e (9.2)

³ σ2 ´ ϕZ (t) = exp(itm) exp − t2 . 2

Consideriamo ora una matrice A n × n ortogonale (cio`e invertibile e tale che t A = A−1 ) e sia Y il vettore aleatorio AX. (9.3) Proposizione. Se A `e ortogonale, anche Y `e un campione di legge N (0, σ 2 ) (ovvero le sue componenti Yj sono indipendenti e di legge N (0, σ 2 )). 61

Dimostrazione. Basta calcolare la f.c. di Y : ³ σ2 ´ ³ σ2 ´ £ ¡ ¢¤ £ ¡ ¢¤ φY (u) = E exp ihu, AXi = E exp iht Au, Xi = exp − ||t Au||2 = exp − ||u||2 , 2 2 dato che, essendo la matrice ortogonale, ht Au,t Aui = hAt Au, ui = hu, ui = ||u||2 . Si riconosce la f.c. di un campione di legge N (0, σ 2 ) (ved. (9.1)). Ricordiamo che si chiama legge del chi–quadro a n gradi di libert` a (indicata con il simbolo χ2 (n)) n 1 X 2 la legge Γ( 2 , 2 ). Si dice anche che X ha legge q · χ (n) se q ha legge χ2 (n). (9.4) Esercizio. (a) Sia X una v.a. di legge N (0, σ 2 ). Calcolare la legge della v.a. X 2 . (b) Mostrare che la legge χ2 (n) coincide con la legge di Z12 + · · · + Zn2 , dove le Zi sono indipendenti e tutte di legge N (0, 1). (9.5) Teorema (di Cochran). Sia E1 ⊕ · · · ⊕ Ek una decomposizione ortogonale di Rn in k sottospazi di dimensioni rispettive r1 , . . . , rk (con r1 + · · · + rk = n), X un campione di taglia n e legge N (0, σ 2 ); indichiamo con XEi la proiezione del vettore X sul sottospazio Ei ; allora le v. a. XE1 , . . . , XEk sono indipendenti e ||XEi ||2 ha legge σ 2 · χ2 (ri ). Dimostrazione. Sia η1 , . . . ηr1 una base ortonormale per il sottospazio E1 , ηr1 +1 , . . . ηr1 +r2 una base per E2 , ... ηr1 +r2 +···+rk−1 +1 , . . . ηr1 +···+rk una base per Ek . Allora η1 , . . . ηr1 , . . . ηr1 +r2 +···+rk formano una base ortonormale per Rn e la matrice A che ha per righe η1 , . . . ηr1 , . . . ηr1 +r2 +···+rk `e ortogonale; inoltre (AX)j = hX, ηj i. Quindi, per la proposizione P precedente, le v. a hX, ηj i sono r1 hX, ηj iηj , si ha ||XE1 ||2 = tutte tra loro indipendenti e di legge N (0, σ 2 ). Essendo XE1 = j=1 Pr1 2 2 2 2 j=1 hX, ηj i e quindi ||XE1 || ha legge σ · χ (r1 ). Analogamente per gli altri vettori XEi . Assegnato un vettore aleatorio (X1 , . . . , Xn ), poniamo Pn X=

i=1

n

Xi

Pn ,

2

S =

− X)2 . n−1

i=1 (Xi

X e S 2 vengono chiamate rispettivamente media empirica e varianza empirica di X1 , . . . , Xn (le abbiamo gi`a incontrate). Ricordiamo che si chiama legge di Student a n gradi di libert` a (denotata con t(n)) la legge di √ una v. a. del tipo n √XY , dove X e Y sono due v. a. indipendenti, di leggi rispettive N (0, 1) e χ2 (n). La legge t(n) ammette densit`a; una sua versione pu`o essere calcolata con il metodo indicato nell’esercizio che segue. Tale versione risulta essere una funzione pari, e dunque la t(n) `e una legge simmetrica. Si pu`o anche mostrare che la t(n) converge debolmente alla N (0, 1) per n → ∞. qSiano infatti X, U1 , . . . Un variabili aleatorie indipendenti e tutte di legge N (0, 1); posto Wn = Pnn U 2 , la k=1

62

k

v.a. XWn ha legge Pnt(n) 2. Per n → ∞, Wn converge a 1 q.c. (si tratta della radice quadrata U k=1 k della reciproca di , che converge q.c. a E[U12 ] = V arU1 = 1 per la legge forte dei grandi n numeri). Per il Lemma (8.14) X(Wn − 1) converge a 0 in probabilit`a, e per il lemma (8.16) XWn = X(Wn − 1) + X converge a una N (0, 1) in legge. (9.6) Esercizio. Siano X e Y due v. a. di densit`a congiunta (rispetto alla misura di Lebesgue bidimensionale) f . Calcolare la densit`a (rispetto alla misura di Lebesgue sulla retta) della v. a. Z=X Y . Soluzione. Sia g una funzione boreliana. Allora Z +∞ Z +∞ ³ ´ h ³ X ´i ZZ ³x´ x E[g(Z)] = E g = g f (x, y)dxdy = dy g f (x, y) dx Y y y 2 R −∞ −∞ Z +∞ Z +∞ Z +∞ Z +∞ ³ Z +∞ ³ ´ ´ = dy g(z)f zy, y |y|dz = dz g(z) f zy, y |y|dy = dz g(z)h(z), −∞

−∞

−∞

−∞

−∞

dove si pone Z (i)

+∞

h(z) =

³ ´ f zy, y |y|dy,

−∞

che `e evidentemente la (una) densit`a per Z. In particolare, se X e Y sono indipendenti e di densit`a rispettivamente f1 e f2 , allora Z (ii)

+∞

h(z) =

|y|f1 (zy) · f2 (y) dy; −∞

osserviamo che, se il vettore (X, Y ) prende valori in (R+ )2 le formule (8.5)(i) e (8.5)(ii) diventano rispettivamente µZ

+∞

h(z) = 0

¶ ³ ´ f zy, y ydy 1R+ (z),

µZ

+∞

h(z) = 0

¶ yf1 (zy) · f2 (y) dy 1R+ (z).

Dal Teorema di Cochran discende un importante corollario, che utilizzeremo varie volte. (9.7) Teorema. Sia X un campione di taglia n e legge gaussiana N (m, σ 2 ). Allora (i) X e S 2 sono indipendenti. σ2 X−m √ (ii) X n ha legge N (0, 1)). P ha legge N (m, n ) (in modo equivalente si pu`o dire che σ n

(iii) (iv)

(Xi −X)2 σ 2√ (X−m) n ha S i=1

=

S 2 (n−1) σ2

ha legge χ2 (n − 1).

legge t(n − 1).

Dimostrazione. Il punto (ii) `e un semplice esercizio. Segue dal fatto che X1 + · · · Xn (somma di n variabili indipendenti tutte di legge N (m, σ 2 )) ha legge N (nm, nσ 2 )). 63

³ (iii) Sia E1 il sottospazio generato dal vettore η1 = Xi −m , σ

√1 , . . . , √1 n n

´ , e sia E2 = E1⊥ . Posto Yi =

(Y1 , . . . , Yn ) `e un campione di legge N (0, 1). D’altra parte Pn

i=1 (Xi

Y =

− m)



Pn

i=1 (Xi σ2

=

n X

− X)2

=

=

X −m ; σ

n ³ X Xi − X ´2

Yi2 + nY − 2Y

i=1

σ

i=1 2

YE1 = hY, η1 iη1 =

¡

n X i=1

=

Pn Pn √ √ Yi i=1 Yi √ η1 = n i=1 η1 = n Y η1 ; n n

n ³ n X (Xi − m) − (X − m) ´2 X = (Yi − Y )2 σ i=1 i=1

n ¢ X 2 Yi = Yi2 − nY = ||Y ||2 − ||YE1 ||2 = ||YE2 ||2 .

Pn

i=1 (Xi −X)2

i=1 Dunque, per il Teorema di Cochran, = ||YE2 ||2 ha legge χ2 (n − 1). σ2 (i) Ancora dal teorema di Cochran sappiamo che YE1 e YE2 sono indipendenti. Dunque anche hY ,η i σ2 Y = E√1n 1 (funzione di YE1 ) e S 2 = n−1 ||YE2 ||2 (funzione di YE2 ), sono indipendenti.

(iv) Si pu`o scrivere √ √ r 2 √ (X − m) n σ (X − m) n (X − m) n = · = S σ S2 σ

v u σ2 u · t Pn

(Xi −X)2 i=1 n−1

√ (X−m) n σ

= q Pn

i=1

(Xi σ2

−X)2

·



n − 1,

che ha legge t(n − 1) per la definizione di legge di Student e per i punti precedenti. √ √ (9.8)Osservazione. Notare la somiglianza tra le due v.a. U = X−m n e V = X−m n; la σ σ quantit` a σ, presente nell’espressione di U , `e sostituita da S in quella di V , e quindi V dipende solo dal campione (X1 , . . . , Xn ). Notiamo anche che V ha, come U , una legge nota (e che `e assai simile alla legge di U per n grande). Ci`o fa prevedere la possibilit`a di utilizzare V al posto di U nel caso che σ sia una quantit`a incognita. (9.9) Esercizio. Siano (X1 , . . . , Xp ) e (Y1 , . . . , Yq ) due campioni gaussiani tra loro indipendenti, di leggi rispettive N (m1 , σ 2 ) e N (m2 , σ 2 ). Poniamo Pp Pq Pp Pq Xi Yi (Xi − X)2 (Yi − Y )2 2 X = i=1 , Y = i=1 , SX = i=1 , SY2 = i=1 . p q p−1 q−1 Mostrare che Pp Pq 2 2 2 (i) le v.a. X, Y e SX (p − 1) + SY2 (q − 1) = i=1 (Xi − X) + i=1 (Yi − Y ) sono tra loro (globalmente) indipendenti; ³ ¡ ¢´ (ii) X − Y ha legge N m1 − m2 , σ 2 p1 + 1q ; 2 (iii) SX (p − 1) + SY2 (q − 1) ha legge σ 2 · χ2 (p + q − 2). (iv) la v.a. √ p + q − 2 · {(X − Y ) − (m1 − m2 )} qP q Pq p 1 1 2 2 + · i=1 (Xi − X) + i=1 (Yi − Y ) p q

64

ha legge di Student a (p + q − 2) gradi di libert`a. Soluzione. I punti (ii) e (ii) possono essere ricavati come semplici conseguenze del Teorema ¡ ¢(9.7) (per il punto (ii) si deve ricordare anche che la legge χ2 (n) non `e altro che la legge Γ n2 , 12 ). Il punto (iv) `e conseguenza di (i), (ii) e (iii). La verifica di (i) `e analoga alla dimostrazione del Teorema (9.7). Per k = 1, 2, . . . , p + q poniamo  X − m1   k per 1 6 k 6 p . Zk = Y σ − m 2   k−p per p + 1 6 k 6 p + q σ Allora Z = (Z1 , . . . , Zp+q ) `e un campione di v.a. aventi legge N (0, 1). Consideriamo i due versori ortogonali di Rp+q η1 =

³ 1 ´ 1 1 √ , √ , . . . , √ , 0, . . . , 0 , p p p | {z } | {z } q volte

³ η2 =

1 1 1 ´ 0, . . . , 0, √ , √ , . . . , √ ; | {z } q q q {z } p volte |

p volte

q volte

siano E1 e E2 i sottospazi di Rp+q generati rispettivamente da η1 e η2 e E3 il sottospazio ortogonale a E1 ⊕ E2 . Per il Teorema di Cochran, le tre proiezioni ZE1 , ZE2 e ZE3 sono tra loro indipendenti. D’altra parte ZE1 = hZ, η1 iη1 =

p p p ³X Zi ´ √ ³ X Zi ´ √ ³ X Xi − m1 ´ √ ³ X − m1 ´ η1 = p η1 = p η1 , √ η1 = p p p σp σ i=1 i=1 i=1

da cui si ricava

X − m1 hZE1 , η1 i = , √ σ p

In modo analogo abbiamo Y =σ·

X =σ·

hZE1 , η1 i + m1 √ p

hZE2 , η2 i + m2 ; √ q

pertanto X `e funzione di ZE1 e Y `e funzione di ZE2 . Infine 2 SX (p − 1) + SY2 (q − 1) =

p X

(Xi − X)2 +

i=1

=

p X

2

Xi2 − pX +

q X

Yi2 − qY

q X

(Yi − Y )2

i=1 2

i=1

i=1

p+q ³ Pp Z ´2 ´2 ³ Pp+q Zi X i=p+1 2 i=1 i = (σZi + m1 ) − p σ + m1 + + m2 (σZi + m2 ) − q σ p q i=1 i=p+1 Pp+q Pp p+q ´ nX ³ ( i=p+1 Zi )2 o ( i=1 Zi )2 2 2 =σ Zi − − = σ 2 ||Z||2 − ||ZE1 ||2 − ||ZE2 ||2 = σ 2 · ||ZE3 ||2 . p q i=1 p X

2

65

2 2 e quindi SX (p − 1) + SY2 (q − 1) `e funzione di ZE3 . Le tre variabili X, Y e SX (p − 1) + SY2 (q − 1) sono dunque indipendenti in quanto funzioni di tre variabili indipendenti.

(9.10) Esercizio. Sia (X1 , . . . , Xn ) un campione di taglia n e legge N (m, σ)2 . Mostrare che gli stimatori di massima verosimiglianza m ˆ eσ ˆ 2 rispettivamente di m e σ 2 sono (i) stimatore di m: in ogni caso (cio`e sia che la varianza sia nota sia che non lo sia), si ha m ˆ = X; 2 (ii) stimatore di σ : P n

(a) se m `e nota si ha σ ˆ2 =

i=1

(Xi −m)2

n P n

;

(Xi −X)2 i=1 n

(b) se m non `e nota si ha σ ˆ2 =

=

n−1 2 n S .

(9.11) Esercizio (in parte gi`a visto in (3.9)). (a) Sia (X1 , . . . , X R n ) una famiglia di v. a. equidistribuite con legge µ su R (non necessariamente gaussiana), con R x2 dµ(x) < +∞ ( e quindi sia la R R media m = R xdµ(x) che la varianza σ 2 = R (x − m)2 dµ(x) sono finite). Mostrare che X `e uno stimatore corretto di m. (b) Se in pi` u si suppone che le v. a. (X1 , . . . , Xn ) siano anche indipendenti (e dunque costituiscano un campione di legge P µ e di taglia n), allora n

(Xi −m)2

i=1 (i) se m `e nota, `e uno stimatore corretto di σ 2 ; n 2 (ii) se m non `e nota, S `e uno stimatore corretto di σ 2 . (c) Se µ `e la legge N (m, σ)2 , le statistiche corrette trovate nei punti (a) e (b) precedenti sono, in ciascun caso, funzioni della relativa statistica esaustiva completa. Dunque sono stimatori ottimali nella classe D2c .

(9.12) Definizione. Si chiama vettore aleatorio gaussiano un vettore aleatorio X = (X1 , . . . , Xn ) tale che, per ogni u ∈ Rn , la v.a. hu, Xi sia una v. a. gaussiana. Indicheremo con m = (E[X dei valori medi (mi = E[Xi ]), e con Γ la ¡ 1 ],¢. . . ,¡E[Xn ]) il vettore ¢ matrice di covarianza Γ = Γi,j = Cov(Xi , Xj ) (Γ `e semidefinita positiva, come ogni matrice di ` facile provare che la v. a. hu, Xi ha media hu, mi e varianza hΓu, ui: covarianza). E E[hu, Xi] = E

n £X

n n ¤ X £ ¤ X ui Xi = ui E Xi = ui mi = hu, mi;

i=1

V ar(hu, Xi) = Cov

n ¡X i=1

ui Xi ,

n X j=1

i=1

¢ uj Xj =

n X

i=1

ui uj Cov(Xi , Xj ) =

i,j=1

n X

ui uj Γi,j = hΓu, ui.

i,j=1

(9.13) Teorema.(a) La legge di X `e determinata da m e Γ, e denotata con Nn (m, Γ). (b) Se X ha legge Nn (m, Γ), A `e una matrice k × n e b ∈ Rk , allora Y = AX + b ha legge Nk (Am + b, AΓAt ) Dimostrazione. (a) La funzione caratteristica di X `e ´ ³ £ ¡ ¢¤ 1 φX (u) = E exp ihu, Xi = ϕhu,Xi (1) = exp ihu, mi − hΓu, ui , 2 66

ricordando la (9.2). (b) Calcoliamo la funzione caratteristica di Y . Si ha £ ¡ ¢¤ £ ¡ ¢¤ ¡ ¢ £ ¡ ¢¤ φY (u) = E exp ihu, Y i = E exp ihu, (AX + b)i = exp ihu, bi · E exp ihu, AXi ³ ´ ¡ ¢ £ ¡ ¢¤ ¡ ¢ 1 = exp ihu, bi · E exp ihtA u, Xi = exp ihu, bi · exp ihtA u, mi − hΓtA u,t A ui 2 ´ ³ ´ ³ ¡ ¢ 1 1 t = exp ihu, bi · exp ihu, Ami − hAΓ A u, ui = exp ihu, Am + bi − hAΓtA u, ui . 2 2

(9.14) Osservazione. Se X = (X1 , . . . , Xn ) `e un campione di legge N (0, 1), allora X `e un vettore gaussiano, di legge N (0, In ), dove In `e la matrice identit`a n × n. Ricordiamo l’enunciato del Lemma (6.19): (9.15) Lemma. Sia Γ una matrice n × n simmetrica semidefinita positiva; allora esiste una matrice simmetrica A n × n tale che Γ = A tA = A2 . Inoltre, se Γ `e invertibile, anche A `e invertibile. (9.16) Teorema. (a) Fissati m ∈ Rn e Γ matrice simmetrica n × n semidefinita positiva, esiste un vettore aleatorio di legge N (m, Γ). (b) Se Γ `e invertibile, la legge N (m, Γ) `e assolutamente continua rispetto alla misura di Lebesgue n−dimensionale, con densit`a f (x) =

1 (2π)n/2

µ ¶ 1 exp − hΓ−1 (x − m), (x − m)i . 2 |Γ|

p

√ Dimostrazione. (a) Sia X un vettore aleatorio di legge Nn (0, In ), e sia A = Γ la matrice del lemma precedente (tale che A2 = Γ). Posto Y = AX + m, allora per Teorema precedente, punto (b), Y ha legge Nn (A · 0 + m, AIn tA) = Nn (m, A2 ) = Nn (m, Γ). −1 (b) Poniamo φ(x) = Ax + m. φ `e invertibile e φ−1 (x) = A−1 (x − m), ∂φ∂x = A−1 ; per la nota formula di cambio di variabili si ha ¯ ¯ µ ¶ ¯ ¯ ¡ −1 ¢ ¯ ∂φ−1 ¯ 1 −1 1 2 ¯ ¯= fY (x) = fX φ (x) ¯ exp ||A (x − m)|| · ¯A−1 ¯. ¯ n/2 ∂x 2 (2π) p ¯ ¯ Dato che A2 = Γ, si ha |A2 | = |A|2 = |Γ|, quindi ¯A−1 ¯ = |A|−1 = ( |Γ|)−1 . Inoltre ||A−1 (x − m)||2 = hA−1 (x − m), A−1 (x − m)i = ht(A−1 )A−1 (x − m), (x − m)i = h(A tA)−1 (x − m), (x − m)i = h(A2 )−1 (x − m), (x − m)i = h(Γ)−1 (x − m), (x − m)i Sostituendo si trova la formula dell’enunciato. 10. I modelli lineari. 67

.

(10.1) Esempio introduttivo. L’esito di un certo fenomeno aleatorio (ad esempio il rendimento di un certo terreno coltivato) `e la somma di una funzione f (x) (dove f `e sconosciuta) di una certa quantit` a x (ad esempio x= quantit` a di concime impiegato) e di un “disturbo” aleatorio W di varianza σ 2 , anch’essa sconosciuta. Per valutare ragionevolmente f si fanno n prove (ad es. si concimano n terreni nello stesso modo). In questa maniera si ottengono i risultati Ym = f (xm ) + Wm ,

m = 1, 2, . . . , n,

e si suppone che le v. a. Wm siano centrate, non correlate e con varianza σ 2 . Lo scopo dell’indagine `e quello di ottenere informazioni su f e σ 2 . Per rendere il problema matematicamente trattabile, si pu`o approssimare f con un polinomio di grado k − 1, con k ≤ n: f (x) ≈

k X

xj−1 θj

j=1

e quindi le equazioni precedenti diventano Ym =

k X

(xm )j−1 θj + Wm ,

m = 1, 2, . . . , n,

k ≤ n.

j=1

Le v.a. Wm possono essere scritte nella forma Wm = σZm , dove le Zm sono centrate e tali che Cov(Zi , Zj ) = δi,j . In definitiva il modello `e diventato Ym

k X = (xm )j−1 θj + σZm ,

m = 1, 2, . . . , n,

k≤n

j=1

e a questo punto ottenere informazioni su f e σ significa stimare i numeri θ1 , . . . , θk e σ 2 . I modelli come quello qui indicato sono detti modelli di regressione, e sono un caso particolare dei cosiddetti modelli lineari, di cui ora diamo la definizione. (10.2) Definizione. Si chiama modello lineare un modello statistico nel quale l’osservazione `e formata da n v. a. della forma Ym =

k X

am,j θj + σZm ,

m = 1, 2, . . . , n,

, k ≤ n,

j=1

dove le incognite sono θ1 , . . . , θk e σ 2 . Si suppone che il vettore aleatorio Z = (Z1 , . . . , Zn ) sia centrato e di matrice di covarianza In . Inoltre, il modello pu`o essere¡ rappresentato in forma vettoriale come Y = Aθ + σZ, dove si ¢ pone θ = t(θ1 , . . . , θk ), A = am,j m≤n,j≤k , Z = t(Z1 , . . . , Zn ). Si suppone che l’applicazione LA : Rk → Rn definita da LA (x) = Ax sia iniettiva (cio`e che la matrice n × k A sia di rango massimo (=k)). 68

Volendo rappresentare la situazione come un modello statistico, si prende Ω = Rn , F = B(Rn ), e 2 P θ,σ (legge di Y ) `e l’immagine della legge di Z secondo l’applicazione z 7→ Aθ + σz. Diremo che siamo nel caso gaussiano se la legge di Z `e la N (0, In ) (cio`e le Zm sono indipendenti 2 e tutte di legge N (0, 1)). In tal caso la P θ,σ ammette densit`a rispetto alla misura di Lebesgue su Rn , data da µ ¶ 2 1 1 2 f θ,σ (y) = exp − ||y − Aθ|| . 2σ 2 (2π)n/2 σ n Si ha

||y − Aθ||2 = hy − Aθ, y − Aθi = ||y||2 + ||Aθ||2 − 2hy, Aθi;

indichiamo con A(Rk ) il sottospazio chiuso di Rn immagine di Rk secondo l’applicazione LA e con ¶ la proiezione di Rn su A(Rk ). Allora si ha y = ¶y + z, con z ortogonale ad A(Rk ), e quindi hy, Aθi = h¶y + z, Aθi = h¶y, Aθi + hz, Aθi = h¶y, Aθi. Ne segue che f dato che

θ,σ 2

µ ¶ o 1 1 n 2 2 (y) = exp − 2 ||y|| + ||Aθ|| − 2h¶y, Aθi − n log σ ; 2σ (2π)n/2 D¡ Aθ σ

,− 2

E h¶y, Aθi ||Y ||2 1 ¢ 2 , (¶Y, ||Y || ) = − , 2σ 2 σ2 2σ 2

si riconosce che siamo in presenza di un modello esponenziale e che (¶Y, ||Y ||2 ) `e una statistica esaustiva completa. In particolare ¶Y `e uno stimatore di θ (osservare che ¶ manda Rn in A(Rk ), che `e un sottospazio di Rn a dimensione k (= numero dei θi ), in quanto A `e di rango massimo). In analogia al caso gaussiano, in un modello lineare considereremo solo degli stimatori lineari di θ, cio`e del tipo V Y , con V matrice k × n (e di conseguenza LV : Rn → Rk ). Cominciamo con un lemma. (10.3) Lemma. Siano A una matrice n × k di rango massimo e y ∈ Rn . Allora il vettore x ∈ Rk ¡t ¢ che rende minima la quantit`a ||y − Ax||2 `e dato da x = U y, dove U = A A −1 (tA). ` noto che il vettore z di LA (Rk ) (cio`e del tipo z = Ax per qualche x ∈ Rk ) che Dimostrazione. E rende minima la distanza di y da LA (Rk ) `e z = ¶y, dove ¶ `e la proiezione ortogonale di Rn su A(Rk ). Dunque dovr`a essere Ax = z = ¶y, e di conseguenza x `e unico (se ¶y = Ax1 = Ax2 allora x1 = x2 perch´e A `e di rango massimo). Esiste quindi un’applicazione U : Rn → Rk tale che il vettore x che cerchiamo si pu`o mettere nella forma x = U y, e cio`e AUy = ¶y per ogni y ∈ Rn . In altre parole abbiamo ¶ = AU . D’altra parte, t¶ = ¶ (siano u e v due vettori di Rn . Allora u = ¶u + a, dove a `e ortogonale a A(Rk ) e quindi hu, ¶vi = h¶u + a, ¶vi = h¶u, ¶vi + ha, ¶vi = h¶u, ¶vi. Analogamente h¶u, vi = h¶u, ¶vi. Quindi h¶u, vi = hu, ¶vi). Dato che A = ¶A, si ha anche ¡ ¢ ¡ ¢ t A = t ¶A = tAt ¶ = tA¶ = tAA U. 69

k k Da questa relazione segue la tesi, a patto che tAA sia invertibile. Osserviamo che ¡ t L¢tAA : R → R . t Dunque AA ¡`e invertibile se e solo se L tAA `e iniettiva, ovvero se e solo se AA x = 0 implica ¢ x = 0. Ma se tAA x = 0, allora

¡ ¢ 0 = h tAA x, xi = hAx, Axi = ||Ax||2 , da cui segue Ax = 0 e quindi x = 0, perch´e LA `e iniettiva (essendo A di rango massimo). Diremo che uno stimatore vettoriale `e corretto se `e corretto componente per componente. (10.4)Teorema(di Gauss–Markov). Lo stimatore UY `e uno stimatore corretto di θ, ottimale nella classe degli stimatori lineari corretti di θ, e ||AU Y − Y ||2 `e uno stimatore corretto di (n − k)σ 2 . Nel caso gaussiano, tali stimatori sono ottimali tra tutti gli stimatori corretti (lineari e non, per quanto riguarda θ) di θ e (n − k)σ 2 rispettivamente. Dimostrazione. Sia V Y uno stimatore lineare. V Y `e uno stimatore corretto di θ se e solo se 2

θ = E θ,σ [V Y ] = E[V (Aθ + σZ)] = V Aθ + σV E[Z] = V Aθ (perch´e Z `e centrato). Dunque si deve avere V A = Ik , e in effetti U ha questa propriet`a . Infatti, per il Lemma precedente, n¡ o ¢ ¡t ¢ t UA = A A −1 (tA) A = A A −1 (tA A) = Ik . Quindi UY `e uno stimatore corretto. Valutiamo il rischio di uno stimatore corretto (generico) V Y . Esso `e uguale a 2

E θ,σ [||V Y − θ||2 ] = E[||V (Aθ + σZ) − θ||2 ] = E[||V Aθ + σV Z − θ||2 ] = σ 2 E[||V Z||2 ] (perch´e V A = Ik ). D’altra parte ||V Z||2 =

X³X

vi,j Zj

´2

j

i

=

X³X

vi,j Zj

´³ X

j

i

´ X³X ´ vi,j vi,k Zj Zk , vi,k Zk = i

k

j,k

e, passando alla speranza E[||V Z||2 ] = =

X

X³X i

2 vi,j

´ X³X ´ X³X ´ 2 vi,j vi,k E[Zj Zk ] = vi,j vi,k δj,k = vi,j i

j,k

j,k

i

j

2

= ||V || ,

i,j

per cui si ottiene

2

E θ,σ [||V Y − θ||2 ] = σ 2 ||V ||2 . Dunque, volendo trovare lo stimatore ottimale, cio`e di rischio minimo, nella classe degli stimatori lineari, bisogna minimizzare la quantit`a ||V ||2 sotto la condizione V A = Ik . Mostriamo che lo 70

stimatore UY `e appunto quello che minimizza tale quantit`a . Osserviamo ¡ che, ¢ per ogni V tale che V A = Ik , si ha (ricordando che AU = ¶) U = Ik U = V AU = V AU = V ¶, e quindi t U =t ¶ t V = ¶ t V, da cui ||U||2 = ||t U||2 = ||¶ t V ||2 ≤ ||t V ||2 = ||V ||2 , poich´e la proiezione diminuisce la norma. Passiamo a considerare lo stimatore ||AUY − Y ||2 . Si ha AU Y − Y = ¶Y − Y = ¶(Aθ + σZ) − Aθ + σZ = σ(¶Z − Z), ricordando che ¶A = A. Quindi E[||AUY − Y ||2 ] = σ 2 E[||¶Z − Z||2 ]. Per dimostrare che ||AU Y − Y ||2 `e uno stimatore corretto di σ 2 (n − k), bisogna allora far vedere che E[||¶Z − Z||2 ] = n − k. Se ¶ fosse la proiezione sul sottospazio generato dalle prime k coordinate, avremmo ¶Z − Z = (0, . . . , 0, Zk+1 , . . . , Zn ), e la cosa sarebbe allora ovvia perch´e | {z } kvolte

£ 2 ¤ E[||¶Z − Z||2 ] = E Zk+1 + · · · Zn2 = n − k, ricordando che E[Zi Zj ] = δi,j . Nel caso generale, si vede facilmente che, se B `e una matrice n × n ortogonale, allora il vettore W = BZ ha le stesse propriet`a di Z, cio`e si ha ancora E[Wi Wj ] = δi,j (infatti, in generale si ha ΓW = BΓZ t B, in quanto X £X ¤ £X ¤ X £ ¤ E[Wi Wj ] = E ( bi,h Zh ) bj,k Zk ) = E bi,h bj,k Zh Zk = bi,h bj,k E Zh Zk . h

³ £ ¤´ Dato che E Zh Zk scrivere nella forma

h,k

h

h,k

h,k

= (γh,k ) = ΓZ , e t B = (˜bk,j ) = (bj,k ), l’espressione precedente si pu`o X

bi,h γh,k ˜bk,j ,

h,k

e vi si riconosce l’elemento di posto (i, j) della matrice BΓZ t B. Nel nostro caso particolare abbiamo allora ΓW = BΓZ t B = BIn t B = In ). Basta allora considerare la matrice B che cambia la base in modo che i primi k elementi generino il sottospazio (a dimensione k) A(Rk ) su cui ¶ proietta, e in questo modo ci si riconduce al caso precedente. Se siamo nel caso gaussiano, allora abbiamo visto prima che (¶Y, ||Y ||2 ) `e una statistica esaustiva completa. Dunque per i risultati generali sulle statistiche esaustive complete, per vedere che UY e ||AU Y − Y ||2 sono stimatori ottimali, basta far vedere che sono funzioni della statistica completa. Osserviamo prima di tutto che U = U¶. Infatti ¡t ¢ ¡t ¢ ¡t ¢ ©¡t ¢ ª U = A A −1 (tA) = A A −1 t(¶A) = A A −1 (tA)(t¶) = A A −1 (tA) ¶ = U¶. Dunque U Y = U(¶Y ) `e funzione di ¶Y . Inoltre, per il teorema di Pitagora ||Y ||2 = ||¶Y ||2 + ||Y − ¶Y ||2 , da cui (ricordando che AU = ¶) ||AUY − Y ||2 = ||¶Y − Y ||2 = ||Y ||2 − ||¶Y ||2 , 71

e quindi anche ||AU Y − Y ||2 `e funzione della statistica completa. (10.5) Osservazione. Per il calcolo effettivo di UY (ω) si procede cos`ı. Noi abbiamo a disposizione l’osservazione Y (ω), e sappiamo dal Teorema di G–M. che la stima lineare di θ deve essere UY (ω). Dal Lemma che precede il Teorema di G–M, sappiamo che UY (ω) minimizza ||Y (ω)−A(UY (ω))||2 . Dunque si cerca il vettore θ0 ∈ Rk in cui si realizza il minimo della funzione n ³ X

θ 7→ ||Y (ω) − Aθ||2 =

Ym (ω) −

m=1

k X

am,j θj

´2

,

j=1

e si pone UY (ω) = θ0 . In casi come questo si usa dire che si stima θ nel senso dei minimi quadrati. In pratica si annullano le derivate parziali rispetto a θ1 , . . . , θk . (10.6) Esempio. Torniamo al modello di regressione che abbiamo visto all’inizio, e cio`e Ym =

k X (xm )j−1 θj + σZm ,

m = 1, 2, . . . , n.

j=1

con k ≤ n e x1 6= x2 6= · · · 6= xn . Allora `e ben noto che la matrice A data da 1

x1 x2 .. .

1 A=  .. . 1 xn

... ... ...

 xk−1 1 xk−1  2 ..   . k−1 xn

ha sempre rango massimo. Annullando le derivate parziali si arriva alle equazioni di =

k X

ci,j θj ,

j=1

dove di =

n X

Ym (ω)xi−1 m ,

ci,j =

m=1

n X

. xi+j−2 m

m=1

11. Cenni sulle regioni di fiducia (o di confidenza) Premettiamo la nozione di quantile. Sia F una funzione di ripartizione. Per ogni u ∈ (0, 1) poniamo Su = {x ∈ R : F (x) ≥ u},

F ← (u) = inf Su = inf{x ∈ R : F (x) ≥ u}.

La funzione F ← cos`ı definita non `e altro che dell’inversa generalizzata di F . Tuttavia in Statistica si usa chiamarla preferibilmente funzione quantile di F (meglio: della legge definita da F ). Se α ∈ (0, 1), il numero F ← (α) si chiama quantile di ordine α di F . 72

La Proposizione seguente elenca le principali propriet`a di F ← . (11.2) Proposizione Valgono le seguenti propriet`a: (i) F (x) > u ⇐⇒ F ← (u) 6 x. (ii) F (x) < u ⇐⇒ F ← (u) > x. (iii) F ¡(x1 ) < u¢ 6 F (x2 ) ⇐⇒ x1 < F ← (u) 6 x2 . (iv) F F¡ ← (u)¢ > u per ogni u ∈ [0, 1]. In pi` u, se F `e continua, la diseguaglianza `e un’eguaglianza. ← (v) F F (x) 6 x per ogni x ∈ R. In pi` u, se F `e (strettamente) crescente, la diseguaglianza `e un’eguaglianza. (vi) F `e continua se e solo se F ← `e (strettamente) crescente. (vii) F `e (strettamente) crescente se e solo se F ← `e continua. ¡ ¡ ¢ ¢ (viii) Se la v.a. X ha funzione di ripartizione F , allora P F ← F (x) 6= X = 0. Si lascia la dimostrazione per esercizio; tuttavia, dato che saranno usate in seguito (nella dimostrazione del Teorema (23.2)), a titolo di esempio mostriamo direttamente due propriet`a di F ← ( in realt`a sono solo conseguenze della Proposizione (11.2)). (1) Se u ≤ v allora F ← (u) ≤ F ← (v). Infatti in tal caso Sv ⊆ Su e quindi F ← (u) = inf Su ≤ inf Sv = F ← (v). (2)F (F ← (u)− ) ≤ u ≤ F (F ← (u)). Infatti (a) Sia t < F ← (u). Allora, osservato che Su `e una semiretta destra di R (per la non decrescenza di F ) di origine F ← (u), t non appartiene a Su , e quindi F (t) < u. Passando al limite per t ↑ F ← (u) si ha la prima delle due diseguaglianze da dimostrare. (b) Per definizione di estremo inferiore, esiste una successione xn ∈ Su tale che xn ↓ φ(u). Dato che xn ∈ Su , si ha u ≤ F (xn ) e passando al limite in n, si trova u ≤ limn→∞ F (xn ) = limt↓F ← (u) F (t) = F (F ← (u)), per la continuit`a a destra di F . Mentre nei problemi di stima puntuale studiata nel paragrafo 3 si cerca di identificare il parametro che regola un certo fenomeno aleatorio, nella teoria delle regioni di fiducia si cerca di identificare un sottoinsieme di Θ a cui il parametro appartiene con una probabilit`a abbastanza alta. Pi` u precisamente si d`a la seguente definizione. (11.3) Definizione. Siano α ∈ (0, 1), S : Ω → P(Θ) una funzione tale che, per ogni θ ∈ Θ, l’insieme {ω ∈ Ω : S(ω) non contiene θ} (che si scrive preferibilmente, anche se in modo un po’ improprio, nella forma {θ ∈ / S}) appartenga alla trib` u F. Si dice che S `e una regione di fiducia di livello 1 − α se, per ogni θ ∈ Θ, risulta P θ (θ ∈ / S) ≤ α. (11.4) Osservazione. Se Θ ⊆ R, le regioni di fiducia che si costruiscono nella pratica sono in genere degli intervalli della retta (limitati o no). (11.5) Esempio. Costruire un intervallo di fiducia di livello 0.95 per il parametro θ dell’esponenziale, basato su una sola osservazione X (cio`e sul campione unidimensionale X). 73

Significa che si devono trovare due funzioni t1 (X) e t2 (X) tali che ¡ ¢ P θ t1 (X) ≤ θ ≤ t2 (X) ≥ 0.95. Partiamo da questa semplice osservazione: se X ha legge E(θ), allora la variabile Y = θX ha legge∼ E(1). Infatti, per t > 0 si ha P (Y ≤ t) = P (θX ≤ t) = P (X ≤ t/θ) = 1 − e−t . Di conseguenza, ∀a, b > 0 con a < b si ottiene P θ (a ≤ Y ≤ b) = (1 − e−b ) − (1 − e−a ) = e−a − e−b , il che equivale a

µ Pθ

a b ≤θ≤ X X

Allora poniamo t1 (X) =



a , X

= e−a − e−b .

t2 (X) =

b , X

dove le costanti a e b sono scelte in modo che e−a − e−b = 0.95. (11.6) Osservazione. Il metodo qui seguito, e che verr`a usato sistematicamente nel seguito, `e quello cosiddetto della quantit` a pivotale, che consiste nel determinare una funzione di X1 , . . . , Xn e del parametro θ, Q(X1 , . . . , Xn , θ) (X e θ nell’esempio), invertibile rispetto alla variabile θ, in modo che la legge P θ (Q(X1 , . . . , Xn , θ) ∈ A) non dipenda da θ. Nota. Nei paragrafi seguenti X1 , . . . , Xn sar`a un campione di taglia n e di legge N (µ, σ 2 ); inoltre gli intervalli che costruiremo saranno tutti di livello 1 − α fissato. Indicheremo con Φ la f.d.r. della legge N (0, 1) e con φα il quantile di ordine α di tale legge (ossia la funzione inversa di Φ: φα = Φ−1 (α)). (11.7) Intervalli di fiducia per la media della Normale con varianza nota. Si parte dall’osservazione che Y =

X − µ√ n ∼ N (0, 1). σ

(a) Intervallo bilaterale. Dalla relazione P µ (a ≤ Y ≤ b) = Φ(b) − Φ(a) si ricava

Φ(b) − Φ(a) µ ¶ µ ¶ X − µ√ σ σ µ µ √ √ =P a≤ n≤b =P X− b≤µ≤X− a . σ n n 74

Pertanto baster`a trovare a e b in modo che Φ(b) − Φ(a) = 1 − α. Siano β e γ due numeri reali ∈ [0, 1] tali che b = φβ , a = φγ ; allora si ha Φ(b) − Φ(a) = β − γ. Pertanto baster`a scegliere β e γ in modo che risulti β −γ = 1−α. Una scelta possibile `e β = 1−α/2, γ = α/2, (cio`e b = φ1−α/2 , a = φα/2 = −φ1−α/2 , dove l‘ultima uguaglianza segue dalla nota propriet`a dei quantili della legge normale standard). L‘intervallo risultante `e allora µ ¶ σ σ (∗) X − √ φ1−α/2 , X + √ φ1−α/2 . n n Osservazione. La scelta fatta non `e ovviamente l’unica possibile: ad esempio β = 1 − α/3, γ = 2(α/3) va ancora bene. Tuttavia l’intervallo (∗) `e quello di ampiezza minima, (cio`e d`a la stima migliore possibile, al livello 1 − α assegnato); dimostrazione per esercizio (segue dalla convessit`a della funzione α 7→ φα ). (b) Intervallo unilaterale destro. Il termine significa che si vuole trovare una limitazione per µ solo dal basso, cio`e del tipo H < µ (il termine “destro” si spiega osservando che in tal caso µ ∈ (H, +∞), semiretta destra). Questa volta partiamo dalla relazione P µ (Y ≤ b) = Φ(b), che equivale a

µ ¶ σ P X − √ b ≤ µ = Φ(b). n µ

Se b = φβ , allora baster`a che 1 − α = Φ(b) = β, ovvero, semplicemente, b = φ1−α , e l’intervallo `e µ ¶ σ X − √ φ1−α , +∞ . n (c) Intervallo unilaterale sinistro. Non ripeteremo i calcoli, che sono analoghi ai precedenti. Si trova l’intervallo µ ¶ µ ¶ σ σ − ∞, X − √ φα = − ∞, X + √ φ1−α , n n ricordando la relazione −φα = φ1−α (dimostrazione: si fa vedere che Φ(−φα ) = Φ(φ1−α ) usando la definizione di quantile e la relazione Φ(t) = 1 − Φ(−t), valida per la simmetria della legge N (0, 1)). 75

(11.8) Osservazione. La scelta del tipo di intervallo da considerare `e in genere legata alla situazione pratica (se si deve avere una stima sia da destra che da sinistra calcoleremo un intervallo bilaterale, se invece occorre stimare il parametro solo dal basso cercheremo un intervallo unilaterale destro, e cos`ı via). (11.9) Osservazione. Per quanto riguarda le stime da sinistra 8nilaterale e bilaterale si ha σ σ X − √ φ1−α/2 ≤ X − √ φ1−α n n Per le stime da destra vale ovviamente la diseguaglianza inversa. (dimostrazione per esercizio). Indichiamo con tα,n il quantile di ordine α della legge t(n). A causa della simmetria della legge t(n), anche per questi quantili vale la relazione −tα,n = t1−α,n . (11.10) Intervalli di fiducia per la media della Normale con varianza non nota. Nella pratica gli intervalli del paragrafo precedente sono di scarsa utilit`a, perch´e nelle formule che li definiscono interviene la varianza σ 2 , che in genere non si conosce. In questo caso si pu`o sostituire σ 2 con Pn S2 =

− X)2 n−1

i=1 (Xi

(che ne `e uno stimatore), e applicare di nuovo il metodo della quantit`a pivotale partendo dalla v. a. X − µ√ Z= n ∼ t(n − 1), S (corollario al teorema di Cochran). Osservando che l’unica propriet`a della legge normale standard che abbiamo usato `e stata la simmetria (a proposito dei quantili, nella relazione −φα = φ1−α ), e ricordando che anche la legge t di Student `e simmetrica, risulta chiaro che tutto ci`o che abbiamo detto nel paragrafo precedente si pu`o ripetere, semplicemente sostituendo σ con S e i quantili della N (0, 1) con quelli della t(n − 1). Per comodit`a di chi legge, riportiamo comunque le formule finali. Il quantile di ordine α della t(n) sar`a indicato con il simbolo tα,n . (a) Intervallo bilaterale. µ

¶ S S X − √ t1−α/2,n−1 , X + √ t1−α/2,n−1 . n n

(b) Intervallo unilaterale destro. µ ¶ S √ X− t1−α,n−1 , +∞ . n 76

(c) Intervallo unilaterale sinistro. µ

¶ S − ∞, X + √ t1−α,n−1 . n

Indichiamo con χα,n il quantile di ordine α della legge χ(n). (11.11) Intervalli di fiducia per la varianza della Normale con media nota. Qui si parte osservando che la v. a. Pn Y = ha legge χ2 (n). Posto

i=1 (Xi σ2

Pn 2

U =

i=1 (Xi

− µ)2

− µ)2

n

,

(che, come sappiamo, `e uno stimatore della varianza) si pu`o scrivere Y =

nU 2 . σ2

(a) Intervallo bilaterale. Indichiamo con Fn la funzione di ripartizione della χ2 (n). Allora si ha 2 Fn (b) − Fn (a) = P σ (a ≤ Y ≤ b) µ ¶ µ ¶ 2 nU 2 nU 2 σ2 σ 2 nU 2 =P a≤ 2 ≤b =P ≤σ ≤ . σ b a Quindi, se al solito poniamo b = χ2β,n , a = χ2γ,n , avremo 1 − α = Fn (b) − Fn (a) = β − γ. Una scelta possibile `e β = 1 − α/2, γ = α/2, e si ottiene l’intervallo µ

¶ nU 2 , . χ21−α/2,n χ2α/2,n nU 2

Gli intervalli unilaterali si ottengono in modo analogo. Riportiamo solo le formule finali. (b) Intervallo unilaterale destro. µ

¶ nU 2 , +∞ . χ21−α,n 77

(c) Intervallo unilaterale sinistro. µ ¶ nU 2 0, 2 . χα,n (11.12) Intervalli di fiducia per la varianza della Normale con media non nota. Poich´e normalmente la media non `e nota, si pu`o cercare di sostituire µ con il suo stimatore X, usando, al posto di U 2 , la v. a. Pn (Xi − X)2 S 2 = i=1 n−1 (che `e ancora uno stimatore della varianza). Quindi applicheremo il metodo della quantit`a pivotale a partire dalla v. a. (n − 1)S 2 Z= , σ2 che, dal corollario al teorema di Cochran, sappiamo avere legge χ2 (n − 1). Dunque, per avere i tre nuovi intervalli baster`a sostituire nelle formule del paragrafo precedente n − 1 al posto di n (e i quantili della χ2 (n − 1) al posto di quelli della χ2 (n)). Si ottengono cos`ı le espressioni che seguono: (a) Intervallo bilaterale.

µ

¶ (n − 1)S 2 (n − 1)S 2 , . χ21−α/2,n−1 χ2α/2,n−1

(b) Intervallo unilaterale destro. µ

¶ (n − 1)S 2 , +∞ . χ21−α,n−1

(c) Intervallo unilaterale sinistro. µ ¶ (n − 1)S 2 . 0, χ2α,n−1 12. Teoria dei test Fare un test statistico significa formulare un’ipotesi riguardante il parametro θ ∈ Θ (che non `e noto) e pianificare un’esperienza per decidere se tale ipotesi pu`o essere ritenuta vera, e quindi accettata. Un’ipotesi statistica (usualmente indicata con il simbolo H0 e talvolta denominata ipotesi nulla) e la sua negazione, cio`e l’ alternativa (indicata con il simbolo H1 ) si formalizzano nel modo seguente. 78

¡ ¢ Dato il modello statistico Ω, F, (P θ , θ ∈ Θ) , si assegna una partizione dell’insieme Θ dei parametri in due sottoinsiemi non vuoti Θ0 e Θ1 (dunque Θ0 ∪ Θ1 = Θ e Θ0 ∩ Θ1 = ∅). (12.1) Esempio. Nell’esempio iniziale del controllo di qualit`a , supponiamo di voler sottoporre a test l’ipotesi H0 = la probabilit` a che un generico pezzo sia difettoso `e < 0.1 La formalizzazione `e la seguente Θ = (0, 1), Θ0 = (0, 0.1), Θ1 = [0.1, 1) e dobbiamo pianificare un’esperimento che ci permetta di discriminare tra l’ipotesi H0 : θ ∈ Θ0 (cio`e θ < 0.1) e l’alternativa H1 : θ ∈ Θ1 (cio`e θ ≥ 0.1). (12.2) Definizione. Si chiama funzione di test una funzione Φ : Ω → {0, 1} misurabile, cio`e della forma Φ = 1D , con D ∈ F. D = {ω ∈ Ω : Φ(ω) = 1} si chiama regione di rigetto o di rifiuto, o anche regione critica del test. Essa va interpretata come l’insieme dei risultati dell’esperimento che inducono (meglio sarebbe dire “obbligano”) lo sperimentatore a ritenere che l’ipotesi H0 sia falsa, e, come tale, a respingerla. In modo simmetrico, l’evento Dc si chiama regione di accettazione del test. (12.3) Osservazione. Identificheremo spesso un test con la sua regione critica: diremo quindi “il test D” invece che “il test di regione critica D”. (12.4) Esempio. Ancora nell’esempio del controllo di qualit`a (con l’ipotesi H0 stabilita in (12.1.)), supponiamo che l’esperimento da effettuare consista nel provare 100 pezzi, e che si sia deciso di rifiutare l’ipotesi nel caso che il numero di pezzi difettosi risulti maggiore (strettamente) di 11. La formalizzazione della situazione `e allora la seguente. Si prende il modello statistico (Ω, F, (P θ , θ ∈ Θ)) (che rappresenta la successione delle 100 prove P P di Bernoulli), in cui Ω = {0, 1}100 , F = P(Ω), P θ (ω) = θ i ωi (1 − θ)100− P100 significa che l’i−esimo pezzo `e difettoso). Poniamo poi T (ω) = i=1 ωi e ½ 0 se T (ω) ≤ 11 . Φ(ω) = 1 se T (ω) ≥ 12

i

ωi

(in cui ωi = 1

Allora Φ `e la funzione test e si pu`o scrivere Φ = 1D , dove D = {ω ∈ Ω : T (ω) ≥ 12} `e la regione critica del test. (12.5) Osservazione. Poniamo

½ g(θ) =

0 se θ ∈ Θ0 , 1 se θ ∈ Θ1

(a parole potremmo dire che g(θ) `e l’indice di quello tra i due sottoinsiemi Θ0 e Θ1 a cui θ appartiene). Allora la funzione Φ = 1D sopra introdotta non `e altro che uno stimatore di g(θ) (nel senso della definizione data a suo tempo): significa che, nell’eventualit`a che ω ∈ Dc (cio`e Φ(ω) = 0), allora decidiamo che θ ∈ Θ0 (e cio`e g(θ) = 0), e quindi accettiamo H0 , mentre se ω ∈ D (cio`e Φ(ω) = 1), allora diciamo che θ ∈ Θ1 (e cio`e g(θ) = 1), e quindi rifiutiamo H0 . Generalmente si ha a disposizione un certo numero di test, e bisogna decidere quale `e il pi` u affidabile. L’osservazione precedente (cio`e l’interpretazione della funzione di test come uno stimatore) 79

ci dice che ci`o `e possibile introducendo anche in questo caso (come per gli stimatori) un costo. Precisamente (12.6) Definizione. Il costo in un problema di test `e la funzione C : Θ × {0, 1} → R definita da ½ C(θ, a) =

a 1−a

se θ ∈ Θ0 se θ ∈ Θ1 .

Ricordiamo che il costo relativo alla stima U (ω) `e definito come C(θ, U (ω)). Dunque nel nostro caso vale C(θ, 1D (ω)): se θ ∈ Θ0 e decidiamo che θ ∈ Θ0 , allora non paghiamo alcun costo; viceversa, se θ ∈ Θ1 e decidiamo che θ ∈ Θ0 , allora paghiamo un costo (unitario) (e in modo simmetrico: se θ ∈ Θ1 e decidiamo che θ ∈ Θ1 , allora non paghiamo alcun costo; viceversa, se θ ∈ Θ1 e decidiamo che θ ∈ Θ0 , allora paghiamo un costo (unitario)). Di conseguenza il rischio dello “stimatore” 1D `e ½ θ

R(θ, 1D ) = E [C(θ, 1D )] =

E θ [1D ] = P θ (D) per θ ∈ Θ0 1 − E θ [1D ] = P θ (Dc ) per θ ∈ Θ1 .

La decisione che prenderemo (θ ∈ Θ0 oppure θ ∈ Θ1 ) dipende dal risultato dell’esperimento, ed `e dunque aleatoria. C’`e dunque una probabilit`a di prendere una decisione sbagliata. Precisamente: (12.7) Definizione. (a) Si chiama errore di prima specie l’errore che consiste nel respingere a torto l’ipotesi H0 (l’esperimento che abbiamo effettuato ha dato un risultato ω ∈ D ma in realt`a θ ∈ Θ0 ). La probabilit`a di commettere questo tipo di errore `e il numero P θ (D), per θ ∈ Θ0 . (b) Si chiama errore di seconda specie l’errore che consiste nell’accettare a torto l’ipotesi H0 (l’esperimento ha dato un risultato ω ∈ Dc ma in realt`a θ ∈ Θ1 ). La probabilit`a di commettere questo tipo di errore `e il numero P θ (Dc ), per θ ∈ Θ1 . Seguendo ancora la terminologia introdotta per gli stimatori, possiamo dare la definizione seguente: (12.8) Definizione. Un test (di regione critica) D `e preferibile ad un test (di regione critica) D∗ se R(θ, 1D ) ≤ R(θ, 1D∗ ) per ogni θ ∈ Θ. Ricordando l’espressione del rischio, si deve cio`e avere P θ (D) ≤ P θ (D∗ ) per θ ∈ Θ0 P θ (D) ≥ P θ (D∗ ) per θ ∈ Θ1 . (ovvero, se l’ipotesi `e vera, `e meno probabile respingerla con il test (di regione critica) D piuttosto che con il test (di regione critica) D∗ . Il contrario se l’ipotesi `e falsa). In modo analogo si possono dare le definizioni di test strettamente preferibile, test ammissibile e test ottimale. Con la relazione di preferibilit`a si ottiene solo un ordinamento parziale fra test: esistono infatti test tra loro non confrontabili (come accadeva per gli stimatori). 80

Esiste un altro criterio di ordinamento tra test, nel quale, a differenza del precedente, H0 e H1 non giocano un ruolo simmetrico. Spesso infatti si ritiene che sia meglio accettare un’ipotesi falsa piuttosto che respingere un’ipotesi vera. Come esempio, si pu`o pensare ad un test sul DNA usato per decidere la colpevolezza di una persona accusata di omicidio in uno stato dove per questo reato `e prevista la pena di morte: se l’ipotesi H0 corrisponde all’affermazione “l’imputato `e innocente”, e H1 all’affermazione “l’imputato `e colpevole”, accettare l’ipotesi falsa equivale a mandare libero un assassino, ma respingere l’ipotesi vera significa condannare a morte un innocente, cosa ben pi` u grave. In altri termini si considera meno grave commettere un errore di seconda specie piuttosto che uno di prima specie. Questo conduce ad una nuova relazione di preordinamento sulle funzioni test, che traduce il fatto che lo sperimentatore deve cautelarsi contro la possibilit`a di commettere un errore di prima specie. (12.8) Definizione. (a) Si chiama taglia del test la “massima probabilit`a di errore di prima specie”, cio`e il numero supθ∈Θ0 P θ (D). (b) Fissato α ∈ (0, 1), si dice che il test `e di livello α se la sua taglia `e minore o uguale ad α: sup P θ (D) ≤ α. θ∈Θ0

Contrariamente al caso in cui θ ∈ Θ0 , nel caso in cui θ ∈ Θ1 , P θ (D) rappresenta la probabilit`a di fare la scelta giusta. Questo giustifica la definizione seguente: (12.9) Definizione. La funzione definita su Θ1 da θ 7→ P θ (D) si chiama potenza del test. (12.10) Osservazione. In genere, H0 `e un’ipotesi che si spera di poter respingere, cio`e si tratta di un’ipotesi per cos`ı dire “allarmante”; in quest’ottica, la quantit`a 1−P θ (D), con θ ∈ Θ1 (probabilit`a di accettare a torto H0 ) `e spesso chiamata probabilit`a di “falso allarme”, o probabilit`a di “falso positivo”. In particolare la seconda espressione `e comune (e ben nota a tutti) per i test medici, e si usa anche nell’ambito degli studi sulla sicurezza informatica. Allo scopo di garantirsi contro la possibilit`a di errore di prima specie, si fissa per prima cosa un livello α; in altri termini, il numero α `e la “massima probabilit`a di errore di prima specie che lo sperimentatore `e disposto a tollerare”. D’altro canto, `e anche auspicabile che la potenza non sia troppo bassa (perch´e questo significherebbe una probabilit`a bassa di fare la scelta corretta nel caso che sia vera l’alternativa). Dunque, se Dα `e la classe dei test di livello α, si dice che il test (di regione critica) D `e uniformemente il pi` u potente (abbreviato in UPP, o UMP, uniformly most powerful in inglese) tra i test di livello α se D ∈ Dα e D `e pi` u potente di ogni altro test D∗ ∗ appartenente a Dα , cio`e se, per ogni D ∈ Dα , si ha P θ (D) ≥ P θ (D∗ ),

∀ θ ∈ Θ1 .

In altre parole si cerca di scegliere il test D la cui potenza sia la pi` u alta possibile (tra i test di Dα ). 81

(12.11) Osservazione. La teoria delle regioni di fiducia pu`o essere considerata un caso particolare della teoria dei test. Fissiamo infatti θ0 ∈ Θ e consideriamo il test d’ipotesi H0 : θ = θ0 contro l’alternativa H1 : θ 6= θ0 . Supponiamo che D(θ0 ) sia la regione critica di un test di livello α dell’ipotesi H0 contro l’alternativa H1 . Supponiamo di avere scelto D(θ) con questo procedimento per ogni θ ∈ Θ (mantenendo fisso α); consideriamo la regione di fiducia S : Ω → P(Θ) definita da S(ω) = {θ ∈ Θ : ω ∈ / D(θ)}. Si ha subito

¡ ¢ ¡ ¢ P θ (θ ∈ / S) = P θ {ω : ω ∈ D(θ)} = P θ D(θ) ≤ α,

e quindi S `e una regione di fiducia di livello 1 − α. Viceversa, se S `e una regione di fiducia di livello 1 − α, l’insieme D(θ0 ) = {ω : θ0 ∈ / S(ω)} `e la regione critica di un test di livello α dell’ipotesi H0 : θ = θ0 contro l’alternativa θ 6= θ0 . Infatti in questo caso Θ0 = {θ0 } e quindi ¡ ¢ ¡ ¢ sup P θ D(θ0 ) = P θ0 D(θ0 ) = P θ0 (θ0 6∈ S) ≤ α.

θ∈Θ0

13. Il lemma di Neymann–Pearson In questo paragrafo studieremo il caso in cui Θ = {0, 1}. I risultati che otterremo potranno essere poi applicati anche a casi pi` u generali. Si dice che l’ipotesi (risp. l’alternativa) `e semplice se Θ0 (risp. Θ1 ) `e formato da un solo punto. Supponendo che sia l’ipotesi che l’alternativa siano semplici, Θ pu`o essere rappresentato nella forma Θ = {0, 1}. In questo caso `e possibile dire esattamente quali sono i “buoni” test. Si tratta della teoria di Neymann–Pearson, di cui ci occupiamo adesso. ¡ ¢ In questo paragrafo si suppone dunque che il modello statistico sia del tipo Ω, F, (P θ , θ ∈ {0, 1} , cio`e sia formato da due sole probabilit`a. Cominciamo con l’osservare che un tale modello `e certamente dominato (una misura dominante `e per esempio µ = P 0 + P 1 ); scegliamo allora una misura i dominante µ e siano pi (i = 0, 1) una scelta delle densit`a dP dµ . (13.1) Lemma di Neymann–Pearson. Sia C un numero reale strettamente positivo. L’insieme D = {p1 > Cp0 } `e la regione critica di un test dell’ipotesi H0 : θ = 0 contro l’alternativa H1 : θ = 1, con taglia α = P 0 (D). Questo test `e ammissibile e UPP tra i test di livello α. (13.2) Osservazione. Questo test rifiuta H0 se la densit`a di P 1 `e molto pi` u grande di quella di P 0 : intuitivamente, ricordando che valori grandi della densit`a corrispondono a valori dell’osservazione pi` u probabili, ci`o significa che, se p1 `e grande allora `e vera l’alternativa (e infatti per p1 /p0 grande siamo nella zona di rigetto). Se invece p0 `e grande allora `e vera l’ipotesi (infatti per p1 /p0 piccolo siamo nella regione di accettazione). 82

(13.3) Osservazione. La funzione p1 /p0 si chiama rapporto di verosimiglianza . Dimostrazione. Sia D∗ un’altra regione critica: integrando rispetto a µ la diseguaglianza ¡ ¢ 1D∗ − 1D (p1 − Cp0 ) ≤ 0 (se p1 − Cp0 > 0 (risp. ≤ 0), allora 1D = 1 (risp. 1D = 0)); otteniamo ¡ ¢ P 1 (D∗ ) − P 1 (D) ≤ C P 0 (D∗ ) − P 0 (D) . Da questa diseguaglianza segue che (i) D `e ammissibile e che (ii) D `e pi` u potente di D∗ se D∗ ha 0 livello P (D). Infatti: (i) D `e ammissibile se non esiste alcun test D∗ strettamente preferibile. Se per assurdo tale D∗ esistesse, esso sarebbe intanto preferibile a D, e quindi P 0 (D∗ ) ≤ P 0 (D) e P 1 (D∗ ) ≥ P 1 (D) (ricordare che in generale affinch´e D∗ sia preferibile a D si deve avere P θ (D∗ ) ≤ P θ (D) se θ ∈ Θ0 , mentre deve valere la diseguaglianza contraria se θ ∈ Θ1 ). Ma per la diseguaglianza precedente, queste due relazioni sono compatibili se e solo se P 0 (D∗ ) = P 0 (D) e P 1 (D∗ ) = P 1 (D). Dunque D∗ non pu`o essere strettamente preferibile a D (perch`e in almeno uno dei due casi (θ = 0 e θ = 1) dovrebbe valere la diseguaglianza stretta). (ii) Dire che D∗ ha livello α = P 0 (D), significa che P 0 (D∗ ) = α = P 0 (D) e quindi, per la diseguaglianza iniziale, si ha P 1 (D) ≥ P 1 (D∗ ), cio`e la potenza di D non `e inferiore alla potenza di D∗ . (13.4) Osservazione. Si verifica facilmente che il lemma rimane valido anche per C = 0 (e in tal caso D = {p1 > 0}) oppure per C = +∞, con la convenzione 0 · (+∞) = 0, (e in tal caso si pone D = {p0 = 0, P 1 > 0}. Si presenta ora il problema di determinare C. In base al Lemma di N–P., assegnato a priori α ∈ (0, 1), il test di regione critica D = {p1 > Cp0 } sar`a di livello α se C `e tale che P 0 (p1 > Cp0 ) = α, ovvero se, posto per ogni numero reale positivo x, f (x) = P 0 (p1 > xp0 ), esiste una soluzione dell’equazione f (x) = α, (detto in altre parole, se la funzione f : R+ → (0, 1) `e surgettiva). In generale questo non succede. Infatti, si vede facilmente che la funzione f `e non crescente, continua a destra ed inoltre limx→+∞ f (x) = 0 (verifica per esercizio). Tuttavia f in ¢generale ¡ non `e continua, e dunque, se α appartiene ad un intervallo del tipo f (x0 ), limx→x− f (x) , con x0 0 punto di discontinuit`a di f , la soluzione dell’equazione precedente non esiste. In altre parole, posto C = inf{x : f (x) ≤ α} (la funzione α 7→ inf{x : f (x) ≤ α} si chiama anche inversa generalizzata di f e quindi, se la indichiamo con il simbolo usuale f −1 , si pu`o scrivere C = f −1 (α)), si vede facilmente che valgono solo le diseguaglianze limx→C − f (x) ≥ α ≥ f (C), e cio`e P 0 (p1 ≥ Cp0 ) ≥ α ≥ P 0 (p1 > Cp0 ). Ne segue che la condizione (necessaria e sufficiente) affinch´e l’equazione f (x) = α abbia soluzione `e che f sia continua o, equivalentemente (verifica per esercizio) che P (p1 = xp0 ) = 0 per ogni x. Notiamo per inciso che, se tale condizione `e valida e se la funzione f `e strettamente decrescente, la soluzione esiste ed `e anche unica (a causa della stretta monotonia di f ). 83

Proprio per poter costruire un test che abbia esattamente la taglia desiderata (e anche per poter caratterizzare in modo preciso tutti i test ammissibili nel caso di ipotesi e alternativa semplici) `e stata costruita la teoria dei test aleatori, di cui ci occuperemo in seguito. Qui diamo intanto qualche esempio di test deterministici. (13.5) Esempio. Si vuole verificare se `e stato inviato un segnale deterministico noto, funzione del tempo, s(t), con 0 ≤ t ≤ T , al quale, tuttavia, si sovrappone un rumore aleatorio, anch’esso funzione del tempo, B(t) (cio`e il segnale risultante dopo l’invio `e U (t) = s(t) + B(t)). A questo scopo, si campiona il segnale in n istanti t1 < t2 < . . . < tn , e poniamo si = s(ti ), Bi = B(ti ). Supponiamo che le v. a. Bi siano indipendenti e di legge N (0, σ 2 ) (con σ 2 noto). Sia poi (U1 , U2 , . . . , Un ) la sequenza degli n segnali ricevuti, e sia H0 l’ipotesi “il segnale `e stato effettivamente inviato”. Sotto H0 , le v. a. Ui sono dunque indipendenti e di legge N (si , σ 2 ), mentre sotto l’alternativa H1 (che significa che il segnale non `e stato inviato, e dunque si `e ricevuto solo il rumore aleatorio B), le Ui sono ancora indipendenti ma di legge N (0, σ 2 ). Rispetto alla misura di Lebesgue n−dimensionale, le due verosimiglianze sono rispettivamente ³

n ´ 1 X 2 p (u1 , . . . , un ) = exp − (u − s ) ; i i 2σ 2 i=1 (2π)n/2 σ n

1

0

p1 (u1 , . . . , un ) =

n ³ 1 X 2´ u ; exp − 2σ 2 i=1 i (2π)n/2 σ n

1

sappiamo inoltre dal lemma di N–P. che le buone regioni critiche sono del tipo (qui λ = 1/C) Dλ = Dato che

n p0 p1

o Cp0 } + γ1{p1 =Cp0 } 86

abbia taglia α. (b) Ogni test di Neymann–Pearson Φ `e ammissibile (cio`e non esistono test strettamente preferibili) e UPP tra i test di taglia E 0 [Φ]. (c) Condizione necessaria e sufficiente affinch´e Φ sia di Neymann–Pearson `e che, per ogni Φ∗ tale che E 0 [Φ∗ ] 6 E 0 [Φ], si abbia E 1 [Φ∗ ] 6 E 1 [Φ]. (d) Ogni test Φ ammissibile `e di Neymann–Pearson. Dimostrazione. (a) Sia f la funzione definita da f (x) = P 0 (p1 > xp0 ). Abbiamo allora visto (a p. 82) che, posto C = f −1 (α) (f −1 inversa generalizzata di f ),valgono le diseguaglianze P 0 (p1 ≥ Cp0 ) ≥ α ≥ P 0 (p1 > Cp0 ), e che α = P 0 (p1 > Cp0 ) se e solo se P 0 (p1 = Cp0 ) = 0. Un test della forma Φ = 1{p1 >Cp0 } + γ1{p1 =Cp0 } ha taglia E 0 [Φ] = P 0 (p1 > Cp0 ) + γP 0 (p1 = Cp0 ), che, nel caso che P 0 (p1 = Cp0 ) = 0, `e uguale ad α , per ogni γ, per quanto detto sopra. Se invece P 0 (p1 = Cp0 ) 6= 0, la costante γ richiesta `e data da γ=

α − P 0 (p1 > Cp0 ) . P 0 (p1 = Cp0 )

(b) Supponiamo Φ di N.–P.; sia Φ∗ un altro test. Sia C la costante relativa a Φ fornita dalla definizione (14.3). Si parte dalla diseguaglianza (si dimostra come quella del lemma di N–P) ¡ ∗ ¢¡ ¢ Φ (ω) − Φ(ω) p1 (ω) − Cp0 (ω) ≤ 0; integrando rispetto a µ si trova la relazione ¡ ¢ E 1 [Φ∗ ] − E 1 [Φ] 6 C E 0 [Φ∗ ] − E 0 [Φ] ; si prosegue la dimostrazione come nel lemma di N–P. (c) Se Φ `e di N.–P. e Φ∗ un altro test, la relazione precedente dice che se E 0 [Φ∗ ] 6 E 0 [Φ], allora E 1 [Φ∗ ] 6 E 1 [Φ]. Viceversa, sia Φ un test per il quale vale la condizione enunciata in (c) e poniamo α = E 0 [Φ]. Per il punto (a), esiste un test Φ∗ di N.–P. avente taglia α (in altre parole E 0 [Φ∗ ] = E 0 [Φ]); inoltre Φ∗ , essendo di N.–P., soddisfa la condizione enunciata in (c) (per la prima parte di questa dimostrazione); dato che E 0 [Φ] = E 0 [Φ∗ ], ci`o implica che E 1 [Φ] 6 E 1 [Φ∗ ]. D’altra parte per ipotesi anche Φ verifica la condizione enunciata in (c), e dunque deve essere anche E 1 [Φ∗ ] 6 E 1 [Φ], e le ultime due diseguaglianze sono compatibili se e solo se E 1 [Φ∗ ] = E 1 [Φ]. Ne deduciamo che, per ogni costante C > 0, si ha Z

¡ ¢ ¡ ¢ (Φ − Φ∗ )(p1 − Cp0 ) dµ = E 1 [Φ] − E 1 [Φ∗ ] − C E 0 [Φ] − E 0 [Φ∗ ] = 0. 87

Sia ora C ∗ `e la costante associata al test Φ∗ (che, ricordiamo, `e di N.–P.); sappiamo (relazione dimostrata nel punto (b)) che ¡ ¢¡ ¢ Φ(ω) − Φ∗ (ω) p1 (ω) − C ∗ p0 (ω) ≤ 0; dunque questa funzione `e non positiva e con integrale nullo si Ω e di conseguenza `e µ−q.o. nulla; ci`o significa che sull’evento {p1 6= p0 } si deve avere Φ = Φ∗ , e di conseguenza anche Φ `e di N.–P. (esattamente come Φ∗ , Φ vale 1 su {p1 > C ∗ p0 } e 0 su {p1 < C ∗ p0 }). (d) Sia Φ ammissibile, e sia Φ∗ un test di N.–P. con taglia α = E 0 [Φ] (l’esistenza `e garantita dal punto (a)). Dunque E 0 [Φ] = E 0 [Φ∗ ], e di conseguenza R(0, Φ) = R(0, Φ∗ ). Poich´e Φ `e ammissibile, non pu`o accadere che R(1, Φ∗ ) < R(1, Φ) e cio`e dovr`a essere E 1 [Φ∗ ] 6 E 1 [Φ]. D’altra parte anche Φ∗ `e ammissibile per il punto (b), e quindi sar`a anche E 1 [Φ] 6 E 1 [Φ∗ ]. Queste due relazioni sono compatibili tra loro se e solo se E 1 [Φ] = E 1 [Φ∗ ]. A questo punto si procede come nella dimostrazione del punto (c). (14.5) Corollario. Se Φ `e un test di Neymann–Pearson, allora E 1 [Φ] ≥ E 0 [Φ]. Dimostrazione. Poniamo α = E 0 [Φ], e consideriamo il test Φ∗ ≡ α. Allora, dato che Φ `e UPP, si ha E 1 [Φ] ≥ E 1 [Φ∗ ] = α = E 0 [Φ].

15. Test unilaterali e bilaterali. Supponiamo assegnato un modello statistico nel quale l’insieme dei parametri Θ `e un intervallo (in senso lato) della retta reale. (15.1) Definizione. Si chiama test unilaterale un test della forma H0 : θ ≤ θ0 contro H1 : θ > θ0 (dove θ0 `e un elemento fissato di Θ). (15.2) Osservazione. Anche un test del tipo H0 : θ ≥ θ0 contro H1 : θ < θ0 `e unilaterale nel senso della definizione data sopra: basta cambiare il parametro con la trasformazione θ 7→ −θ. (15.3) Esempio. Il test sul controllo di qualit`a trattato all’inizio `e un test unilaterale. I test di questo tipo si trattano bene se il modello ha la propriet`a seguente. (15.4) Definizione. Supponiamo il modello dominato da µ. Si dice che la famiglia delle verosimiglianze `e a rapporto di verosimiglianza crescente (risp. decrescente) se esiste una v. a. reale T e, per ogni coppia (θ1 , θ2 ), con θ1 < θ2 , una funzione crescente (risp. decrescente) fθ1 ,θ2 : R → [0, +∞] tali che L(θ2 ) = fθ1 ,θ2 (T ), µ − q.o. L(θ1 ) Basta ovviamente considerare il caso di rapporto di verosimiglianza crescente: nel caso decrescente ci si riporta all’altro utilizzando la variabile −T al posto di T . 88

¡ ¢ (15.5) Esempi. (a) Per un modello esponenziale con verosimiglianza L(θ) = exp θT − ψ(θ) si ha ¡ ¢ L(θ2 ) = exp(ψ(θ1 ) − ψ(θ2 )) exp (θ2 − θ1 )T , L(θ1 ) ¡ ¢ e la funzione fθ1 ,θ2 : x 7→ exp (θ2 − θ1 )x `e crescente. (b) Sia (X1 , . . . , Xn ) un campione di legge uniforme su [0, θ], e L(θ) = θ−n 1{max1≤i≤n Xi ≤θ} (rispetto alla misura di Lebesgue). Ponendo T = max1≤i≤n Xi , si ha ½ L(θ2 ) θ1n θ2−n per T ≤ θ1 = +∞ per T > θ1 . L(θ1 ) La funzione

½ fθ1 ,θ2 : x 7→=

θ1n θ2−n +∞

per x ≤ θ1 per x > θ1

`e chiaramente crescente. (15.6) Osservazione. Come abbiamo appena visto, L(θ1 ) pu`o essere nullo, pi` u precisamente si pone a/0 = +∞ se a > 0 e 0/0 = qualsiasi valore ci faccia comodo, dato che l’unica cosa che interessa `e che valga l’uguaglianza L(θ2 ) = L(θ1 )fθ1 ,θ2 (T ). Nell’esempio (b) precedente, se θ1 < T < θ2 si ha L(θ2 )/L(θ1 ) = a/0, con a > 0. Invece se θ2 ≤ T , si ha L(θ2 )/L(θ1 ) = 0/0, e si prende il valore +∞ perch´e questo `e l’unico modo per rendere fθ1 ,θ2 crescente. Vogliamo adesso vedere che per un test unilaterale, se il modello `e a rapporto di verosimiglianza crescente, le “buone”regioni critiche sono del tipo {T > C} o {T ≥ C} (o qualcosa di intermedio). (15.7) Lemma. Supponiamo che il modello sia a rapporto di verosimiglianza crescente, e sia Φ = 1{T >C} + γ1{T =C} (con C ∈ R e 0 ≤ γ ≤ 1). Allora, per ogni θ1 < θ2 , Φ `e un test di Neymann-Pearson dell’ipotesi H0 : θ = θ1 contro H1 : θ = θ2 . Dimostrazione. Sia C ∗ = fθ1 ,θ2 (C); `e evidente che 2) ∗ (i) se L(θ L(θ1 ) (ω) = fθ1 ,θ2 (T (ω)) < C , allora T (ω) < C e quindi Φ(ω) = 0 (accetto H0 ); (ii) se invece

L(θ2 ) L(θ1 ) (ω)

= fθ1 ,θ2 (T (ω)) > C ∗ , allora T (ω) > C e quindi Φ(ω) = 1 (respingo H0 ).

(15.8) Osservazione. Notiamo che pu`o aversi C ∗ = 0 oppure C ∗ = +∞; per questo nella dimostrazione del Lemma di N.–P. avevamo preso in considerazione anche questi casi. (15.9) Osservazione. Per il Corollario (13.5), si ha Eθ2 [Φ] ≥ Eθ1 [Φ], e cio`e la funzione θ 7→ Eθ [Φ] `e crescente. (15.10) Teorema. (a) Fissati C ∈ R e 0 ≤ γ ≤ 1, il test aleatorio Φ = 1{T >C} + γ1{T =C} 89

`e un test dell’ipotesi H0 : θ ≤ θ0 contro H1 : θ > θ0 , ammissibile, di taglia Eθ0 [Φ] e UPP tra i test di livello Eθ0 [Φ]. (b) Fissato 0 < α < 1, si possono determinare C e γ in modo tale che la taglia di Φ sia esattamente α. Dimostrazione. Poich´e θ 7→ Eθ [Φ] `e crescente, la taglia del test `e sup Eθ [Φ] = Eθ0 [Φ] θ≤θ0

. Dimostriamo che Φ `e UPP e ammissibile. Per il lemma precedente, per ogni θ > θ0 Φ `e un test di N.–P. di ipotesi e alternativa semplici. Dunque, per il Teorema di N.–P., `e ammissibile e UPP tra i test di livello Eθ0 [Φ] (il Teorema di N–P richiede il livello E 0 [Φ], che, in questo caso, per il lemma `e proprio Eθ0 [Φ]). (b) Questo punto si dimostra esattamente come nel teorema di N.–P. (15.11) Osservazione. Il teorema precedente dice che se il modello `e a rapporto di verosimiglianza crescente, le “buone ”regioni critiche sono del tipo {T > C} (caso γ = 0) oppure {T ≥ C} (caso γ = 1). Tuttavia `e possibile prendere anche un caso intermedio 0 < γ < 1. Questo suggerisce che una buona regione critica D sia del tipo {T > C} ⊆ D ⊆ {T ≥ C}. (15.12) Osservazione. Supponiamo di avere una regione critica del tipo {T > C}, caso γ = 0 (oppure {T ≥ C}, caso γ = 1). Volendo calcolare C in funzione del livello α desiderato, si deve risolvere rispetto a C l’equazione Eθ0 [Φ] = P θ0 (T > C) = 1 − P θ0 (T ≤ C) = α, ovvero

P θ0 (T ≤ C) = 1 − α,

quindi bisogna conoscere la legge di T sotto P θ0 . Se, sotto P θ0 , T ha f.d.r. FT continua e strettamente crescente (almeno su un intervallo contenuto in R la cui immagine secondo FT sia tutto l’intervallo (0, 1)) l’equazione precedente ha l’unica soluzione C = q1−α , dove q1−α `e il quantile di ordine 1 − α della legge di T (sotto P θ0 ). (15.13) Osservazione. (a) Se la famiglia delle verosimiglianze `e a rapporto di verosimiglianza decrescente, si prendono test della forma Φ = 1{T 0,∀ i} e ½ ¡ ¢ Pn n −n L(θ2 ) θ θ exp − (θ − θ ) X se Xi > 0, ∀ i 2 1 i 2 1 i=1 = L(θ1 ) +∞ altrove 90

Pn `e a rapporto di verosimiglianza crescente in T = − i=1 Xi . Pertanto le buone regioni critiche sono della forma n n n X o nX o − Xi > C = Xi < −C , C < 0. i=1

i=1

Calcoliamo la taglia il risultato teorico, e posto a = −C, `e data dal numero ³P ´ del test, che, perP n n 1 P1 X < a . Sotto P , la v. a. i=1 i i=1 Xi ha legge Γ(n, 1) e pertanto, integrando per parti, P1

n ³X

´ Xi < a =

i=1

= ... = e

· −a

1 (n − 1)!

Z

a

xn−1 e−x dx =

0

Z a ¯a 1 −1 ¯ xn−1 e−x ¯ + xn−2 e−x dx (n − 1)! (n − 2)! 0 0

¸ a an−2 − − − . . . − a + 1. (n − 1)! (n − 2)! n−1

Se vogliamo fissare il livello α, si deve allora risolvere l’equazione ¸ · an−2 an−1 −a − − . . . − a + 1 = α, e − (n − 1)! (n − 2)! che ammette una e una sola soluzione a. La regione critica `e cos`ı determinata. (15.15) Esempio. Torniamo all’esempio (2.9)(c) e consideriamo il test dell’ipotesi H0 : θ ≥ 0 contro H1 : θ < 0. Il rapporto di verosimiglianza n

L(θ2 ) (θ2 + 1)n ¡ Y ¢θ2 −θ1 = Xi L(θ1 ) (θ1 + 1)n i=1 `e crescente, e quindi le buone regioni critiche sono del tipo n nY

o Xi ≤ C .

i=1

Volendo calcolare C in funzione del livello desiderato α, osserviamo che, sotto P 0 , la v. a. − log Xi Pn `e esponenziale di parametro 1, dunque − i=1 log Xi ha legge Γ(n, 1) e quindi si deve risolvere l’equazione n n ³Y ´ ³ X ´ α = P0 Xi ≤ C = P 0 − log Xi ≥ − log C = · · · i=1

i=1

(15.16) Esercizio. Esaminare il test H0 : θ ≥ 1/2 contro H1 : θ < 1/2 per un campione di legge (i) di Poisson di parametro θ; (ii) di Bernoulli di parametro θ. Questo secondo caso `e quello del controllo di qualit`a (esempio iniziale). (15.17) Definizione. Si chiama test bilaterale un test della forma H0 : θ ∈ [θ1 , θ2 ], dove θ1 e θ2 sono due punti interni a Θ (pu`o accadere che sia θ1 = θ2 ). 91

Per i test bilaterali, vale un risultato meno forte del teorema sui test unilaterali visto sopra, e in condizioni molto pi` u restrittive. Bisogna innanzitutto limitarsi al caso di un modello esponenziale ¡ ¢ con verosimiglianza L(θ) = exp θT − ψ(θ) , e bisogna poi supporre che, per ogni x, si abbia µ(T = x) = 0 (µ misura dominante). Occorre poi introdurre un’ulteriore (15.18) Definizione. Un test Φ si dice corretto se la potenza `e superiore alla taglia, cio`e se, comunque si scelgano θ0 ∈ Θ0 e θ1 ∈ Θ1 , si ha Eθ1 [Φ] ≥ Eθ0 [Φ]. (15.19) Osservazione. Abbiamo visto (Corollario (14.5)) che i test di N.–P. sono corretti. Anche i test del teorema (15.10) sono corretti. Nelle ipotesi sopra precisate, vale il seguente risultato (di cui omettiamo la dimostrazione, alquanto complessa): (15.20) Teorema.© Assegnato 0ª< α < 1, si possono determinare due numeri reali C1 < C2 tali che l’insieme D = T 6∈ [C1 , C2 ] sia soluzione del sistema ½ (i)

P θ1 (D) = α P θ2 (D) = α

se θ1 6= θ2 , oppure del sistema

(ii)

 θ1   P (D) = α ¯ θ ¯   dP dθ(D) ¯ =0 θ=θ1

se θ1 = θ2 . In tal caso il test (deterministico) di regione critica D `e un test corretto, di taglia α, dell’ipotesi H0 : θ ∈ [θ1 , θ2 ] contro l’alternativa H1 : θ 6∈ [θ1 , θ2 ], UPP tra i test corretti di livello α. (15.21) Esempio: test sulla media di un campione gaussiano, con varianza nota. Sia X1 , . . . , Xn un campione di legge N (m, σ 2 ), dove σ 2 `e un valore noto. La verosimiglianza (rispetto alla misura di Lebesgue n−dimensionale) ha la forma ³ Pn (X − m)2 ´ 1 i L(m) = exp − i=1 2 2σ (2π)n/2 σ n e con qualche calcolo si vede che n ³m − m ¡ X ¢´ L(m2 ) 2 1 = c(m1 , m2 ) exp · Xi 2 L(m1 ) σ i=1

Pn e quindi `e a rapporto di verosimiglianza crescente rispetto alla v. a. X = 92

i=1

n

Xi

.

Per un test della forma H0 : m ≤ m0 scegliamo un test (deterministico) di regione critica {X > C} con C tale che P m0 (X > C) = α. Sotto P m0 , la legge di X `e , come sappiamo, la N (m0 , σ 2 /n), e quindi ³C − m √ ´ 0 α = P m0 (X > C) = 1 − P m0 (X ≤ C) = 1 − Φ n , σ da cui C − m0 √ n = φ1−α , σ da cui si ricava facilmente C. Gli stessi risultati si ottengono scegliendo un test (ancora deterministico) di regione critica {X ≥ C} (osservando che gli eventi del tipo {X = C} sono trascurabili rispetto a P m0 ). Per un test bilaterale del tipo H0 : m = m0 contro H1 : m 6= m0 , si deve dapprima risolvere in C1 e C2 il sistema  m0   P (X 6∈ [C1 , C2 ]) = α ¯ ¯ d   dm P m (X 6∈ [C1 , C2 ])¯ = 0. m=m0

Notiamo che à m

P (X 6∈ [C1 , C2 ]) = P

m

X −m √σ n

! Ã ! Ã ! hC − m C − mi C1 − m C2 − m 1 2 6∈ , =Φ +1−Φ , σ σ σ σ √ n

√ n

√ n



n

(Φ= f.d.r della normale standard). Dunque à ! √ à ! √ d m n n C1 − m C2 − m + , P (X 6∈ [C1 , C2 ]) = − ϕ ϕ √σ √σ dm σ σ n n (ϕ= densit`a normale standard). Quindi l’equazione ¯ d m ¯ P (X 6∈ [C1 , C2 ])¯ =0 dm m=m0 diventa

à ϕ

C1 − m 0 √σ n

!

à =ϕ

C2 − m 0

! .

√σ n

L’equazione ϕ(x) = ϕ(y) ha le soluzioni x = y e x = −y, che per noi significano rispettivamente C1 = C2 e C1 + C2 = 2m0 . La prima di queste relazioni non `e utilizzabile (altrimenti sarebbe P m0 (X 6∈ [C1 , C1 ]) = 1 > α). La seconda equivale a C1 = m0 − C e C2 = m0 + C, con C ∈ R. A questo punto si pu`o determinare C (per mezzo delle tavole della normale standard) dalla relazione à Φ

C1 − m0 √σ n

!

à +1−Φ 93

C2 − m0 √σ n

! = α,

ovvero

(

Ã

2 1−Φ che ha la soluzione C =

C

!) = α,

√σ n

√σ φ1−α/2 n

(15.22) Esempio: test sulla varianza di un campione gaussiano, con media nota. Sia X1 , . . . , Xn un campione di legge N (m, σ 2 ), dove m `e un valore noto. La verosimiglianza (rispetto alla misura di Lebesgue n−dimensionale) `e ³ Pn (X − m)2 ´ 1 i L(σ 2 ) = exp − i=1 2 2σ (2π)n/2 σ n e con qualche calcolo si vede che il rapporto di verosimiglianza si scrive nella forma ! Ã n ³ 1 σ2 X 1 ´ L(σ22 ) 2 = exp −n log − 2 + (Xi − m) L(σ12 ) σ1 i=1 2σ12 2σ2 Pn 2 ed `e crescente rispetto alla v. a. . Per un test unilaterale del tipo H0 : σ 2 ≤ σ02 i=1 (Xi −©m) ª © Pn Pn 2 σ02 2 scegliamo dunque una regione critica del tipo i=1 (Xi − m) > C , con P i=1 (Xi − m) > ª Pn 2 2 σ02 2 C = α. Ricordando che la v.a. i=1 (Xi − m) , sotto P ha legge σ0 · χ (n), si trova α=P

σ02

( n X

) 2

(Xi − m) > C

2

½ Pn

i=1 (Xi σ02

= P σ0

i=1

− m)2

>

C σ02

¾ =1−F

³C´ σ02

,

e quindi, dalle tavole dei quantili della χ2 (n), si ottiene C = σ02 · χ21−α (n). © Pn Per un test bilaterale del tipo H0 : σ 2 = σ02 , si prende una regione critica della forma i=1 (Xi − m)2 6∈ [C1 , C2 ]}, dove per il teorema (14.20), C1 e C2 sono determinate dalle relazioni (α = livello desiderato) ( σ2 ¡ Pn 2 P 0 i=1 ³ (Xi −´m) 6∈ [C1 , C³2 ]) = α, ´ n/2

C1

C1 exp − 2σ 2 0

n/2

= C2

C2 exp − 2σ , 2 0

ma il calcolo effettivo `e quasi impossibile. 16. Test in presenza di un parametro fantasma. Supponiamo che, in un problema di test, Θ sia un prodotto cartesiano della forma Θ = Λ × M , ed inoltre che sia Θ0 = Λ0 × M , Θ1 = Λ1 × M , dove Λ0 e Λ1 sono una partizione di Λ: nel parametro del modello statistico θ = (λ, m), la componente m si chiama parametro fantasma per il problema di test indicato, e non `e noto. 94

La teoria generale in questa situazione `e piuttosto complicata. Faremo quindi solo due esempi, di largo impiego. Come regola generale diciamo solo che conviene cercare una statistica la cui legge non dipenda da m (ovviamente) e sia diversa per valori diversi di λ. In questo modo spesso il problema diventa semplice. (16.1) Esempio: test sulla varianza di un campione gaussiano, con media sconosciuta. Sia (X1 , . . . , Xn ) un campione di legge N (m, σ 2 ). Sappiamo che la v. a. T = legge σ 2 · χ2 (n − 1), la cui densit`a `e fσ2 (x) =

³ Γ

1 n−1 2

´·

³ 1 ´ n−1 2 2

σ −(n−1) x

Si ha in particolare

n−1 2 −1

³ fσ22 fσ12

(x) = c(σ1 , σ2 ) · e

x 2

Pn

i=1 (Xi

− X)2 ha

x

e− 2σ2 .

´ 1 σ2 1



1 σ2 2

,

e quindi questo modello `e a rapporto di verosimiglianza crescente. Un test unilatero della forma 2 2 H0 : σ 2 ≤ σ02 contro PnH1 : σ > σ20 basato sulla statistica T avr`a pertanto una regione critica del tipo {T > C} = { i=1 (Xi − X) > C}, dove C `e scelto, in funzione del livello α desiderato, in modo tale che n ³X ´ 2 P σ0 (Xi − X)2 > C = α. 2

Pn

i=1 (Xi −X)2

i=1 Dato che sotto P σ0 la v. a. ha legge χ2 (n − 1) (come sappiamo dal Teorema (8.7), σ02 corollario al Teorema di Cochran), si pu`o scrivere

α=P

σ02

n ³X i=1

2

´

(Xi − X) > C = P

σ02

³C´ ³ Pn (X − X)2 C´ i i=1 > = 1 − F , n−1 σ02 σ02 σ02

dove con Fn−1 indichiamo la f. d. r. della legge χ2 (n − 1). Si trova dunque C = σ02 · χ21−α (n − 1). (16.2) Esempio: il test di Student (test sulla media di un campione gaussiano, con varianza sconosciuta). Premettiamo una (16.3) Definizione. Si chiama legge di Student a n gradi di libert` a decentrata di a la legge di una v. a. del tipo √ X n√ , Y dove X ha legge N (a, 1), Y ha legge χ2 (n), e X e Y sono indipendenti. (16.4) Osservazione. Si pu`o verificare (ma i calcoli sono laboriosi) che queste leggi sono a rapporto di verosimiglianza crescente (rispetto al parametro a). 95

Consideriamo allora un campione di legge N (m, σ 2 ) e il test dell’ipotesi H0 : m ≤ 0 contro √ l’alternativa H1 √: m > 0; la v. a. T = n X a S ha legge di Student a (n − 1) gradi di libert` decentrata di m n. σ ³ ´ Conviene allora prendere come parametri della legge normale

m 2 σ ,σ

invece che (m, σ 2 ). Il test

m 2 diventa H0 : m e un parametro fantasma. Se per`o σ ≤ 0 contro l’alternativa H1 : σ > 0, e σ ` utilizziamo la statistica T , il test `e un test unilaterale, di regione critica {T > C}; per calcolare C in funzione del livello desiderato α, si tiene presente che se m σ = 0, T ha legge di Student a (n − 1) gradi di libert`a e il valore di C pu`o essere ricavato con i soliti conti.

Se il test `e H0 : m ≤ m0 contro l’alternativa H1 : m > m0 , si osserva che, se il campione (X1 , . . . , Xn ) ha legge N (m, σ 2 ), allora (Y1 , . . . , Yn ) = (X1 − m0 , . . . , Xn − m0 ) `e un campione di legge N (m − m0 , σ 2 ), e ci si pu`o ricondurre al caso precedente. Osservando che Y = X − m0 e che Pn SY2

=

− Y )2 = n−1

i=1 (Yi

la statistica del test `e

¡

Pn i=1

(Xi − m0 ) − (X − m0 ) n−1

¢2

Pn =

− X)2 , n−1

i=1 (Xi

√ √ √ Y n n − 1(X − m0 ) T = n = qP n SY (X − X)2 i=1

i

e si avr`a cos`ı una regione critica della forma    √n√n − 1(X − m )  0 qP >C .   n 2 i=1 (Xi − X) 17. Test del rapporto di verosimiglianza . Sia H0 : θ = 0 l’ipotesi, H1 : θ = 1 un test ad ipotesi ed alternativa semplici. Abbiamo visto dal lemma di Neymann–Pearson che in questo caso una buona regione critica `e {p0 < Cp1 }. In generale, (17.1) Definizione. Assegnate l’ipotesi H0 : θ ∈ Θ0 contro l’alternativa H1 : θ ∈ Θ1 , e supposto che le due funzioni supθ∈Θ0 L(θ) e supθ∈Θ1 L(θ) siano misurabili, si chiama test del rapporto di verosimiglianza un test di regione critica ½ ¾ sup L(θ) < C sup L(θ) . θ∈Θ0

θ∈Θ1

Se supθ∈Θ1 L(θ) `e sempre strettamente positiva, allora la regione critica si pu`o scrivere nella forma ½

¾ supθ∈Θ0 L(θ) 0, allora, preso A ∈ F, P θ (A) = P (θ, A) `e effettivamente una probabilit`a condizionale: P θ (A) = P (θ, A) = Q[Θ × A|{θ} × Ω], o, con abuso di scrittura P θ (A) = P (θ, A) = Q(A|θ). Infatti

¡ ¢ ¡ ¢ Q (Θ × A) ∩ ({θ} × Ω) Q {θ} × A ¡ ¢ ¡ ¢ Q[Θ × A|{θ} × Ω] = = Q {θ} × Ω Q {θ} × Ω R ν(dθ)P (θ, A) P (θ, A)ν(θ) {θ} = = R = P (θ, A) ν(dθ)P (θ, Ω) P (θ, Ω)ν(θ) {θ}

Quindi si pu`o dire che la probabilit`a di transizione P (θ, A) di (Θ, T ) su (Ω, F) d`a la probabilit`a di A, “noto il valore di θ”. Se invece vogliamo “aggiornare”la nostra conoscenza della probabilit`a a priori ν (cio`e del fenomeno che stiamo osservando), “noto il valore di ω”(cio`e dopo aver effettuato l’esperimento), abbiamo bisogno di una probabilit`a di transizione N (ω, T ) di (Ω, F) su (Θ, T ). Diamo allora la seguente (18.7) Definizione. Supponiamo che esista una probabilit`a di transizione N (ω, T ) di (Ω, F) su (Θ, T ) tale che, per ogni v.a. X limitata definita su (Θ × Ω, T × F ), risulti Z ˜ E[X|F](ω) = X(θ, ω) N (ω, dθ), Q − q.c. Θ

Allora la probabilit`a N (ω, ·) si chiama legge a posteriori su (Θ, T ) condizionale a ω. (18.8) Osservazione. Dunque il meccanismo bayesiano `e il seguente (a) prima dell’esperimento la legge a priori ν rappresenta la nostra conoscenza del fenomeno; (b) si effettua l’esperimento, che d`a l’esito ω; (c) la conoscenza del fenomeno `e aggiornata passando alla probabilit`a N (ω, ·). L’esistenza della legge a posteriori in ipotesi generali `e un teorema piuttosto complicato; noi ci limiteremo al caso di un modello dominato, che copre la maggior parte delle applicazioni. Supponiamo dunque che il modello sia dominato da una misura µ su (Ω, F) e che esista una versione θ della verosimiglianza L(θ, ω) = dP dµ (ω) che sia T ⊗ F misurabile (questo garantisce in particolare che θ 7→ P (θ, A) sia T −misurabile). 106

(18.9) Teorema. Nelle ipotesi sopra enunciate, poniamo Z A = {ω ∈ Ω : L(θ, ω)dν(θ) = 0}; Θ

Z L(θ, ω)dν(θ) = +∞}

M = {ω ∈ Ω : Θ

e g(θ, ω) =

 R 

L(θ, ω) L(τ, ω)ν(dτ ) Θ

1

se ω ∈ Ac se ω ∈ A

(con la convenzione c/∞ = 0). Allora (a) Θ × A `e Q−trascurabile;R (b) l’insieme M = {ω ∈ Ω : Θ L(θ, ω)dν(θ) = +∞} `e µ−trascurabile; (c) fissato ω ∈ M c , la funzione θ 7→ g(θ, ω) `e una densit`a di probabilit`a su (Θ, T ) rispetto a ν; (d) La probabilit`a di transizione definita da Z N (ω, T ) = g(θ, ω)dν(θ) T

`e la legge a posteriori su (Θ, T ) condizionale a ω. Dimostrazione. (a) Si ha, per definizione di verosimiglianza e per il Teorema di Fubini, Z Z Z Z Z Q(Θ × A) = dν(θ)P (θ, A) = dν(θ) P (θ, dω) = dν(θ) L(θ, ω)dµ(ω) Θ A Θ A Z ZΘ = dµ(ω) L(θ, ω)dν(θ) = 0, A

Θ

per la definizione di A. ` ovvio perch´e (b) E Z Z Z Z Z µ(dω) L(θ, ω)ν(dθ) = ν(dθ) L(θ, ω)µ(dω) = ν(dθ) = 1 < +∞. Ω Θ Θ Ω Θ | R {z } Ω

P (θ,dω)=1

c R(c) Dobbiamo provare che, fissato cω ∈ M , si ha g(θ, ω) ≥ 0 (questo `e ovvio) ed inoltre risulta g(θ, ω)ν(dθ) = 1. Ora, se ω ∈ A , si ha Θ

Z

Z

Θ

se ω ∈ A

L(θ, ω) ν(dθ) = 1; L(τ, ω)dν(τ ) Θ

R

g(θ, ω)dν(θ) = Θ

Z

Z g(θ, ω)dν(θ) =

Θ

1dν(θ) = 1. Θ

107

(d) Osserviamo prima di tutto che ω 7→ N (ω, T ) `e misurabile (per Fubini, dato che R `e l’integrale di una funzione misurabile). Inoltre T 7→ N (ω, T ) `e una probabilit`a (N (ω, Θ) = Θ g(θ, ω)dν(θ) = 1 per il punto (c)). Dunque N (ω, T ) `e effettivamente una probabilit`a di transizione (di (Ω, F) su (Θ, T )). Per vedere che si tratta effettivamente della legge a posteriori, in base alla definizione (18.7) dobbiamo far vedere che, se X `e una v. a. limitata definita su (Θ × Ω, T × F ), e posto Z L(θ, ω)  c  R   Θ X(θ, ω) L(τ, ω)ν(dτ ) ν(dθ) se ω ∈ A Z  Θ X(θ, ω)g(θ, ω)ν(dθ) = V (ω) = Z  Θ     X(θ, ω)ν(dθ) se ω ∈ A , Θ

su ogni insieme della forma Θ × B si ha ZZ

ZZ X dQ =

Θ×B

V dQ. Θ×B

Infatti, per la definizione di Q e per il punto (a), si ha ZZ ZZ Z Z X dQ = X dQ = ν(dθ) X(θ, ω)P (θ, dω) Θ×B Θ×(B∩Ac ) Θ B∩Ac Z Z = ν(dθ) X(θ, ω)L(θ, ω)µ(dω); Θ

B∩Ac

d’altra parte ZZ ZZ Z Z V dQ = V dQ = ν(dθ) V (ω)P (θ, dω) Θ×B Θ×(B∩Ac ) Θ B∩Ac Z Z = ν(dθ) V (ω)L(θ, ω)µ(dω) c ¶ ZΘ ZB∩A µZ L(s, ω) R ν(ds) L(θ, ω)µ(dω) = ν(dθ) X(s, ω) L(τ, ω)ν(dτ ) Θ B∩Ac Θ Θ R Z Z Z Z L(θ, ω)ν(dθ) = ν(ds) X(s, ω)L(s, ω) µ(dω) RΘ = ν(ds) X(s, ω)L(s, ω) µ(dω). L(τ, ω)ν(dτ ) Θ B∩Ac Θ B∩Ac Θ D’ora in avanti indicheremo con ν ω la legge a posteriori su (Θ, T ) condizionale a ω; come abbiamo appena visto, nelle ipotesi in cui ci siamo posti (modello dominato) essa `e assolutamente continua rispetto a ν, di densit`a  R   R L(θ, ω) ω se Θ L(θ, ω)ν(dθ) 6= 0; dν L(τ, ω)ν(dτ ) = g(θ, ω) = Θ  R dν  1 se Θ L(θ, ω)ν(dθ) = 0. (18.10) Esempio. Riprendiamo l’esempio (18.5). Abbiamo gi`a detto che Θ = {1, 2}, ν({1}) = 0.40 e ν({2}) = 0.60; inoltre avevamo Ω = {B, L}; per motivi di notazione ora scriviamo ω 0 al posto di 108

B e ω 00 al posto di L, quindi Ω = {ω 0 , ω 00 }. Le quantit`a P (ω 0 |A1 ), P (ω 0 |A2 ), P (ω 00 |A1 ) e P (ω 00 |A2 ) sono da interpretare come i valori della verosimiglianza L: precisamente, se prendiamo come misura dominante su Ω la misura µ che conta i punti, si ha dP 1 0 (ω ) = P (ω 0 |A1 ) = 0.48; dµ dP 1 00 L(1, ω 00 ) = (ω ) = P (ω 00 |A1 ) = 0.52; dµ L(1, ω 0 ) =

dP 2 0 (ω ) = P (ω|A2 ) = 0.63; dµ dP 2 00 (ω ) = P (ω 00 |A2 ) = 0.37. L(2, ω 00 ) = dµ

L(2, ω 0 ) =

La legge a posteriori `e assolutamente continua rispetto a ν con densit`a g(θ, ω) =

L(θ, ω) , L(1, ω)ν({1}) + L(2, ω)ν({2})

(θ, ω) ∈ {1, 2} × {ω 0 , ω 00 }.

In altre parole N (ω 0 , {1}) =

L(1, ω 0 ) 0.48 · ν({1}) = × 0.4 = 0.3368, L(1, ω)ν({1}) + L(2, ω)ν({2}) 0.48 × 0.4 + 0.63 × 0.6

e questo `e il calcolo che abbiamo fatto in precedenza per ottenere P (A1 |B). In modo simile per gli altri valori. 19. Il formalismo decisionale; decisione bayesiana Anche se non rappresenta tutti gli aspetti della statistica, il formalismo decisionale `e abbastanza intuitivo ed ha permesso degli sviluppi matematici rigorosi. Diciamo subito che le definizioni usuali della teoria degli stimatori e dei test possono essere ricondotte al formalismo decisionale. Lo statistico osserva un fenomeno la cui legge dipende da un parametro θ ∈ Θ, con lo scopo di intraprendere un’azione a ∈ A (A (insieme delle azioni possibili) `e un insieme di oggetti, che di solito sono numeri ma teoricamente possono essere anche altro, se necessario). La scelta dell’azione a porta come conseguenza un costo (o perdita) C(θ, a) ≥ 0 dipendente dal parametro θ. ¡ ¢ Lo statistico effettua un esperimento, formalizzato con un modello statistico Ω, F; (P θ , θ ∈ Θ) , e la sua decisione dipender`a naturalmente dal risultato ω, cio`e (19.1) Definizione. Una regola decisionale `e una funzione δ : Ω → A. Si chiama funzione costo (della regola δ) la funzione ω → C(θ, δ(ω)). Supporremo sempre che A sia munito di una trib` u A, e che le funzioni δ : ω 7→ δ(ω) e a → C(θ, a) siano misurabili. In queste ipotesi, la funzione costo `e una variabile aleatoria non negativa. (19.2) Esempio. Uno stimatore, cos`ı come lo abbiamo definito a suo tempo, `e una regola decisionale. In questo caso l’insieme delle azioni `e l’aperto D che compare nella definizione (3.1). Abbiamo notato a suo tempo che un test non `e altro che uno stimatore (Oss.(11.5)). Dunque anche la nozione di test pu`o essere ricondotta al formalismo decisionale. Nella statistica classica si definisce rischio della regola decisionale δ la speranza della sua funzione costo, e precisamente R(θ, δ) = Eθ [C(θ, δ)] 109

(in realt`a noi abbiamo dato questa definizione solo per gli stimatori (e di conseguenza per i test), ma come si vede subito la definizione `e identica per ogni regola decisionale). Lo scopo `e poi quello di minimizzare il rischio, come accadeva per gli stimatori, ma dovendo tener conto del fatto che su Θ ora abbiamo una probabilt`a ν, avremo bisogno di minimizzare rispetto a δ non R(θ, δ) a θ fissato, ma R il suo integraleR rispetto a ν; in altre parole dovremo trovare una regola decisionale δ tale che R(θ, δ)ν(dθ) 6 Θ R(θ, δ)ν(dθ) per ogni δ. Θ Nel contesto bayesiano si procede dunque come segue. Sia ρ una generica misura di probabilit`a su (Θ, T ) (per il momento ρ non `e necessariamente la legge a priori di cui abbiamo parlato nel paraR grafo precedente). Si cerca di minimizzare la perdita media (definita da Θ C(θ, a)dρ(θ)) rispetto al parametro a (occorre naturalmente supporre che la funzione θ 7→ (C(θ, a)) sia misurabile, condizione che `e sempre verificata nelle applicazioni). Si d`a cio`e la (19.3) Definizione. Si chiama rischio bayesiano (relativo a ρ) il numero Z inf

a∈A

C(θ, a)dρ(θ). Θ

Inoltre R R (19.4) Definizione. Se esiste a ∈ A tale che Θ C(θ, a)dρ(θ) = inf a∈A Θ C(θ, a)dρ(θ), a si chiama decisione bayesiana relativa a ρ. In altre parole in questo modo si definisce una funzione d : ρ 7→ a = d(ρ). Il meccanismo decisionale bayesiano consiste allora nel considerare come regola decisionale la regola ω 7→ d(ν ω ) (ammesso che esista), dove ν ω `e la legge a posteriori condizionale a ω di cui abbiamo parlato nel paragrafo precedente. La bont`a di questa procedura `e espressa dal risultato seguente: ¡ ¢ (19.5) Teorema. Sia Ω, F; (P θ , θ ∈ (Θ, T )) un modello statistico dominato, con verosimiglianza L(θ, ω), e sia ν la legge a priori su (Θ, T ). Supponiamo che, per ogni ω, esista una decisione bayesiana d(ν ω ) e che la funzione ω 7→ d(ν ω ) sia misurabile. Allora, per ogni altra regola di decisione δ, si ha Z Z R(θ, δ)ν(dθ) ≥ R(θ, d(ν ¦ ))ν(dθ). Θ

Θ

Dimostrazione. Sia A l’insieme definito nel Teorema (18.9); ricordiamo che Θ × A `e Q−trascu110

rabile. Per la definizione di Q si ha allora µZ ¶ ZZ Z R(θ, δ)ν(dθ) = ν(dθ) C(θ, δ(ω))P (θ, dω) = C(θ, δ(ω))Q(dθ, dω) Θ Θ Ω Θ×Ω ¶ µZ ZZ Z C(θ, δ(ω))P (θ, dω) = C(θ, δ(ω))Q(dθ, dω) = ν(dθ)

Z

Θ×(Ω∩Ac )

Ω∩Ac

Θ

¶ = ν(dθ) C(θ, δ(ω))L(θ, ω)µ(dω) Θ Ω∩Ac µZ ¶ Z = µ(dω) ν(dθ)C(θ, δ(ω))L(θ, ω) Ω∩Ac µZΘ ¶ µZ ¶ Z L(θ, ω) = µ(dω) L(τ, ω)ν(dτ ) ν(dθ)C(θ, δ(ω)) R L(τ, ω)ν(dτ ) Θ Θ Ω∩Ac Θ µZ ¶ µZ ¶ Z = µ(dω) L(τ, ω)ν(dτ ) C(θ, δ(ω))ν ω (dθ) Ω∩Ac Θ Θ µZ ¶ µZ ¶ Z ω ω ≥ µ(dω) L(τ, ω)ν(dτ ) C(θ, d(ν ))ν (dθ) , Z

Ω∩Ac

µZ

Θ

Θ

e, con gli stessi calcoli, si vede che quest’ultima quantit`a `e uguale a Z R(θ, d(ν ¦ ))ν(dθ). Θ

(19.6) Osservazione. Per le regole di decisione si possono dare le definizioni di preferibile, strettamente preferibile e ammissibile esattamente come per gli stimatori. La decisione bayesiana `e ammissibile (in senso classico), sotto diverse ipotesi facili da verificare, per esempio: (i) se Θ `e un aperto di Rk , il supporto di ν `e tutto Θ (cio`e non esistono sottoinsiemi aperti (o chiusura di un aperto) non vuoti di Θ che siano trascurabili rispetto a ν e, per ogni regola di decisione δ, la funzione θ 7→ R(θ, δ) `e continua. Infatti, se d(ν ¦ ) non fosse ammissibile, esisterebbe una regola di decisione δ strettamente preferibile a d(ν ¦ ), cio`e tale che R(θ, δ) ≤ R(θ, d(ν ¦ )), ∀ θ; R(θ, δ) < R(θ, d(ν ¦ )),

per almeno un θ.

Ma in tal caso, per motivi di continuit`a, la diseguaglianza stretta sarebbe verificata per ogni θ in un intorno U di θ, con ν(U ) > 0, e quindi la tesi del teorema precedente, cio`e Z

Z R(θ, d(ν ¦ ))ν(dθ),

R(θ, δ)ν(dθ) ≥ Θ

Θ

sarebbe falsa. (ii) Se Θ `e numerabile e nessun punto di Θ `e ν−trascurabile (verifica per esercizio, `e simile a quella del punto precedente). 111

(19.7) Osservazione. Se T `e una statistica esaustiva, si ha L(θ, ω) = h(ω)g θ (T (ω)) e di conseguenza dν ω g θ (T (ω)) (θ) = R τ dν g (T (ω)) dν(τ ) Θ `e σ(T )−misurabile. Dunque si pu`o sostituire il risultato dell’esperimento (cio`e ω) con l’osservazione della statistica T (ω). Inoltre, in genere d(ν ω ) `e σ(T )−misurabile. 20. Stimatori bayesiani Sia g : Θ 7→ R misurabile e limitata. Vogliamo stimare la quantit`a g(θ); per questo porremo A = R e utilizzeremo il costo C(θ, a) = (g(θ) − a)2 . La procedura bayesiana illustrata precedentemente richiede per Rprima cosa che, per ogni probabilit`a ρ su Θ, si cerchi (se esiste) a = d(ρ) che minimizza la quantit`a Θ (g(θ) − a)2 ρ(dθ). (20.1) Lemma. Se

R Θ

g 2 (θ)ρ(dθ) < +∞ (non necessariamente limitata), allora Z Z 2 (g(θ) − a) ρ(dθ) ≥ (g(θ) − a)2 ρ(dθ), Θ

dove a =

R Θ

Θ

g(θ)ρ(dθ) = d(ρ).

Dimostrazione. Infatti Z Z ¡ ¢2 2 (g(θ) − a) ρ(dθ) = (g(θ) − a) + (a − a) ρ(dθ) Θ Θ Z Z Z 2 2 = (g(θ) − a) ρ(dθ) + (a − a) + 2(a − a) (g(θ) − a)ρ(dθ) = (g(θ) − a)2 ρ(dθ) + (a − a)2 Θ Θ ZΘ 2 ≥ (g(θ) − a) ρ(dθ). Θ

Il Lemma precedente dice dunque che lo stimatore bayesiano della funzione g(θ) `e R R  Z  ΘRg(θ)L(θ, ω)ν(dθ) se L(θ, ω)ν(dθ) 6= 0 Θ ω ω L(θ, ω)ν(dθ) T (ω) := d(ν ) = g(θ)ν (dθ) = Θ  R Θ R g(θ)ν(dθ) se Θ L(θ, ω)ν(dθ) = 0. Θ ˜ Notiamo che, per il Teorema (18.9), si ha l’uguaglianza T (ω) = E[g|F](ω) Q−q.c.: infatti Z Z L(θ, ω) ˜ g(θ) R g(θ)N (ω, dθ) = E[g|F](ω) = ν(dθ) = T (ω). |{z} |{z} L(τ, ω)ν(dτ ) Θ Θ Θ def.(18.7)

T eor.(18.9)

Questo fatto permette quindi di interpretare lo stimatore di g(θ) in termini di speranza condizionale; questa interpretazione `e utile nel risultato che segue, che dice che, tranne che in casi banali, gli stimatori bayesiani non sono mai corretti: ved. oss. (20.3). 112

(20.2) Teorema. Sia T lo stimatore bayesiano di g(θ). Se T `e corretto, allora ZZ ¯ ¯ ¯T (ω) − g(θ)¯2 dQ = 0. Θ×Ω

Dimostrazione. Consideriamo la variabile X(θ, ω) = T (ω) − g(θ) come elemento di L2 (Θ × Ω, T ⊗ F , Q). Si ha ˜ = E[T |F] ˜ − E[g|F] ˜ = 0, E[X|F] ˜ = T come detto sopra, dunque T `e F−misurabile ˜ ˜ = T = E[g|F]. ˜ perch´e E[g|F] e quindi E[T |F] ˜ Pertanto X `e ortogonale (in L2 (Θ×Ω, T ⊗ F, Q)) ad ogni funzione V che sia F−misurabile. Infatti £ ¤ £ ¤ ˜ = E V E[X|F] ˜ = 0. E[XV ] = E E[XV |F] D’altra parte, anche E[X|T˜ ](θ) = 0, perch´e (θ, ω) 7→ g(θ) `e T˜ −misurabile (per definizione della trib` u T˜ ) e, per il Teorema (18.6), Z ˜ E[T |T ](θ) = T (ω)P (θ, dω) = Eθ [T ] = g(θ) Ω

perch´e T `e corretto per ipotesi. Dunque E[X|T˜ ](θ) = g(θ) − g(θ) = 0. Quindi X `e ortogonale (in L2 (Θ × Ω, T ⊗ F , Q)) anche ad ogni funzione W che sia T˜ −misurabile. Allora X `e ortogonale anche a se stesso, perch`e `e somma di (θ, ω) 7→ g(θ) (che `e T˜ −misurabile) e ˜ di (θ, ω) 7→ −T (ω) (che `e F−misurabile). Dunque ha norma nulla in L2 (Θ × Ω, T ⊗ F , Q). (20.3) Osservazione. Notiamo che ZZ Z Z ¯ ¯ ¯ ¯ ¯T (ω) − g(θ)¯2 dQ = ¯T (ω) − g(θ)¯2 dP θ (ω). ν(dθ) Θ×Ω

Θ



Quindi, se T `e corretto, per il risultato precedente esiste un N ∈ T con ν(N ) = 0 e tale che per ogni θ ∈ N c l’insieme Bθ = {ω ∈ Ω : T (ω) 6= g(θ)} `e P θ −trascurabile. Se (i) le probabilit`a P θ sono tutte equivalenti, (ii) N c contiene almeno due elementi e (iii) g non `e costante su N c , questo non `e possibile; infatti, siano θ0 e θ1 due elementi di N c tali che g(θ0 ) 6= g(θ1 ). Allora ³ ´ ³ ´ [ ¡ ¢ P θ0 {ω ∈ Ω : T (ω) = g(θ1 )} 6 P θ0 {ω ∈ Ω : T (ω) = g(θ)} = P θ0 Bθ0 = 0, θ:g(θ)6=g(θ0 )

e quindi

³ ´ P θ0 {ω ∈ Ω : T (ω) = g(θ1 )} = 0;

di conseguenza, dato che le P θ sono tutte equivalenti, si ha anche ³ ´ ³ ´ 0 = P θ1 {ω ∈ Ω : T (ω) = g(θ1 )} = 1 − P θ1 {ω ∈ Ω : T (ω) 6= g(θ1 )} = 1 − P θ1 (Bθ1 ). 113

Ma questo non `e possibile, perch´e P θ (Bθ1 ) = 0. (20.4) Osservazione. I risultati enunciati restano validi se g, anzich´e essere limitata, `e di quadrato integrabile per ogni legge a posteriori ν ω , e anche se g `e a valori vettoriali (cio`e g : Θ → Rk ) e si impone C(θ, a) = ||g(θ) − a||2 . (20.5) Esempio. Sia (X1 , . . . , Xn ) un campione di legge geometrica di parametro θ ∈ Θ = (0, 1). Come legge a priori su Θ prendiamo la misura di Lebesgue. La verosimiglianza `e Pn L(θ; k1 , . . . , kn ) = θn (1 − θ) i=1 ki −n e dunque lo stimatore bayesiano di g(θ) = θ `e Pn ki −n n+1 i=1 θ (1 − θ) dθ Pn T (k1 , . . . , kn ) = 0R 1 . k −n i n (1 − θ) i=1 θ dθ 0 R1

Ricordiamo che Γ(n) = (n − 1)! per n intero e che Z B(α, β) =

1

θα−1 (1 − θ)β−1 dθ =

0

Dunque

Z

1

θn (1 − θ)m dθ =

0

Γ(α)Γ(β) , Γ(α + β)

α > 0, β > 0.

Γ(n + 1)Γ(m + 1) n! m! = ; Γ(n + m + 2) (m + n + 1)!

ricaviamo pertanto l’espressione n+1 . i=1 Xi + 2

T = T (X1 , . . . , Xn ) = Pn

Questo stimatore `e molto simile allo stimatore di massima verosimiglianza, che risulta essere n θˆ = Pn i=1

Xi

(verifica per esercizio). (20.6)Esempio. Sia (X1 , . . . , Xn ) un campione di legge esponenziale di parametro θ ∈ Θ = (0, +∞) e prendiamo come legge a priori su Θ la probabilit`a ν(dθ) = ae−aθ dθ con a > 0 (questa legge `e assegnata essenzialmente per rendere possibili i conti). Lo stimatore bayesiano di g(θ) = θ `e R +∞ n+1 −θ(Pn Xi +a) i=1 θ e dθ Pn T = 0R +∞ . −θ( Xi +a) n i=1 θ e dθ 0 Dato che

Z

+∞

θn e−θb dθ =

0

114

n! , bn+1

ne segue che

n+1 . i=1 Xi + a

T = T (X1 , . . . , Xn ) = Pn

Di nuovo, questo stimatore `e molto simile allo stimatore di massima verosimiglianza, che `e n θˆ = Pn i=1

Xi

(ved. esempio (7.3)). —————————————o————————————— Nel seguito ci intersser`a il concetto mediana, di cui ora parleremo brevemente. ¡ ¢ ¡ Alcuni¢ testi definiscono la mediana di ν come un numero reale m tale che ν (−∞, m] = ν [m, +∞) = 12 . Esprimendoci in termini della funzione di ripartizione F di ν, una mediana `e un valore m tale che F (m) = F (m− )(:= limt→m− F (t)) = 21 . Da queste relazioni segue che nel punto m la funzione F deve essere continua (e deve valere l’uguaglianza F (m) = 12 ). Dunque `e facile capire che con questa definizione, una mediana pu`o non esistere, e questo non `e soddisfacente (un esempio semplice `e quello della legge ν tale che ν({0}) = ν({1}) = ν({2}) = 13 . Sarebbe naturale dire che la mediana di questa legge `e il numero m = 1, ma tale valore non rispetta la definizione data sopra). Allora una migliore definizione `e la seguente (20.7) Definizione. mediana della legge di probabilit`a ν un punto m tale che ¡ ¢ ¡ Si chiama ¢ ν (−∞, m] ≥ 12 e ν [m, +∞) ≥ 12 . In termini di F , una mediana m verifica le condizioni F (m− ) ≤ 12 ≤ F (m). ` facile dimostrare che, con questa definizione, una mediana esiste sempre. Tuttavia la mediana E non sempre `e unica. Ad esempio la legge di densit`a ½ f (x) =

1 per 0 ≤ x ≤ 0 altrove

1 2

oppure per 1 ≤ x ≤

3 2

ha come mediana ogni valore m con 12 ≤ m ≤ 1. In generale, non `e difficile vedere che l’insieme delle mediane di una legge ν `e un intervallo chiuso non vuoto [m0 , m1 ]. (Suggerimento: porre m0 = sup{x ∈ R : F (x) < 12 }, m1 = sup{x ∈ R : F (x) ≤ 21 }. Si capisce che la mediana m `e un “indice di centralit`a ”della legge ν, come la media µ. Dunque ` immediato vedere che µ = m una domanda naturale `e quali relazioni intercorrano tra µ e m. E per ogni legge simmetrica. In generale per`o media e mediana possono essere differenti (trovare esempi). Tuttavia (20.8) Esercizio. Dimostrare che la media µ, ogni mediana m e la varianza σ 2 di una legge λ verificano la diseguaglianza |µ − m| ≤ σ. Soluzione (di Dario Trevisan). Sia X una v.a. definita sullo spazio di probabilit`a (Ω, F, P ) e avente legge λ. Facciamo vedere innanzitutto che 115

£ ¤ £ ¤ inf E |X − a| = E |X − m| ;

(i)

(ii)

a∈R

£ ¤ £ ¤ inf E |X − a|2 = E |X − µ|2 = σ 2 .

a∈R

0 (i) Senza perdere in generalit` basta £ a, si0 pu` ¤ o supporre £ ¤ che m = 0 (ponendo Y = X −m e a = a−m, £ ¤ 0 ∈R E |Y − a | dimostrare che inf = E |Y | ); basta inoltre dimostrare che inf E |Y − a| a a0 E |Y −a| = inf a>0 E |(−Y )−(−a)| = inf a0} (ω) e 1(−∞,0) (Y (ω)) = 1{Y 0} − 1{Y 0) − P (Y < 0) 6 E |Y − a| perch´e a < 0 e P (Y > 0) − P (Y < 0) = P (Y > m) − P (Y < m) > 0 per la definizione di mediana (ricordare che m = 0 nel nostro caso). (ii) La dimostrazione di questa seconda relazione `e identica a quella del Lemma (20.1): basta sostituire in esso lo spazio (Θ, T , ν) con lo spazio (Ω, F, P ) e la funzione misurabile θ 7→ g(θ) con la v.a. ω 7→ X(ω). £ ¤ Possiamo ora¤ provare la diseguaglianza |µ − m| 6 σ. Posto α = E (X − m)+ > 0 e β = £ E (X − m)− > 0, l’asserto risulta dalla catena di relazioni q £ ¯ £ ¤¯ £ ¤ £ ¤ ¤ |µ − m| = ¯E (X − m) ¯ = |α − β| 6 α + β = E |X − m| = inf E |X − a| 6 inf E |X − a|2 a

a

= σ.

—————————————o————————————— Torniamo ora agli stimatori bayesiani. (20.9) Osservazione. Talvolta ha interesse prendere in considerazione funzioni costoRdifferenti dal costo quadratico. Ad esempio, se si pone C(θ, a) = |θ−a|, si pu`o mostrare che mina∈R R |θ−a|dν(θ) `e realizzata dalla mediana della misura di probabilit`a ν. In altre parole 116

(20.10) Proposizione. Se m `e una mediana per ν, allora, per ogni a ∈ R, Z Z |θ − m|ν(dθ) ≤ |θ − a|ν(dθ) R

R

(e di conseguenza, se m1 e m2 sono due mediane per ν, si ha

R R

|θ − m1 |ν(dθ) =

R R

|θ − m2 |ν(dθ)).

La dimostrazione di questa Proposizione `e identica a quella della relazione (i) dell’ Es. (20.8) : basta sostituire in esso lo spazio (Ω, F, P ) con lo spazio (Θ, T , ν) e la v.a. ω 7→ X(ω) con la funzione misurabile θ 7→ θ. (20.11) Esercizio. Sia X (osservazione) una v.a. avente legge uniforme su [0, θ] (θ ∈ Θ = R+ ). Scegliamo come legge a priori su R+ ν(dθ) = θe−θ dθ. Cercare lo stimatore bayesiano di g(θ) = θ prendendo come costo (i) C(θ, a) = (θ − a)2 ; (ii) C(θ, a) = |θ − a|. Soluzione. (i) Si ha ½ L(θ, x) = Quindi

Z

θ−1 0

per x ∈ [0, θ] = θ−1 1 −1 1[x,+∞] (θ). [0,θ] (x) = θ altrove Z

+∞

+∞

L(θ, X)ν(dθ) = 0

Z

Z

+∞

0

0

Z

+∞

g(θ)L(θ, X)ν(dθ) =

θθ

−1

0

dunque

Z θ−1 1[X,+∞] (θ)θe−θ dθ = 1[X,+∞] (θ)θe

−θ

+∞

e−θ dθ = e−X ;

X +∞

dθ =

θe−θ dθ = e−X (X + 1);

X

R +∞ T =

0

g(θ)L(θ, X)ν(dθ) = X + 1. R +∞ L(θ, X)ν(dθ) 0

(ii) In questo secondo caso, per la proposizione precedente, sappiamo che T `e dato dalla mediana della legge a posteriori ν X , che `e assolutamente continua rispetto alla legge a priori ν con densit`a f (θ, X) = R +∞ 0

L(θ, X) L(θ, X)ν(dθ)

=

θ−1 1[x,+∞] (θ) . e−X

Si tratta di una legge assolutamente continua, dunque continua, e pertanto la mediana `e l’unico valore m tale che Z Z Z +∞ 1 −1 −θ X X X e−θ dθ. θ θe dθ = e = ν ([m, +∞)) = f (θ, X)ν(dθ) = e 2 m∨X m∨X m D’altra parte, se m ≤ X, l’equazione precedente non pu`o essere soddisfatta (perch´e il suo secondo membro vale 1). Invece, se m > X l’equazione diventa Z 1 X e−θ dθ = eX−m , =e 2 m 117

da cui si ricava m = T = X + log 2. (20.12) Esercizio. Sia Θ = (0, 1) e C(θ, a) = θ(1 − a) + (1 − θ)a. Qual `e la decisione bayesiana per una generica legge ν? Verificare che il rischio `e sempre inferiore a 12 . 21. Test dal punto di vista bayesiano In un problema di test dell’ipotesi H0 : θ ∈ Θ0 contro l’alternativa H1 : θ ∈ Θ1 in un contesto bayesiano, Θ0 e Θ1 sono supposti misurabili, perch`e ora su Θ c’`e una trib` u T . L’insieme delle azioni `e A = {0, 1} (0 = accetto H0 , 1= respingo H0 ). Il costo `e definito assegnando due costi differenti: c0 > 0 all’ errore di prima specie e c1 > 0 a quello di seconda specie. Precisamente si pone ½ c0 per θ ∈ Θ0 C(θ, 1) = 0 per θ ∈ Θ1 ; ½ 0 per θ ∈ Θ0 C(θ, 0) = c1 per θ ∈ Θ1 . Volendo riassumere in una sola formula: ½ C(θ, a) =

a c0 (1 − a)c1

per θ ∈ Θ0 . per θ ∈ Θ1

Questa formula assegna il costo anche nel caso di test aleatori, in cui l’insieme delle azioni `e A = [0, 1]. Mentre in contesto non bayesiano la discrezionalit`a dello statistico consiste nello scegliere il livello desiderato, in contesto bayesiano consiste nello scegliere, oltre alla legge a priori, i due costi c0 e c1 , o piuttosto il numero c = cc10 , detto rapporto dei costi. Se ρ `e una probabilit`a su (Θ, T ), la perdita media `e in questo caso Z £ ¤ C(θ, a)ρ(dθ) = a c0 ρ(Θ0 ) + (1 − a)c1 ρ(Θ1 ) = a c0 ρ(Θ0 ) − c1 ρ(Θ1 ) + c1 ρ(Θ1 ), Θ

e la regola di decisione bayesiana `e pertanto  0 d(ρ) = 1  indifferente

se ρ(Θ0 ) > cρ(Θ1 ) se ρ(Θ0 ) < cρ(Θ1 ) se ρ(Θ0 ) = cρ(Θ1 ).

La funzione test bayesiana (cio`e la decisione bayesiana relativa alla legge a posteriori ν ω ) `e di conseguenza  se ν ω (Θ0 ) > cν ω (Θ1 ) 0 φ(ω) = d(ν ω ) = 1 se ν ω (Θ0 ) < cν ω (Θ1 )  indifferente se ν ω (Θ0 ) = cν ω (Θ1 ), a condizione naturalmente che si tratti di una funzione misurabile. 118

Notiamo cheRsi prende la decisione 1 (cio`e si respinge H0 ) nel caso che ν ω (Θ0 ) < cν ω (Θ1 ), che, supponendo Θ L(θ, ω)ν(dθ) > 0, significa R Θ0

R

Θ

o anche

L(θ, ω)ν(dθ) L(θ, ω)ν(dθ)

R < c RΘ1 Θ

Z

L(θ, ω)ν(dθ) L(θ, ω)ν(dθ)

,

Z L(θ, ω)ν(dθ) < c Θ0

L(θ, ω)ν(dθ). Θ1

Dunque, se E = {ω ∈ Ω : ν ω (Θ0 ) = cν ω (Θ1 )} `e µ−trascurabile, si ottiene un test di regione critica ½ D=

Z

¾

Z

ω∈Ω:

L(θ, ω)ν(dθ) < c Θ0

L(θ, ω)ν(dθ) . Θ1

Si R pu`o notare una vaga rassomiglianza con R il test del rapporto di verosimiglianza (se si sostituisce L(θ, ω)ν(dθ) con sup L(θ, ω) e L(θ, ω)ν(dθ) con supθ∈Θ1 L(θ, ω) si ottiene infatti la θ∈Θ0 Θ0 Θ1 regione critica del test del rapporto di verosimiglianza). Se E non `e trascurabile, un test bayesiano `e un test con una qualunque regione critica D ∈ F tale che {ω ∈ Ω : ν ω (Θ0 ) < cν ω (Θ1 )} ⊆ D ⊆ {ω ∈ Ω : ν ω (Θ0 ) ≤ cν ω (Θ1 )}. (21.1) Esempio. Se Θ = {0, 1}, H0 : θ = 0, H1 : θ = 1 e ν(0), ν(1) `e la legge a priori, la funzione test `e  se L(0, ω) > κL(1, ω) 0 se L(0, ω) < κL(1, ω) Φ(ω) = 1  indifferente se L(0, ω) = κL(1, ω), dove κ =

c1 ν(1) c0 ν(0) .

Si tratta dunque di un test di Neyman–Pearson. —————————————o—————————————

Chiudiamo questa parte di trattazione con un Esempio riassuntivo Sia µθ la legge su [0, 1] avente densit`a f θ (x) = θxθ−1 rispetto alla misura di Lebesgue), con θ ∈ R+ . Sia (X1 , . . . , Xn ) un campione di legge µθ . ` completa? 1) Trovare una statistica esaustiva. E 2) Trovare uno stimatore corretto di θ e dire se `e ottimale. Trovare lo stimatore di massima verosimiglianza di θ. 3) Trovare un test unilaterale dell’ipotesi H0 : θ ≤ 1 contro H1 : θ > 1 di livello 0.05. 4) Trovare uno stimatore bayesiano di θ per la legge a priori ν(dθ) = e−θ dθ 5) Trovare un test bayesiano dell’ipotesi H0 : θ = 1 contro H1 : θ 6= 1 con rapporto dei costi c e con legge a priori ν = 12 δ1 + 12 µ, dove δ1 `e la misura di Dirac concentrata in 1 e µ(dθ) = e−θ dθ. 119

Soluzione. La verosimiglianza del campione `e L(θ; x1 , . . . , xn ) = θn

n ³Y

xi

´θ−1

n ³ ´ X = exp (θ − 1) log xi + n log θ .

i=1

i=1

Si tratta Pn come si vede di un modello esponenziale (cambio di parametro θ 7→ θ − 1), e quindi T = i=1 log Xi `e una statistica esaustiva completa. 2) L’equazione di verosimiglianza `e n ´¯ X d³ ¯ (θ − 1) = 0, log xi + n log θ ¯ dθ θ=θˆ i=1

cio`e

n X

log Xi +

i=1

da cui

n = 0, θˆ

n θˆ = − Pn i=1 log Xi

(osservazione: θˆ > 0 perch´e Xi ∈ (0, 1)). Pn Cerchiamo la legge di − i=1 log Xi sotto P θ . Il singolo Pn addendo − log Xi ha legge esponenziale di parametro θ (verifica per esercizio). Quindi − i=1 log Xi (somma di n v. a. indipendenti tutte di legge E(θ) = Γ(1, θ)) ha legge Γ(n, θ). Dunque (ispirandoci allo stimatore di massima verosimiglianza) calcoliamo h

Z

i

+∞

1 θn n−1 −θx x e dx x Γ(n) − i=1 log Xi 0 Z +∞ Z θ θn θn Γ(n − 1) +∞ θn−1 · xn−2 e−θx dx = , = xn−2 e−θx dx = Γ(n) 0 Γ(n) θn−1 Γ(n − 1) n − 1 0

E

Pn

1

=

perch´e la funzione integranda `e la densit`a Γ(n − 1, θ) e dunque il suo integrale su R vale 1. Se ne deduce che la statistica T = Pnn−1 `e uno stimatore corretto di θ, funzione della statistica log Xi i=1 Pn esaustiva completa i=1 log Xi . Per il Teorema (4.4), si tratta dunque di uno stimatore ottimale tra gli stimatori corretti. 3) Il modello `e esponenziale, e quindi a rapporto di verosimiglianza crescente. Direttamente L(θ2 ) θn ³ Y ´θ2 −θ1 = 2n Xi L(θ1 ) θ1 i=1 n

Qn `e a rapporto di verosimiglianza crescente rispetto a i=1 Xi . In queste condizioni sappiamo che un test unilaterale ha una regione critica della forma D=

n nY

o Xi > c

i=1

120

con c (∈ (0, 1) perch´e 0 < Xi < 1) tale che P1

n ³Y

n ´ ³ X ´ Xi > c = P 1 − log Xi < − log c = 0.05.

i=1

Sotto P 1 , −

Pn i=1

P

i=1

log Xi ha legge Γ(n, 1), e quindi dobbiamo trovare c in modo che

1

³ −

n X

´ Z log Xi < − log c =

− log c

1 xn−1 e−x dx = 0.05. (n − 1)!

0

i=1

A questo punto si procede come abbiamo visto in altre situazioni simili. 4) Dalla teoria, sappiamo che lo stimatore bayesiano di θ (con la misura a priori assegnata) `e ³ Q ´θ−1 n+1 e−θ dθ θ Xi 0 T = R . ³ ´θ−1 +∞ n Q −θ dθ θ X e i 0 R +∞

Si ha Z +∞

Z n θ −θ

θ b e

+∞

dθ =

0

n θ log b −θ

θ e

e

0

Γ(n + 1) dθ = (1 − log b)n+1

Z

+∞

0

(1 − log b)n+1 n −θ(1−log b) θ e dθ = Γ(n + 1)

Γ(n + 1) n! = = , (1 − log b)n+1 (1 − log b)n+1 perch´e la funzione nell’ultimo integrale `e la densit`a Γ(n + 1, 1 − log b) e quindi il suo integrale vale 1. Dunque ³ T =

1−

Pn i=1

log Xi

´n+1 n+1 (n + 1)! Pn . ·³ ´n+2 = Pn 1 − i=1 log Xi 1 − i=1 log Xi

n!

5) La regione critica `e ½ D=

Z

¾ L(θ, ω)ν(dθ) ,

Z

ω∈Ω:

L(θ, ω)ν(dθ) < c Θ0

Θ1

che in questo caso (ν = 12 δ1 + 21 e−θ dθ, Θ0 = {1}, Θ1 = (0, 1) ∪ (1, +∞))diventa ½ D=

1 1 ω ∈ Ω : L(1, ω) < c 2 2

Dato che

Z

+∞

L(θ, ω)e

(

¾ −θ



=

Z

ω∈Ω:1

1 }. 2

(ii) Fissato ² > 0, per l’ipotesi fatta su F esiste δ > 0 tale che valgano entrambe le relazioni ½ ($)

F (mµ − ²) < F (mµ + ²) >

1 2 1 2

−δ +δ

(cio`e δ 6 { 12 − F (mµ − ²)} ∧ {F (mµ + ²) + 12 }). Per il Teorema di Glivenko–Cantelli, esiste A con P (A) = 1 tale che per ogni ω ∈ A, sup |Fn (x, ω) − F (x)| → 0. n→∞

x∈R

Fissato ω ∈ A, esiste dunque N (ω) tale che, per ogni n > N (ω), si abbia (∗∗)

sup |Fn (x, ω) − F (x)| < δ. x∈R

Per n cosiffatto, si ha (1)mµn (ω) > mµ − ² (se infatti fosse mµn (ω) 6 mµ − ², allora F (mµ − ²) |{z} > Fn (mµ − ², ω) − δ (∗∗)

> |{z}

1 − δ, 2

def. di mµn

assurdo per la prima delle ($)); (2) mµn (ω) < mµ + ² (se infatti fosse mµn (ω) > mµ + ², allora F (mµ + ²) |{z} < Fn (mµ + ², ω) + δ (∗∗)

6 |{z} def. di mµn

assurdo per la seconda delle ($)). 127

1 − δ, 2

Dalle relazioni (1) e (2) si conclude che, per n > N (ω), risulta ¯ ¯ ¯mµ (ω) − mµ ¯ < ², n e cio`e che lim mµn (ω) = mµ .

n→∞

Poich´e questo accade per ogni ω ∈ A (che ha probabilit`a uguale a 1), si ha la tesi. 23. Il test del χ2 Sullo spazio (Ω, F, P ) sia (X1 , . . . , Xn ) un campione di variabili a valori in un insieme finito {1, 2, . . . , k}. La legge di ciascuna delle v. a. P Xh `e data dal vettore q = (q1 , . . . , qn ), dove n qi = P (Xh = i). Si ha ovviamente qi ≥ 0, ∀i e i=1 qi = 1. Il test del chi–quadro si usa per verificare se la legge q coincide con una certa legge assegnata p (con l’ipotesi che pi > 0, ∀i). L’ipotesi `e H0 : q = p, l’alternativa H1 : q 6= p. Il test si basa sulla statistica T =

k X (Ni − npi )2

npi

i=1

,

dove Ni =

n X

1{Xj =i} .

j=1

Ovviamente la v. a. Ni indica il numero di osservazioni Xj che hanno dato valore i. Ci serve un teorema (di Pearson) che dice cosa accade quando la taglia n del campione tende all’infinito (nelle applicazioni questo significa che n `e grande); dunque considereremo una successione infinita X1 , X2 , X3 , . . . di v. a. i.i.d. e porremo un indice n a Ni e a T , cio`e scriveremo Nin =

n X

1{Xj =i} ,

Tn =

j=1

k X (N n − npi )2 i

i=1

npi

.

(23.1) Teorema. (a) Se la legge comune delle Xn `e diversa da p, allora Tn → +∞ P −q.c. (b) Se la legge comune delle Xn coincide con p, allora Tn converge in legge ad una χ2 (k − 1). Dimostrazione. (a) Per ipotesi esiste i0 ∈ {1, 2, . . . , k} tale che qi0 6= pi0 . Per la legge forte dei grandi numeri, al tendere di n a ∞ si ha

Nin 0 n

(Nin0 − npi0 )2 ( =n· npi0

→ qi0 , P − q. c. ; quindi

Nin 0 n

− pi0 )2 → +∞, pi0

P − q.c.

(b) Ci servono alcuni preliminari. (23.2) Lemma. Sia Z una v. a. vettoriale k−dimensionale avente legge Nk (0, A), dove A = (ai,j ) √ √ `e la matrice k × k con ai,j = δi,j − pi pj . Allora la v. a. ||Z||2 ha legge χ2 (k − 1). Dimostrazione. Sia X un vettore aleatorio k−dimensionale avente legge Nk (0, Ik ), e sia E il √ √ √ sottospazio di Rk generato dal versore p := ( p1 , . . . , pn ). Il teorema di Cochran dice che 128

(X − XE ) e XE sono indipendenti ed inoltre ||XE ||2 ha legge χ2 (1), ||X − XE ||2 ha legge χ2 (k − 1). Dunque baster`a vedere che Y = X − XE ha legge Nk (0, A). Si ha Y = X − hX,



pi ·



p=X−

k ³X

√ ´√ Xi pi p,

i=1

ed `e facile vedere che hu, Y i `e una v. a. gaussiana per ogni u ∈ Rk . Basta allora calcolare il vettore delle medie e la matrice di covarianza. Per ogni i, j = 1, . . . , k si ha E[Yj ] = E[Xj −

k ³X

³X √ ´ √ √ ´ √ Xi pi · pj ] = E[Xj ] − E[Xi ] pi · pj = 0; k

i=1

" E[Yi Yj ] = E

³ Xi −

i=1 k ³X

Xh



# k ´ √ ´ ³ ³X √ ´ √ ´ Xh ph · pj ph · pi · Xj − h=1

h=1

= E[Xi Xj ] −



pi ·



pj E[Xj2 ] −



pi ·



pj E[Xi2 ] +



pi ·



pj ·

k ³X

£ ¤ ´ E Xh2 ph

h=1

= E [Xi Xj ] −



pi ·



pj −



pi ·



pj +



pi ·



pj ·

k ³X

´ √ √ ph = δi,j − pi · pj .

h=1

Richiamiamo il (23.3) Teorema limite centrale vettoriale. Sia (Xn )n una successione di vettori aleatori a valori in Rk , i.i.d con E[Xn ] = m(∈ Rk ) e matrice di covarianza Γ (Γ = (γi,j )i,j=1,...,k , γi,j = Cov(Yi , Yj )). Allora la successione di vettori aleatori . X1 + · · · + Xn − nm √ Zn = n converge in legge ad una Nk (0, Γ). Infine (23.4) Esercizio. Sia (Zn ) una successione di vettori aleatori convergente in legge ad una Nk (0, A). Allora ||Zn ||2 converge in legge ad una χ2 (k − 1). Passiamo finalmente alla dimostrazione del punto (b) del Teorema di Pearson. Consideriamo i vettori aleatori k−dimensionali, indipendenti e identicamente distribuiti ¶ µ 1 1 . Yi = √ 1{Xi =1} , . . . , √ 1{Xi =k} . p1 pk 129

Si ha facilmente

µ E[Yi ] =

p1 pk √ ,..., √ p1 pk



√ √ √ = ( p1 , . . . , pk ) = p;

inoltre, per m, n = 1, . . . , k, con m 6= n, · ¸ 1 1 E[(Yi )m · (Yi )n ] = E √ 1{Xi =m} · √ 1{Xi =n} = 0, pm pn dato che {Xi = m} ∩ {Xi = n} = ∅; invece, per m = n · ¸ 1 2 E[(Yi )m ] = E 1{Xi =m} = 1. pm Ne segue che ½ Cov[(Yi )m · (Yi )n ] = E[(Yi )m · (Yi )n ] − E[(Yi )m ]E[(Yi )n ] = dove am,n = δm,n −



1 − pm √ √ − pm pn

per m = n = am,n , per m = 6 n

Pn √ pm pm , come nel Lemma (23.2). Dato che Njn = i=1 1{Xi =j} ha µ n ¶ N1 Nkn Y1 + · · · + Yn = √ , . . . , √ . p1 pk

Per il TLC vettoriale, si ha allora che la successione √ N1n µ√ √ p1 − n p1 . Y1 + · · · + Yn − n p √ √ Zn = = ,..., n n

Nn √k pk

√ ¶ − n pk ¶ µ N n − np1 Nkn − npk 1 √ = ,..., √ √ np1 npk n

converge in legge ad una Nk (0, A), e di conseguenza, per l’esercizio precedente, ||Zn ||2 converge in legge ad una χ2 (k − 1). Torniamo al test del chi–quadro. Se l’ipotesi `e falsa, allora la statistica T assumer`a valori grandi, per il Teorema di Pearson, dunque ci aspettiamo una regione critica del tipo {T > a}, con a da determinare. Volendo un test di taglia uguale ad α, si deve imporre che sia sup P (T > a) = α. H0 vera

Ma, se H0 `e vera, per il Teorema di Pearson T ha asintoticamente legge χ2 (k − 1), e quindi P (T > a) ' 1 − Fk−1 (a) = α, da cui a = χ21−α (k − 1). (23.5) Osservazione. Se µ `e una legge qualsiasi, per verificare se il campione ha legge µ si prende φ : R → {1, . . . , k} e si verifica se il nuovo campione (φ(X1 ), . . . , φ(Xk )) ha legge φ(µ). Nella pratica spesso si sceglie una partizione di R del tipo (−∞ = a0 , a1 ], (a1 , a2 ], (a2 , a3 ], . . . , (an−2 , an−1 ], (an−1 , an = +∞) 130

Pn−1 e si pone φ(x) = k=0 k · 1(ak ,ak+1 ] (x) = indice dell’elemento della partizione a cui appartiene x. In questo caso si ha allora, per ogni k = 0, 1, . . . , n − 1 ¡ ¢ φ(µ)({k}) = µ φ−1 ({k}) = P (X ∈ φ−1 ({k})) = P (X ∈ (ak−1 , ak ]). (23.6) Osservazione. la numerosit`a del campione dovrebbe essere tale che npi ≥ 5 ∀j. Il test del chi–quadro pu`o essere usato anche per valutare se il campione segue una legge appartenente ad una famiglia parametrizzata pθ = (pθ1 , . . . , pθm ), dove Θ `e un aperto di Rh , con h < m − 1. Si devono fare le ipotesi seguenti: (i) le funzioni θh 7→ pθi isono strettamente positive e di classe C 2 ; ∂ θ (ii) la matrice ∂θ p `e di rango massimo; i j (iii) esiste una successione consistente θˆn di stimatori di massima verosimiglianza di θ. ¡ ¢N n ¡ ¢N n Qn Notiamo che L(θ; x1 , . . . , xn ) = i=1 pθxi = pθ1 1 · . . . · pθk k . Dunque, passando al logaritmo, lo stimatore di massima verosimiglianza si trova cercando il µ ¶ n θ n θ max N1 log(p1 ) + · · · + Nk log(pk ) . θ∈Θ

Sia Tn (θ) =

k X (N n − npθ )2 i

i=1

i

npθi

.

Si pu`o dimostrare che, sotto le precedenti ipotesi, la successione Tn (θˆn ) converge in legge verso una χ2 (k − s − 1). (In altre parole, sostituendo ai parametri non noti θ = (θ1 , . . . θs ) i loro stimatori di massima verosimiglianza, abbiamo stimato s parametri e questo fa diminuire di s il numero dei gradi di libert`a). ˆ > a}, e poi si procede come nel caso base. Questo suggerisce una regione critica della forma {T (θ)

131