ESTIMASI PARAMETER PADA REGRESI SEMIPARAMETRIK ...

40 downloads 383 Views 135KB Size Report
Analisis regresi adalah salah satu alat statistik yang banyak digunakan untuk ... gabungan dari regresi parametrik dan regresi nonparametrik, yaitu regresi.
ESTIMASI PARAMETER PADA REGRESI SEMIPARAMETRIK UNTUK DATA LONGITUDINAL Lilis Laome1 1

Jurusan Matematika FMIPA Universitas Haluoleo Kendari 93232 e-mail : [email protected]

Abstrak Misal y i merupakan variabel respon, X i adalah variabel prediktor yang berhubungan linier dengan y i dan ti adalah variabel prediktor lain yang berhubungan secara tidak linier dengan y i , model tersebut dikatakan model semiparametrik dan dapat ditulis dengan : T

y i  X i β  f (t i )   i , i  1, 2, ..., n

dimana,

f (t i ) adalah fungsi yang tidak diketahui. Suatu model semiparametrik untuk data

longitudinal dapat ditulis dengan : T

y ij  X ij β  f ( tij )   ij , i  1, 2, ..., n ; j  1, 2, ..., ni

Dengan menggunakan metode Penalized Likelihood diperoleh estimator komponen parametrik



T βˆ  = X PX



-1

T

X Py

dan estimator komponen nonparametrik





1 T 1 1 T fˆ  ( V   K ) V I - X X PX



-1

T



1

1

1

1

T

X P y , dimana P = V  V ( V   K ) V

1

Kata kunci : regresi semiparametrik, data longitudinal, dan penalized likelihood. Abstract Let y i is response variable, X i is predictor variable which linear relation with y i and ti is another predictor which nonlinear relation with y i , the model is semiparametric, T

y i  X i β  f (t i )   i , i  1, 2, ..., n

f (ti )

where,

is unknown function. The semiparametriic model for longitudinal data is :

T

y ij  X ij β  f ( tij )   ij , i  1, 2, ..., n ; j  1, 2, ..., ni

With using Penalized Likelihood method are obtained parametric component estimator



T βˆ  = X PX



-1

T

X Py

And nonparametric component estimator





1 T 1 1 T fˆ  ( V   K ) V I - X X PX



-1

T



1

1

1

T

1

X P y , where P = V  V ( V   K ) V

1

Keywords: semiparametric regression, longitudinal data, and penalized likelihood

I.

LATAR BELAKANG Analisis regresi adalah salah satu alat statistik yang banyak digunakan untuk mengetahui

hubungan antara dua atau lebih variabel. Misalkan y adalah variabel respon dan t adalah variabel prediktor, maka untuk n pengamatan hubungan variabel tersebut dapat dinyatakan dengan : y i  f ( ti )   i , i  1, 2, ..., n

JIMT, Vol 5 No. 2, Nopember 2008 : 60-64:

dengan

f (t ) i

adalah fungsi regresi dan  adalah error random yang diasumsikan independen dan i

2

identik dengan mean 0 dan variansi  . Ada dua pendekatan yang dapat digunakan untuk mengestimasi

f (t ) i

yaitu pendekatan

parametrik dan nonparametrik. Pendekatan parametrik digunakan bila bentuk fungsi

f (t ) i

diketahui

berdasarkan pada teori dan pengalaman masa lalu. Sedangkan pendekatan nonparametrik digunakan bila tidak adanya informasi tentang bentuk hubungan variabel respon dan variabel prediktor. Namun dalam perkembangan analisis regresi, untuk mengatasi permasalahan bila variabel prediktornya tidak dapat diestimasi dengan pendekatan parametrik maupun nonparametrik, maka diperkenalkan regresi yang merupakan gabungan dari regresi parametrik dan regresi nonparametrik, yaitu regresi semiparametrik [1]. Penelitian tentang regresi semiparametrik telah banyak dilakukan. [2] tentang estimator spline pada model semiparametrik. [3] tentang pendekatan kernel dalam regresi semiparametrik dan pemilihan bandwidth optimal. Dan [4] tentang model linier parsial pada hilangnya data komponen parametrik. Namun penelitian-penelitian tersebut hanya pada data cross section atau data yang diamati pada suatu waktu tertentu. Untuk kasus khusus, regresi semiparametrik dapat digunakan pada data longitudinal.

II. TINJAUAN PUSTAKA II.1 Data Longitudinal Studi longitudinal didefinisikan sebagai suatu studi terhadap unit eksperimen dengan respon yang diamati dalam dua atau lebih interval. Data longitudinal adalah pengamatan berulang pada unit eksperimen, berbeda dengan data cross section yaitu data dari masing-masing individu diamati dalam sekali waktu [5]. Ada beberapa keuntungan dari studi mengenai data longitudinal dibandingkan dengan data cross section. Pertama, studi longitudinal lebih powerful dari studi cross section untuk sejumlah subjek yang tetap. Dengan kata lain, untuk memperoleh kekuatan uji statistik yang sama, studi longitudinal membutuhkan subjek yang lebih sedikit. Kedua, dengan jumlah subjek yang sama, hasil pengukuran error menghasilkan penaksir efek perlakuan yang lebih efisien dari data cross section. Ketiga, data longitudinal mampu menyediakan informasi tentang perubahan individu, sedangkan data cross section tidak [5].

2

Estimasi Parameter pada Regresi Semiparametrik untuk Data Longitudinal

II.2 Model Semiparametrik Untuk Data Longitudinal Regresi semiparametrik adalah gabungan antara regresi parametrik dan regresi nonparametrik. Model regresi semiparametrik dapat ditulis sebagai berikut : T

(1)

y i  X i   f (t i )   i , i  1, 2, ..., n

dimana y adalah variabel respon ke -i , X adalah komponen parametrik, i

dan  adalah error random, dimana i

2

  N (0,  ) i

adalah fungsi regresi

f (t )

i

i

. Regresi semiparametrik untuk data longitudinal

dapat ditulis dengan : T

(2)

yij  X ij β  f (tij )   ij , i  1, 2,..., n ; j  1, 2,..., ni

dimana terdapat n subjek dengan subjek ke-i mempunyai ni observasi menurut waktu. yij , i = 1,...,n, T

j = 1,...,ni merupakan respon untuk subjek ke-i pada waktu ke-j. β  (  ,  , ...,  ) adalah vektor 1

2

p

T

p  1 pada koefisien regresi parametrik X i , dengan X ij β diasumsikan tidak mempunyai intersep,

f (t ij ) adalah fungsi yang terdeferensiabel dua kali dengan panjang periode sama dengan P dan  ij 2

adalah eror random yang saling bebas dengan mean 0 dan variansi  R .

III. PEMBAHASAN Asumsi data mengikuti model pada persamaan (2) dengan

dan ε  N ( 0,  R) . 2

2

f  Wm

Estimasi parameter pada model regresi semiparametrik untuk data longitudinal, diperoleh dengan n

cara memaksimumkan Penalized Log Likelihood (PLL). Misalkan N   n dan V   R maka 2

i

i 1

fungsi distribusi dari ε adalah 1

f (ε ) 

N

(2 V )

2



exp 

1 2

T

1

ε V ε



selanjutnya akan dicari distribusi dari y = Xβ + f + ε

(3)

dengan metode Moment Generate Function

(MGF) diperoleh :

3

JIMT, Vol 5 No. 2, Nopember 2008 : 60-64:

T

M y ( t )  E[exp( t y )] T

 E[exp{t ( Xβ + f + ε )}] T

T

 exp( t ( Xβ + f )) E[exp( t ε )] 1 T 2 T  exp( t ( Xβ + f )) exp( t  Rt ) 2 1 T T 2  exp( t ( Xβ + f )  t  Rt ) 2

sehingga dari metode MGF diatas diperoleh y  N ( Xβ + f ,  R ) . Berikut diberikan fungsi likelihood 2

dari y adalah:



N

1

 (β , f , y )  (2 V ) 2 exp 

T

1

ε V ε

2



(4)

dengan ε  y  Xβ  f . Selanjutnya, untuk estimasi parameter β dan fungsi f didapat dari memaksimumkan PLL. Diketahui fungsi log likelihood  (β , f , y ) dari model semiparametrik tersebut adalah : log (β, f, y )  

N

log(2 ) 

2

N

log( V ) 

2

1

1

T

(5)

(y  Xβ  f ) V ( y  Xβ  f )

2

Selanjutnya, fungsi PLL untuk model (2) dapat ditulis dengan : PLL   (β , f, y ) 



b

 [f 2

''

2

(6)

(t)] dt

a

b ''

2

dimana  (β , f, y ) merupakan fungsi likelihood,   0 merupakan parameter smoothing dan  [f (t)] dt a

merupakan fungsi penalti. Persamaan (6) dapat disederhanakan dengan : PLL  

N

log(2 ) 

2 T

N

log( V ) 

2 T

1

1

T

1

T

2 T

T

1

T

1

 β X V Xβ  2β X V f + f V f ) 

 2

Dengan membuat

PLL β

4

1

T

1

(y V y  2y V Xβ  2y V f

 0 akan diperoleh :

(7) T

f Kf

Estimasi Parameter pada Regresi Semiparametrik untuk Data Longitudinal

1



2

 2y V X  2X V Xβ  2X V f   0 1

T

1

T

1

T

1

T

1

T

1

T

X V y  X V Xβ  X V f  0

(8)

PLL

Selanjutnya dengan membuat

 0 akan diperoleh :

f

1



 2y

1

T

T

1

T

T

V  2β X V  2f V

1

2 T 1 T T 1 1 T y V  β X V  V f  K f  0 1

  f

T

K0

1

T

( V   K )f  V ( y  Xβ ) 1

1

T

1

f  ( V   K ) V ( y  Xβ ) Untuk memperoleh estimator βˆ , substitusi (9) ke (8) : 1

T

1

T

1

T

1

T

(9)

1

X V y  X V Xβ- X (V  K ) V (y  Xβ) = 0

 X V X  X (V  K ) V X β =  X V  X (V  K ) V  y βˆ =  X V X  X (V  K ) V X  X V  X (V  K ) V  y βˆ =  X PX X Py T

1

1

T

1

T

1

T

1

1

T

T

1

T

1

-1

1

1

T

1

T

T

1

T

1

T

1

1

1



-1

T

T



1

1

1

T

dimana P = V  ( V   K ) V

(10)

1

Substitusi (10) ke (9), diperoleh :

    I - X  X PX 

1 T 1 1 T fˆ = ( V   K ) V y - X X PX

-1

1 T 1 1 fˆ  ( V   K ) V

-1

T

T

X Py





T

X P y

(11)

Untuk mendapatkan matrik A (  ) , substitusi (10) dan (11) ke : yˆ  Xβˆ  fˆ

    X X PX X P (V  K ) V  I-X X PX X P y  I (V  K ) V  X X PX X P (V  K ) V  y 



T

-1

1

T

T 1

1

T

-1

T

 X X PX X Py  (V  K ) V I-X X PX X P y -1

T

1

1

T

T 1

T 1

1

T

1

-1

T

1

T

-1

T

T 1

1

 A() y -1

dimana A()   I  (V  K ) V  X X PX X P 1

T

1

1

T

T

5

JIMT, Vol 5 No. 2, Nopember 2008 : 60-64:

IV. KESIMPULAN Diberikan model y  X β  f (t )   ij

i

ij

dimana i  1, 2, ..., n, j  1, 2, ..., n . Error random ε

ij

i

berdistribusi normal dengan mean nol dan variansi V . Berdasarkan analisis yang dilakukan dapat disimpulkan dalam estimasi model semiparametrik yaitu estimasi parameter untuk komponen parametrik diperoleh :



T βˆ   X PX



1

T

X Py

dan estimasi komponen nonparametrik diperoleh :





1 T 1 1 T fˆ  ( V   K ) V I - X X PX



-1

T



1

1

1

T

1

X P y dimana P = V  V ( V   K ) V

1

V. DAFTAR PUSTAKA [1]

Engle, R. F., Granger, C. W. J., Rice, J., dan Weiss, A. 1986. Semiparametric Estimates of The Relation Between Weather and Electricity Sales, Journal of the American Statistical Association. Vol. 81, hal 310-320.

[2]

Srinadi, I.A.M. 2002. Estimator Spline pada Model Semiparametrik. Tesis. Surabaya: Institut Teknologi Sepuluh Nopember.

[3]

Mulianah. 2006. Pendekatan Kernel dalam Regresi Semiparametrik dan Pemilihan Bandwith Optimal. Tesis. Surabaya : Institut Teknologi Sepuluh Nopember.

[4]

Ampa, A. T. 2006. Model Linier Parsial Pada Hilangnya Data Komponen Parametri. Tesis. Surabaya : Institut Teknologi Sepuluh Nopember.

[5]

Kuswanto, H. 2005. Model Gamma-Frailty Untuk Data Longitudinal dan Pendugaan Korelasi Serial dengan Metode Composite Likelihood, Tesis. Surabaya : Institut Teknologi Sepuluh Nopember.

6