ESTIMASI LOKAL LIKELIHOOD PADA MODEL REGRESI ...

11 downloads 239 Views 76KB Size Report
Pada Regresi Nonparametrik Dengan Respon Normal. Toha Saifudin. Departemen Matematika. Fakultas Sains dan Teknologi. Universitas Airlangga. Abstrak.
Prosiding Seminar Nasional Penelitian, Pendidikan dan Penerapan MIPA Fakultas MIPA, Universitas Negeri Yogyakarta, 16 Mei 2009

Metode Likelihood Lokal Dengan Pembobot Kernel Pada Regresi Nonparametrik Dengan Respon Normal Toha Saifudin Departemen Matematika Fakultas Sains dan Teknologi Universitas Airlangga Abstrak Model regresi nonparametrik berbentuk

y i = s ( xi ) + ε i , untuk i = 1, 2, ..., n

dengan s(xi) adalah fungsi halus. Bermacam-macam metode pendugaan model regresi nonparametrik telah dikembangkan oleh para peneliti. Kebanyakan metode pendugaan yang digunakan merupakan metode bebas distribusi. Dalam paper ini kami bertujuan untuk mendapatkan penduga model regresi nonparametrik menggunakan metode berbasis distribusi yaitu likelihood lokal dengan pembobot kernel yang diterapkan pada respon berdistribusi normal. Kata kunci :

regresi nonparametrik, fungsi halus, likelihood lokal, pembobot kernel.

PENDAHULUAN Penelitian tentang analisis regresi nonparametrik mengalami perkembangan yang pesat. Hal tersebut disebabkan metode nonparametrik tidak membutuhkan asumsi mengenai bentuk dari fungsi regresi, dan memberikan fleksibilitas pada data sampel untuk mencari bentuk fungsional yang dapat menggambarkan data dengan baik. Secara umum model regresi nonparametrik antara peubah respon dengan satu prediktor dapat dinyatakan sebagai (1) y i = s ( xi ) + ε i , i = 1,2,..., n . dengan yi adalah nilai peubah respon Y, xi adalah nilai peubah prediktor X, ε i adalah galat model dengan mean 0 dan varians σ 2 , dan s(xi) adalah fungsi regresi yang bentuknya tidak diketahui (Hardle, 1990). Pendugaan s ( xi ) secara nonparametrik dilakukan berdasarkan data pengamatan dengan teknik smoothing. Teknik ini tidak mengasumsikan distribusi probabilitas dari respon. Ada beberapa teknik smoothing dalam regresi nonparametrik antara lain Histogram, Penduga Kernel, Penduga Deret Orthogonal, Penduga Spline, K-NN, Deret Fourier, Wavelet, dan lain – lain (Hardle (1990), Eubank (1988)). Dalam analisis regresi seringkali dijumpai kenyataan bahwa variabel respon diasumsikan mengikuti distribusi tertentu. Asumsi distribusi dari respon ini seringkali diperlukan dalam pemodelan regresi data uji hidup. Permasalahan dalam regresi tersebut adalah mendapatkan penduga model yang menyatakan hubungan keterkaitan variabel prediktor terhadap respon yang sesuai dengan asumsi distribusi yang diketahui tersebut. Untuk respon yang berdistribusi normal akan mempunyai bentuk model regresi yang berbeda dengan ketika respon berdistribusi eksponensial. Oleh karena itu dalam paper ini kami akan membahas bagaimana metode menduga model regresi apabila respon berdistribusi tertentu, khususnya Normal dengan bentuk fungsional regresinya tidak diketahui. Metode yang kami gunakan adalah likelihood lokal dengan menggunakan pembobot kernel. PEMBAHASAN 1. Maksimum likelihood lokal Diketahui n data berpasangan

{(x1 , y1 ),..., (xn , y n )} yang saling bebas dan diasumsikan

bahwa untuk X = x , fungsi kepadatan peluang dari Y adalah M-159

Toha Saifudin/Metode Likelihood Lokal

Y | x ~ f (y |θ )

(2)

dengan θ adalah parameter yang merupakan fungsi dari x yaitu θ = s ( x ) , s ( x ) adalah fungsi penghalus. Berdasarkan sampel berukuran n di atas, fungsi likelihood dari Y | x adalah n

L(θ | x , y ) = ∏ f ( y i | s( xi )) .

(3)

i =1

untuk x = { x1 , x 2 ,..., x n } dan y = { y1 , y 2 ,..., y n } . Selanjutnya untuk menduga s( xi ) berdasarkan likelihood lokal, dalam paper ini terlebih dulu menggunakan pendekatan linier lokal seperti yang dilakukan oleh Tibshirani (1984) dengan bentuk s ( xi ) = β 0 i + β 1i xi . Penduga likelihood lokal untuk s ( xi ) adalah ∧





s (xi ) = β 0i + β 1i xi ∧

dengan

(4)



β 0i

dan

β 1i

nilai

yang

memaksimumkan

n  1  xi − x j   i ( β 0 i , β 1i | x , y , h ) = ∑ ln( f ( y j | β 0 i + β 1i x j )) K  h  h j =1  

fungsi

ln

likelihood

  , i = 1, 2, ..., n. 

lokal

(5)

K(.) dalam (5) adalah fungsi kernel. Fungsi ln likelihood lokal (5) tersebut mengikuti penulisan Santos dan Neves (2007) dengan sedikit penyesuaian. 2. Maksimum likelihood lokal pada model regresi dengan respon berdistribusi Normal n Misalkan diberikan n data pengamatan {xi , yi }i =1 mengikuti model regresi

(

y i = s ( xi ) + ε i

)

(

(6)

)

dengan Yi ~ N s ( xi ),σ 2 , dan ε i ~ N 0 ,σ 2 . Fungsi likelihood global berdasarkan model (6) adalah n n  1  1 (7) (y j − s(x j ))2  , exp − L(s ( x ) x , y ) = ∏ f ( y j | x , y ) = ∏  2  2σ  j =1  2π σ j =1 dan Logaritma natural dari persamaan (7) adalah n   1  1 (8) L (s(x ) x , y ) = ln L(s (x ) x , y ) = ∑ ln (y j − s(x j ))2  .  − 2 2σ j =1   2π σ   Selanjutnya untuk estimasi parameter s ( xi ) , i = 1, 2, ..., n, atau yang tidak lain adalah merupakan fungsi regresi nonparametrik, terlebih dahulu mendekati fungsi tersebut dengan pendekatan linier lokal, yaitu (9) s ( xi ) = β 0 i + β 1i xi , i = 1, 2, ..., n. Berdasarkan (9), dapat dilihat bahwa menduga s(xi) adalah identik dengan menduga β 0i dan β1i . Untuk mendapatkan penduga parameter lokal β 0i dan β1i , i = 1, 2, ..., n, dilakukan dengan mencari β 0i dan β1i yang memaksimumkan fungsi ln likelihood lokal sebagai berikut : n    1 Li (β 0 i , β 1i x , y , h ) = ∑  ln j =1    2π σ

 1 = ln  2π σ 1 2σ 2

 n 1  xi − x j ∑ K   j =1 h  h

∑ (y n

j =1

 1 (y j − β 0i − β 1i x j )2 . 1 K  xi − x j  − 2  2σ h  h

j

  − 

 xi − x j 2 1 − β 0 i − β 1i x j ) . K  h  h

(10)   

Persamaan (10) diatas dapat ditulis menjadi notasi matrik sebagai berikut:

M-160

  

Prosiding Seminar Nasional Penelitian, Pendidikan dan Penerapan MIPA Fakultas MIPA, Universitas Negeri Yogyakarta, 16 Mei 2009

 1 Li ( β i x , y , h ) = M = ln  2π σ

 1 (Y − Xβ i )′W i (Y − Xβ i ) tr (W i ) − 2 2σ 

(11)

dengan:  1 x1   y1      β   1 x2   y2  Y =  X = β i =  0 i       β 1i      1 x  y  n   n  1  x i − x1   K  0 0  h  h   1  xi − x 2   0 K  0 Wi =  h  h     0 0  1  xi − x n   0 0 K  h  h 

.          

Bentuk (11) dapat diuraikan sebagai berikut:  1  1 ′ M = ln tr (W i ) − 2σ 2 (Y − Xβ i ) W i (Y − Xβ i )  2π σ   1 = ln  2π σ

 1  ′ ′ tr (W i ) −  Y − β i X ′ (WiY − Wi Xβ i )  2σ 2  

 1 = ln  2π σ

 1  ′ ′ ′ ′ tr (W i ) −  Y WiY − Y W i Xβ i − β i X ′W i Y + β i X ′W i Xβ i  2   2σ 

 1 = ln  2π σ

 1  ′ ′ ′ ′ tr (W i ) −  Y W i Y − β i X ′W i Y − β i X ′W i Y + β i X ′W i Xβ i  2  2σ  

 1  1  ′ ′ ′ , = ln tr (W i ) − 2σ 2  Y W i Y − 2 β i X ′W i Y + β i X ′W i Xβ i   2π σ 

(12)







karena β i X ′W i Y adalah matrik 1x1 atau skalar yang transposenya  β i X ′W i Y  = Y ′W i Xβ i





mempunyai nilai yang sama. Nilai dugaan bagi β i adalah βˆ i yang memaksimumkan M. Nilai maksimum M dicapai pada saat

(

)

1 ∂ ln M − 2 X ′W i Y + 2 X ′W i Xβˆ i = 0 , dan setelah diselesaikan, = 0 , yaitu − 2 ∂β i 2σ

diperoleh penduga

−1 βˆ i = ( X ′W i X ) X ′W i Y .

(13)

Selanjutnya penduga model regresi berdasarkan maksimum likelihood lokal adalah

Yˆi = ˆs ( xi ) = X i' βˆ i = X i′ ( X ′W i X )−1 X ′W i Y

dengan X′i = (1 xi ) .

(14)

3. Pemilihan bandwidth Pemilihan bandwidth (dinotasikan h) sangat penting dalam mendapatkan penduga maksimum likelihood lokal. Bandwidth yang optimal diperoleh dengan cara meminimumkan GCV. Kriteria GCV pada penduga maksimum likelihood lokal didefinisikan sebagai berikut: GCV (h ) =

1 n ∑ ( yi − yˆi (h))2 n i =1

[n

]

tr (1 − A(h ))

−1

2

(15) dengan A(h) adalah matrik yang diperoleh berdasarkan bentuk (Eubank,1988) (16) Yˆ = A(h )Y . Berdasarkan pesamaan (14), maka diperoleh bahwa baris ke-i, i = 1, 2, …, n dari A(h) adalah −1 X i′( X ′Wi X ) X ′Wi .

M-161

Toha Saifudin/Metode Likelihood Lokal

4. Algoritma pendugaan model regresi Algoritma untuk menduga model adalah sebagai berikut : i. Memasukkan sampel berpasangan (xi , yi) berukuran n. ii. Memilih bandwidth optimal berdasarkan kriteria GCV pada persamaan (15). iii. Menghitung dugaan parameter linier lokal β 0i dan β1i berdasarkan persamaan (13). iv. Menghitung dugaan model regresi, ˆy i berdasarkan persamaan (14). 5. Studi kasus Dalam bagian ini, kami berikan sebuah contoh ilustrasi menggunakan data bangkitan. Sebuah sampel berpasangan berukuran 15 observasi dibangkitkan berdasarkan hubungan y = x3 + ε dengan y ~ N(0,5) dan ε ~ N(0, 0.6) ditunjukkan dalam Tabel 1. Tabel 1. Data bangkitan No 1 2 3 4 5 6

Y 10.61 -4.13 -0.86 3.39 4.17 -6.61

X 2.19 -1.52 -1.03 1.50 1.49 -1.85

7

0.32

-0.09

8 9 10

3.85 2.77 1.17

1.50 1.47 1.18

No

Y

11 12 13 14 15

-4.07 6.25 -3.23 -3.41 0.97

X

-1.49 1.79 -1.53 -1.68 0.89

Untuk sampel di atas, dengan fungsi kernel Epanichnikov untuk pembobotan, diperoleh bandwidth optimal h = 1.07, GCV = 0.8245638, MSE = 0.3812685, R2 = 0.9807584 dengan plot dugaan regresi seperti dalam Gambar 1.

-5

0

Y

5

10

Kurva Regresi Hasil Maksimum Likelihood Lokal

-2

-1

0

1

2

X

Gambar 1. Plot dugaan regresi dengan bandwidth optimal 1,07 KESIMPULAN Pendugaan model regresi nonparametrik menggunakan metode maksimum likelihood lokal dapat dilakukan dengan terlebih dulu melakukan pendekatan parametrik lokal terhadap fungsi halus s(x). Untuk respon berdistribusi Normal dan pendekatan fungsi halus menggunakan linier lokal yaitu s ( xi ) = β 0 i + β 1i xi , diperoleh penduga model regresi dengan X′i = (1 xi ) .

Yˆi = ˆs ( xi ) = X i′ ( X ′W i X )−1 X ′W i Y

DAFTAR PUSTAKA Eubank, R.M., 1988. Spline Smoothing and Nonparametric Regression, Marcel Dekker, New York. Hardle, W, 1990, Applied Nonparametrik Regression, Cambridge University Press, New York. Santos, J.A., dan Neves, M.M., 2007. A local maximum likelihood estimator for Poisson regression, Metrika, DOI 10.1007/s00184-007-0156-1, © Springer-Verlag. Tibshirani, R.J., 1984. Local Likelihood Estimation, Stanford University, California. M-162