Lompat ke konten Lompat ke sidebar Lompat ke footer

Prediksi PLS


Abstrak

Algoritma prediksi PLS telah dikembangkan oleh Shmueli et al. (2016). Metode ini menggunakan sampel pelatihan dan pembelanjaan untuk menghasilkan dan mengevaluasi prediksi dari estimasi model jalur PLS.

Deskripsi

Penelitian oleh Shmueli et al. (2016) mengusulkan seperangkat prosedur untuk prediksi dengan model jalur PLS dan evaluasi kinerja prediktifnya. Prosedur ini digabungkan dalam paket PLSpredict https://github.com/ISS-Analytics/pls-predict untuk perangkat lunak statistik R. Prosedur ini memungkinkan pembuatan prediksi out-of-sample dan in-sample yang berbeda (mis., Case -wise dan prediksi rata-rata), yang memfasilitasi evaluasi kinerja prediksi saat menganalisis data baru (yang tidak digunakan untuk memperkirakan model jalur PLS). Analisis berfungsi sebagai diagnostik untuk kemungkinan overfitting model jalur PLS ke data pelatihan.

Berdasarkan prosedur yang disarankan oleh Shmueli et al. (2016), implementasi algoritma prediksi PLS saat ini dalam perangkat lunak SmartPLS memungkinkan peneliti untuk mendapatkan kesalahan prediksi k-fold cross-validated dan statistik ringkasan kesalahan prediksi seperti root mean squared error (RMSE), mean absolute error (MAE), dan rata-rata persentase kesalahan absolut (MAPE) untuk menilai kinerja prediksi model jalur PLS mereka untuk variabel manifes (MV atau indikator) dan variabel laten (LV atau konstruksi). Perhatikan bahwa ketiga kriteria tersedia untuk hasil MV, sementara itu hanya mungkin untuk menghitung RMSE dan MAE untuk hasil LV. Kriteria ini memungkinkan untuk membandingkan kinerja prediksi model jalur PLS alternatif.

Simulasi Monte Carlo Sharma et al. (2019) menunjukkan bahwa RMSE dan rata-rata deviasi absolut MAE sangat sesuai ketika tujuannya adalah untuk memilih model prediksi terbaik di antara serangkaian model yang bersaing. Peneliti perlu membandingkan nilai RMSE dan MAD untuk pengaturan model alternatif dan memilih model, yang meminimalkan nilai RMSE dan MAD pada skor variabel laten.

Selain itu, untuk menilai hasil model jalur PLS tertentu, kinerja prediktifnya dapat dibandingkan dengan dua tolok ukur naif:

(1) Nilai Q² dalam PLSPredict membandingkan kesalahan prediksi model jalur PLS terhadap prediksi rata-rata sederhana. Untuk tujuan ini, ini menggunakan nilai rata-rata sampel pelatihan untuk memprediksi hasil sampel pisahan. Interpretasi hasil nilai Q² mirip dengan penilaian nilai Q² yang diperoleh dengan prosedur blindfolding di PLS-SEM. Jika nilai Q² bertanda positif maka kesalahan prediksi hasil PLS-SEM lebih kecil dari pada kesalahan prediksi yang hanya menggunakan nilai mean. Dalam hal ini, model PLS-SEM menawarkan kinerja prediksi yang lebih baik.

(2) Model regresi linier (LM) menawarkan kesalahan prediksi dan ringkasan statistik yang mengabaikan model jalur PLS yang ditentukan. Sebaliknya, pendekatan LM meregresi semua variabel indikator eksogen pada setiap variabel indikator endogen untuk menghasilkan prediksi. Dengan demikian, perbandingan dengan hasil PLS-SEM menawarkan informasi apakah menggunakan model jalur yang ditetapkan secara teoritis meningkatkan (atau setidaknya tidak memperburuk) kinerja prediksi dari data indikator yang tersedia. Dibandingkan dengan hasil LM, hasil PLS-SEM harus memiliki kesalahan prediksi yang lebih rendah (misalnya, dalam hal RMSE atau MAE) daripada LM. Perhatikan bahwa kesalahan prediksi LM hanya tersedia untuk variabel manifes dan bukan variabel laten.

Prosedur dan ekstensi tambahan sedang dalam pengembangan dan dapat menjadi bagian dari rilis SmartPLS di masa mendatang.

PLS Prediksi Pengaturan di SmartPLS

Jumlah Lipatan

Default: 10

Dalam k-fold cross-validation, algoritme membagi kumpulan data lengkap menjadi k subset data yang berukuran sama. Algoritme kemudian memprediksi setiap lipatan (sampel tahan) dengan subset k-1 yang tersisa, yang, jika digabungkan, menjadi sampel pelatihan. Misalnya, jika k sama dengan 10 (yaitu, 10 kali lipat), kumpulan data 200 pengamatan akan dibagi menjadi 10 subset dengan 20 observasi per subset. Algoritme tersebut kemudian memprediksi sepuluh kali setiap lipatan dengan sembilan subset yang tersisa.

Jumlah Pengulangan

Default: 10

Jumlah pengulangan menunjukkan seberapa sering algoritma prediksi PLS menjalankan validasi k-fold cross pada pemisahan acak dari kumpulan data lengkap menjadi k kali lipat.

Secara tradisional, validasi silang hanya menggunakan satu pemisahan acak menjadi k-fold. Namun, pemisahan acak tunggal dapat membuat prediksi sangat bergantung pada penugasan acak data (pengamatan) ini ke dalam lipatan-k. Karena partisi data acak, eksekusi algoritme pada titik waktu yang berbeda dapat bervariasi dalam hasil kinerja prediktifnya (mis., RMSE, MAPE, dll.).

Mengulangi validasi silang k-fold dengan partisi data acak yang berbeda dan menghitung rata-rata di seluruh pengulangan memastikan perkiraan yang lebih stabil dari kinerja prediktif model jalur PLS.

Tautan

Referensi

Posting Komentar untuk "Prediksi PLS"