Memvalidasi Model ASA xGoals

Itu lebih dari dua tahun yang lalu bahwa kami membangun model saat ini untuk menentukan tujuan yang diharapkan dari setiap tembakan, jadi mari kita kembali dan melihat bagaimana kinerjanya. Bagi mereka yang tertarik, saya telah menyertakan beberapa kode R untuk menyesuaikan model linier umum kami (GLM), dan juga model pohon yang diendapkan gradien (GBM) untuk perbandingan. Saya memilih dataset pelatihan yang akan diambil dari tahun 2011 – 2014, dan dataset validasi akan diambil dari tahun 2015 dan 2016. Tujuan aktual dan prediksi per tembakan ditunjukkan di setiap variabel model. model kami berjalan cukup baik.

Pertama, saya sesuai dengan model aslinya seperti yang terlihat di situs ASA. Ini adalah model linier logistik umum, yang dirancang untuk memprediksi probabilitas hasil biner seperti tembakan (sasaran vs. bukan sasaran). Koefisien akan sedikit berbeda dari apa yang kita posting sejak lama, karena ini adalah kumpulan data pelatihan yang berbeda.

Selanjutnya, saya sesuai dengan GBM, model berbasis pohon yang tidak dibatasi oleh formula linier. Parameter meliputi jumlah pohon keputusan (n.trees), jumlah perpecahan pada masing-masing pohon (interaction.depth), jumlah minimum observasi per cabang akhir (n.minobsinnode), dan tingkat belajar (susut). Saya menggunakan paket caret untuk menyetel keempat parameter ini. Variabel yang paling penting dalam meningkatkan kecocokan model ini adalah jarak dan pola permainan, yang masuk akal terutama bila Anda ingat pola bermain itu termasuk tendangan penalti.

Di sini saya memperkirakan tingkat penilaian, atau sasaran yang diharapkan, untuk setiap tembakan di seluruh dataset, termasuk pelatihan dan validasi. Saya menambahkan kolom prediksi Indobookies dari masing-masing model ke kumpulan data tembakan asli.

Validasi

Pada bagian ini, saya menghasilkan plot validasi untuk setiap variabel dalam model. Saya menunjukkan tingkat penilaian sasaran aktual dengan garis biru solid dan tingkat penilaian sasaran yang diprediksi (xGoals) dengan garis hijau putus-putus, dengan label pada sumbu y kanan. Di latar belakang, bilah abu-abu menunjukkan ukuran sampel (jumlah tembakan) di setiap ember, diberi label pada sumbu y kiri. Hasil kedua model ASA asli dan GBM ditampilkan.

Kesimpulan

Model ASA yang sesuai dengan data 2011 – 2014 memprediksi angka penilaian sasaran “masa depan” dengan cukup baik. Artinya, garis putus-putus tetap dekat dengan garis padat di sebagian besar ember dari setiap variabel, dan hanya menyimpang terasa di mana hanya ada sedikit tembakan yang diambil. Selain itu, model linier tampaknya mengimbangi GBM berdasarkan grafik, yang agak mengejutkan mengingat GBM dikenal karena kemampuan mereka untuk menangani hubungan non linier dan interaksi kompleks secara alami. Lebih obyektif, log-likelihood error holdout-sample hanya sedikit lebih besar untuk model linier (4620.1) daripada GBM (4614.2). Dalam kasus ini, nampaknya pola linier dalam log-odds goal goal yang dipegang cukup baik, dan penyesuaian non-linear kita yang licik-seperti jarak masuk dan mulut sasaran kuadratik tersedia-membantu model linier agar sesuai dengan model celana mewah.

 

Tinggalkan Balasan

Prediksi Togel Togel Shenzen