لماذا تعتبر معايرة النموذج أكثر أهمية من الدقة في تنبؤات كرة القدم
يبدو النموذج الذي تبلغ دقته 60٪ مثيرًا للإعجاب - حتى تدرك أنه يقول «واثقًا بنسبة 70٪» في التنبؤات التي تتحقق في 55٪ فقط من الوقت. هذه الفجوة بين الثقة المعلنة والموثوقية الفعلية هي مشكلة المعايرة، وهي الفرق بين النموذج المفيد والنموذج الخطير.
الدقة مقابل المعايرة
يقوم معظم الأشخاص بتقييم نماذج التنبؤ بالدقة: «ما النسبة المئوية للتنبؤات التي كانت صحيحة؟» هذا أمر بديهي ولكنه مضلل للغاية للتنبؤات الاحتمالية.
ضع في اعتبارك نموذجين يتوقعان 100 مباراة كرة قدم:
| نموذج | الدقة | السلوك |
|---|---|---|
| نموذج A | 54% | يتنبأ بالفريق المضيف في كل مرة |
| نموذج B | 54% | احتمالات معايرة المخرجات لكل مباراة |
كلاهما لهما نفس الدقة، لكن النموذج B أكثر فائدة بكثير. عندما يقول النموذج B «الفوز على أرضه بنسبة 75٪»، فهذا يعني أنه من بين جميع المباريات التي توقع فيها ~ 75٪، أدى ما يقرب من 75٪ بالفعل إلى انتصارات على أرضه. لا يمنحك النموذج A مثل هذه المعلومات - إنه دائمًا ما يختار المنزل.
تخبرك الدقة بعدد المرات التي يكون فيها النموذج صحيحًا. تخبرك المعايرة بمدى ثقتك في الاحتمالات التي تنتجها. بالنسبة لأي شخص يتخذ قرارات بناءً على تلك الاحتمالات - وخاصة القرارات المالية - فإن المعايرة هي ما يهم.
ما هي المعايرة؟
تتم معايرة النموذج بشكل مثالي إذا كان التردد الفعلي للحدث مطابقًا لهذا الاحتمال لكل احتمال ينتج عنه. رسميًا:
P (النتيجة = الصحيحة | الثقة = p) = p
لجميع قيم p بين 0 و 1.
في الممارسة العملية، هذا يعني:
- عندما يقول النموذج «احتمال 60٪»، يجب أن يحدث الحدث ~ 60٪ من الوقت
- عندما يقول النموذج «احتمال 80٪»، يجب أن يحدث الحدث ~ 80٪ من الوقت
- عندما يقول النموذج «احتمال 30٪»، يجب أن يحدث الحدث ~ 30٪ من الوقت
يتم تصور ذلك باستخدام مخطط الموثوقية (منحنى المعايرة): يمكنك رسم الاحتمالية المتوقعة على المحور السيني مقابل التردد المرصود على المحور y. ينتج النموذج الذي تمت معايرته تمامًا خطًا قطريًا من (0,0) إلى (1,1).
معايرة القياس
بريير سكور
المقياس الأكثر شيوعًا لتقييم التنبؤات الاحتمالية هو درجة Brier، التي قدمها Glenn Brier في عام 1950:
BS = (1/N) × ΔI (ص)i − oi)²
أين صi هو الاحتمال المتوقع و oi هي النتيجة الفعلية (1 أو 0). الأقل هو الأفضل. النطاق: 0 (مثالي) إلى 1 (الأسوأ).
يمكن تقسيم درجة Brier إلى ثلاثة مكونات:
| المكون | ماذا يقيس | الهدف |
|---|---|---|
| المعايرة (الموثوقية) | مدى قرب الاحتمالات المتوقعة من الترددات المرصودة | تصغير |
| الدقة (الحدة) | مقدار التوقعات التي تنحرف عن السعر الأساسي | تحقيق أقصى قدر |
| عدم اليقين | عدم القدرة على التنبؤ المتأصل بالأحداث (لا يمكن التحكم فيه) | — |
يمكن أن يتمتع النموذج بمعايرة جيدة ولكن بدقة ضعيفة (يتنبأ دائمًا بنسبة 33٪ تقريبًا لكل نتيجة في سوق ثلاثي الاتجاهات)، أو دقة جيدة ولكن معايرة ضعيفة (إجراء تنبؤات متطرفة لا تتطابق مع الواقع). تتمتع أفضل النماذج بمعايرة جيدة ودقة جيدة.
خطأ المعايرة
يوفر خطأ المعايرة المتوقع (ECE) مقياسًا مباشرًا أكثر. يقوم بتجميع التنبؤات حسب مستوى الثقة ويحسب متوسط الفرق المرجح بين الترددات المتوقعة والملاحظة:
اللجنة الاقتصادية لأوروبا = (n)b/N) × |avg(pb) − متوسط (o)b)|
حيث يقوم b بفهرسة الصناديق، nb هو عدد التنبؤات في bin b و avg (p)b) ومتوسط (o)b) هي متوسط القيم المتوقعة والملاحظة في تلك الحاوية.
لماذا تعتبر المعايرة مهمة للمراهنة
هذا هو المكان الذي تصبح فيه المعايرة مشكلة مالية. إذا قال أحد العارضين إن الفريق لديه فرصة بنسبة 60٪ للفوز، وقدمت شركة المراهنات احتمالات تشير إلى 55٪، فإن هذا يبدو وكأنه رهان ذو قيمة - ميزة 5٪. ولكن ماذا لو كان النموذج مفرطًا في الثقة وكان الاحتمال الحقيقي في الواقع 53٪؟ أنت الآن تراهن على القيمة السلبية المتوقعة.
يقول النموذج: 60% ← الاحتمالات الضمنية: 1.67
تقدم شركة المراهنات: 1.82 (ضمنيًا 55٪) → تبدو كقيمة +5٪
الاحتمال الحقيقي: 53% ← الميزة الفعلية: − 2% (خسارة الرهان على المدى الطويل)
يحدد نموذج الثقة المفرطة بشكل منهجي «القيمة» غير الموجودة. أكثر من مئات الرهانات، هذا يدمر رصيدك. يمنحك النموذج الذي تمت معايرته جيدًا، حتى لو كان أقل دقة قليلاً، تقديرات احتمالية موثوقة يمكنك استخدامها فعليًا لاتخاذ القرار.
هذا هو السبب في أن ExPrysm يركز على المعايرة كمقياس أساسي. نموذج يقول «65٪» ويعني أنه أكثر فائدة بلا حدود من النموذج الذي يقول "75٪" ولكنه مناسب بنسبة 60٪ فقط من الوقت.
كيف تقوم ExPrysm بمعايرة النماذج
يستخدم ExPrysm عدة طرق لضمان مخرجات احتمالية معايرة:
احتمالات CatBoost الأصلية
ينتج CatBoost، إطار تعزيز التدرج الذي تستخدمه ExPrysm، احتمالات تمت معايرتها جيدًا محليًا - أفضل من معظم النماذج الأخرى القائمة على الأشجار. هذا لأن CatBoost يستخدم الأشجار المعززة والمتناظرة التي تقلل من التجهيز الزائد، وهو السبب الرئيسي لسوء المعايرة.
يستخدم نموذج نتيجة المباراة class_weights= [1.0، 1.3، 1.0] لزيادة عدد السحوبات قليلاً أثناء التدريب. يعالج هذا المشكلة المعروفة المتمثلة في أن السحوبات هي أصعب نتيجة يمكن التنبؤ بها وغالبًا ما تكون ممثلة تمثيلاً ناقصًا في ثقة النموذج.
الانحدار متساوي التوتر
بالنسبة للمعايرة اللاحقة، يعد الانحدار متساوي التوتر طريقة غير بارامترية تتعلم رسم الخرائط الرتيبة من درجات النموذج الخام إلى الاحتمالات المعايرة. وهي تعمل عن طريق تركيب دالة متدرجة تقلل الخطأ التربيعي بين الترددات المتوقعة والملاحظة، مع مراعاة القيد المتمثل في عدم تناقص الدالة.
الميزة على الطرق البارامترية هي أن الانحدار متساوي التوتر لا يضع أي افتراضات حول شكل منحنى المعايرة - يمكنه تصحيح أي نمط من سوء المعايرة.
تحجيم بلات
يناسب تحجيم بلات الانحدار اللوجستي للمخرجات الخام للنموذج لإنتاج احتمالات معايرة. إنه أبسط من الانحدار متساوي التوتر ويعمل بشكل جيد عندما يتبع المعايرة الخاطئة النمط السيني. إنه مفيد بشكل خاص للنتائج الثنائية مثل BTTS أو الأسواق الزائدة/السفلية.
قراءة منحنى المعايرة
منحنى المعايرة (مخطط الموثوقية) هو الطريقة الأكثر سهولة لتقييم جودة النموذج. إليك كيفية قراءة واحدة:
| نمط | المعنى | التضمين |
|---|---|---|
| نقاط قطرية | معايرة مثالية | الاحتمالات المتوقعة تتطابق مع الواقع |
| نقاط فوق القطر | غير واثق | تقول العارضة 50٪ لكن الأحداث تحدث 60٪ - متحفظ |
| نقاط أقل من القطر | ثقة مفرطة | تقول العارضة أن 70٪ ولكن الأحداث تحدث 55٪ - خطيرة |
| منحنى على شكل S | مختلط | عدم الثقة في الحالات القصوى، والثقة المفرطة في الوسط (أو العكس) |
لأغراض المراهنة، الثقة المفرطة هي النمط الأكثر خطورة. نموذج الثقة المفرطة يجعلك تعتقد أن لديك ميزة عندما لا تفعل ذلك. ضعف الثقة أقل ضررًا - قد تفوتك بعض الرهانات القيمة، لكنك لن تخسر المال بشكل منهجي.
الحاوية 30-40٪: النموذج المتوقع ~ 35٪، معدل النتائج الفعلي = 33٪ ✓
الحاوية 50-60٪: النموذج المتوقع ~ 55٪، معدل النتائج الفعلي = 57٪ ✓
الحاوية 70-80٪: النموذج المتوقع ~ 75٪، معدل النتائج الفعلي = 73٪ ✓
يقع التردد المرصود لكل حاوية في حدود بضع نقاط مئوية من المتوسط المتوقع - وهذا نموذج تمت معايرته جيدًا.
نتائج معايرة ExPrysm
تنشر ExPrysm منحنيات المعايرة لجميع الأسواق الرئيسية على صفحة الأداء. يتم إنشاء هذه المنحنيات من بيانات التنبؤ الحقيقية عبر أكثر من 7800 مباراة ويتم تحديثها بانتظام.
النقاط الرئيسية حول معايرة ExPrysm:
- متاح للجمهور: على عكس معظم خدمات التنبؤ، تكون بيانات معايرة ExPrysm مرئية لجميع المستخدمين. يمكنك التحقق من موثوقية النموذج بنفسك.
- التفاصيل على مستوى السوق: يتم توفير منحنيات معايرة منفصلة لنتيجة المباراة (1X2) وBTTS وOver/Under والأسواق الأخرى. لكل سوق خصائص معايرة مختلفة.
- المراقبة المستمرة: يتم تتبع المعايرة بمرور الوقت لاكتشاف الانجراف. إذا تمت معايرة النموذج بشكل خاطئ بسبب ديناميكيات كرة القدم المتغيرة، فسيتم اكتشافه مبكرًا.
- ممنوع قطف الكرز: يتم تضمين جميع التوقعات في تحليل المعايرة - وليس فقط تلك التي حصل عليها النموذج بشكل صحيح. هذا أمر بالغ الأهمية للتقييم الصادق.
اعرض منحنيات المعايرة المباشرة لـ ExPrysm ودرجات Brier على صفحة الأداء. جميع البيانات مأخوذة من تنبؤات حقيقية وليست اختبارات خلفية.
الخاتمة
الدقة هي المقياس الذي يسأل عنه الجميع. المعايرة هي المقياس المهم بالفعل. يمنحك النموذج الذي تمت معايرته جيدًا احتمالات يمكنك الوثوق بها والتصرف بناءً عليها. يمكن للنموذج غير المعاير - بغض النظر عن مدى «دقته» - أن يقودك إلى قرارات سيئة بشكل منهجي.
تعطي ExPrysm الأولوية للمعايرة من خلال تقدير الاحتمالية الأصلي لـ CatBoost وتقنيات المعايرة اللاحقة والتقارير العامة الشفافة لمنحنيات المعايرة. عندما يقول النموذج 65%، فهذا يعني 65% - وهذا هو الأساس الذي بُني عليه كل شيء آخر.
هل تريد أن تفهم كيف تترجم درجات الثقة إلى قرارات المراهنة؟ اقرأ كيفية اختيار رهانات كرة القدم دليل.