Forum pubblico/privato: Pubblico
Permessi di scrittura: Utenti registrati
Giorno: 03/03/2023, 19:39:35
NCM Vecchio & Nuovo
Vecchio NCM

Nuovo NCM

Il cambio di sparring partner da SF7 a SF14 per le nuove versioni di sviluppo ha portato drastici cambiamenti nella valutazione dei progressi Elo e si presta a diverse considerazioni interessanti.

Prendiamo innanzitutto il miglioramento medio delle ultime dev testate rispetto a SF14: appena 35 punti circa nella vecchia graduatoria.

Nella nuova, tale differenza si e' piu' che triplicata, e si attesta intorno ai 110 punti!

Evidentemente, testando rispetto al vecchio SF7, si era raggiunto un punto di saturazione nelle performance delle ultime dev, che rendeva i test del tutto privi di significato. In definitiva, solo tempo sprecato! dho.gif

Il test contro un avversario decisamente piu' forte, come SF14, consente di far risaltare meglio i progressi che ci sono stati in questi ultimi 2 anni.

Anche le barre di errore si sono piu' che dimezzate rispetto ai vecchi test.

Peccato che il numero di partite sia stato ridotto, da 20000 a 10000, altrimenti le cose sarebbero potute andare anche meglio ...

ciao.gifciao.gif
"TB or not TB..."
Giorno: 28/03/2023, 11:27:36
Link sponsorizzati
Giorno: 04/03/2023, 11:11:31
Non capisco pero' come sia calcolato il gamepair Elo.confused.gif
Giorno: 04/03/2023, 14:31:38
Non ne ho la minima idea! dho.gif

Ma, trattandosi di valori innaturalmente elevati, credo che la cosa migliore da fare sia ignorarli, limitandosi a prendere in considerazione le differenze Elo calcolate nella maniera tradizionale. biggrin.gifbiggrin.gif

Del resto i dettagli delle oscillazioni (piu' che altro rumore statistico) sembrano variare in maniera quasi impercettibile commutando dall'uno all'altro metodo di calcolo ... mmmm.gifmmmm.gifmmmm.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 04/03/2023, 17:34:36
A quanto pare questa nuova sorta di Elo e' un'idea del nostro Stefan Pohl (e di Van de Vondele).

A lui la parola:

Gamepairs Rescorer Batch-Tool. Realizing Vondele's (Stockfish maintainer) idea: "Thinking uniquely in game pairs makes sense with the biased openings used these days. While pentanomial makes sense it is a bit complicated so we could simplify and score game pairs only (not games) as W-L-D (a traditional score of 2-0, or 1.5-0.5 is just a W)."

La logica dovrebbe essere quindi quella di contare i risultati complessivi delle coppie di gare (di Bianco e di Nero), e non quelli delle singole partite. Poiche' un motore come SF finira' per aggiudicarsi quasi tutte le coppie per 1.5 a 0.5, e' come se le avesse vinte quasi tutte, realizzando quindi uno score prossimo piu' al 100% che al 75%.
In queste condizioni il suo punteggio risultera' molto piu' gonfiato di quello tradizionale.

Qui c'e' la graduatoria dei migliori motori su cpu da lui testati e valutati con questo sistema:

# PLAYER : RATING ERROR PLAYED W D L (%) CFS(%)
1 Stockfish 230227 avx2 : 42 16 5000 4284 610 106 91.8 100
2 Stockfish 15.1 221204 : 0 ---- 5000 4137 694 169 89.7 100
3 KomodoDragon 3.2 avx2 : -209 16 5000 3348 1005 647 77.0 100
4 Berserk 11 avx2 : -456 17 5000 2016 1578 1406 56.1 100
5 Ethereal 14.00 nnue : -530 17 5000 1581 1665 1754 48.3 100
6 Koivisto 9 avx2 : -606 17 5000 1150 1673 2177 39.7 100
7 RubiChess 221120 avx2 : -647 18 5000 891 1725 2384 35.1 100
8 Revenge 3.0 avx2 : -663 18 5000 807 1714 2479 33.3 100
9 Rebel 16.1 : -711 17 5000 595 1609 2796 28.0 60
10 Fire 8.NN avx2 : -712 17 5000 593 1598 2809 27.8 100
11 Igel 3.4.0 popavx2 : -756 18 5000 426 1473 3101 23.3 ---

Differenze decisamente esagerate, secondo me, per poter essere considerate realistiche ... mmmm.gifmmmm.gifmmmm.gif

Affidiamoci dunque al buon vecchio Elo tradizionale, che gia' le scelte supersbilanciate delle linee di apertura ci mettono il loro! biggrin.gifbiggrin.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 04/03/2023, 17:55:45
In queste condizioni non ci dovrebbero essere differenze fra vincere una coppia per 1.5 a 0.5 piuttosto che per 2 a 0 (evento altamente improbabile con aperture cosi' sbilanciate); per lo stesso motivo non c'e' differenza a perdere 0 a 2 piuttosto che 0.5 a 1.5: la coppia e' persa in ogni caso.
Le coppie pareggiate sono ovviamente quelle che terminano con una doppia parita' o con una vittoria a testa.

Cosa ci si inventa, pur di essere originali! biggrin.gifbiggrin.gifbiggrin.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 05/03/2023, 13:42:13
Ho capito, grazie Luigi!

Si in effetti e' meglio basarsi sul punteggio tradizionale, anche perche' cambiando il grafico su NCM cambia la scala del punteggio ma la curva alla fine resta quella...
Giorno: 12/03/2023, 08:28:18
Strana gente, questi della NCM. rollo.gif

Avevano trovato la Via, ma pare che l'abbiano smarrita di nuovo! dho.gifdho.gifdho.gif

Sono infatti ripresi i test, assolutamente inconcludenti, contro il vecchio SF7, a discapito dei nuovi, contro SF14.

Mentre nella vecchia lista continuano a insistere con campioni di 20000 partite, nella nuova, le ultime dev sono state finora testate su un campione di sole 1000 partite, con bande d'errore di oltre 10 Elo, almeno un ordine di grandezza superiore a quello degli eventuali miglioramenti che si vorrebbero mettere in luce.

La loro curva somiglia a quella di una lama di sega con i denti fortemente smussati. Inutile dire che in tali condizioni, anche qui i loro test servono a ben poco.

Che dire?

Evidentemente il buon senso e' un dono, e a quanto pare, cosi' come i nostri politici, non tutti lo posseggono ... senzasperanza.gifsenzasperanza.gif

ciao.gifciao.gif
"TB or not TB..."