Forum pubblico/privato: Pubblico
Permessi di scrittura: Utenti registrati
Giorno: 13/12/2013, 22:09:49
SF Development: ultimi sviluppi
L'impetuosa avanzata di Stockfish dei mesi scorsi sembra essersi quasi esaurita nel corso delle ultime settimane.

Dopo l'uscita della versione ufficiale SF DD, un piccolo incremento di 8 punti è stato ottenuto con quella del 9 Dicembre, firmata da Ralph StoBer; tuttavia quelle successive di Lucas Braesh e Marco Costalba sembrano incappate in una leggera regressione.

Si ha quasi l'impressione che il motore sia stato spremuto come un limone e che sia ormai diventato difficilissimo fare ulteriori progressi con la semplice regolazione di qualche parametro.

Anche la sconfitta nella finalissima del TCEC ha generato una certa disillusione in molti appassionati che avevano messo a disposizione del Team i propri PC: un mese fa, sull'onda dell'entusiasmo, risultavano attive una cinquantina di macchine, per un totale di ben 250-300 core, mentre ora il numero medio di core attivi è di poco superiore ai 100.

Riusciranno Marco & Co. a trovare nei prossimi mesi nuove idee per far ripartire la corsa di SF, e migliorarlo anche sui tempi lunghi, in vista del prossimo TCEC?

ciao.gifciao.gif
"TB or not TB..."
Giorno: 23/09/2020, 05:51:46
Link sponsorizzati
Giorno: 21/12/2013, 09:09:02
Anche se ormai si fa sempre più difficile migliorare ulteriormente il programma, alcune idee promettenti saltano ancora fuori, cosicché il test di regressione sta facendo registrare 11 punti di incremento (rispetto alla versione DD) per l'ultima di sviluppo del 19/12, firmata da Gary Linscott.

Se pensiamo che la "DD" è stata rilasciata appena tre settimane fa, il dato non sembra affatto disprezzabile.

Se poi potrà essere confermato anche su tempi ben più lunghi, beh, questo non è possibile stabilirlo a priori... biggrin.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 26/12/2013, 11:48:22
Ottime notizie dal Team: altri 7 punti messi a segno in soli 4 giorni!

La versione del giorno 23 di Ralph StoBer (bench N 6835416) ha fatto registrare un lusinghiero +18,6 ± 2 su SF DD.

È disponibile anche la versione con le Syzygy di Ronald de Man (25 Dicembre, Timestamp 1387935563)

Anche l'idea successiva di Stefan Geschwentner (di privilegiare nel finale le strutture pedonali con pedoni su entrambe le ali) ha superato il test ed è stata aggiunta alla "master" (25 Dicembre, bench N 7665034, o con le Syzygy, Ronald de Man, 26 Dicembre, Timestamp 1388022598).

Quest'ulteriore modifica potrebbe aver già portato l'asticella oltre "quota 20".

Secondo qualcuno fra i soliti tester di Immortal Chess queste ultimissime versioni starebbero addirittura "stracciando" Houdini 4 a tempi brevi...
confused.gifconfused.gifconfused.gif

Ma, a parte il fatto che 100 partite dicono poco o nulla sui reali rapporti di forza di due motori (il margine di indeterminazione di oltre 40-50 punti è molto più grande della piccolissima differenza che si vuole andare a misurare...), c'è da tener conto che tutte queste modifiche stanno ottimizzando sempre più il motore per i tempi brevissimi, mentre a tempi più lunghi c'è sempre il rischio di incappare addirittura in una regressione, e solo un elevato numero di test "seri" (come quelli della CCRL 40/40) potranno darci indicazioni davvero utili.

L'obiettivo non dichiarato resta comunque quello di migliorare il motore quanto più è possibile, in vista del prossimo TCEC; e se alla fine anche solo metà degli incrementi misurati risulteranno efficaci su tempi molto più lunghi, per il prossimo Aprile SF potrà finalmente puntare seriamente al primato assoluto, Houdini e Komodo permettendo...biggrin.gifbiggrin.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 30/12/2013, 11:11:44
Le numerose modifiche di quest'ultima settimana non hanno invece prodotto risultati apprezzabili: dopo oltre 20000 partite il test di regressione è fermo a +19 sulla SF DD.

Intanto arriva il primo aggiornamento della CEGT 40/20, che include finalmente la versione DD.

http://www.husvankempen.de/nunn/40_40%20Rating%20List/40_40%20All%20Versions/rangliste.html

Le partite sono ancora poche (appena 300, per una barra di errore di almeno 25 punti), ma il dato è incoraggiante: con 3161 punti SF DD su 4 core è secondo, appena 11 punti dietro H4 e 20 davanti ad H3.
Manca però ancora Komodo TCEC (la versione 6 in questa graduatoria ha 3125 punti).

La cosa sorprendente è comunque che passando da SF4 a SF DD sia stato rilevato un margine di miglioramento di ben 66 punti, esattamente quanto misurato dal team di Stockfish con i loro test fatti su un solo core e ad appena 1 minuto a partita, tempi in pratica ridotti di un fattore 100 rispetto a quelli utilizzati dalla CEGT 40/20 !

Ciò sembrerebbe indicare che, anche i test condotti a tempi brevissimi, non siano del tutto inutili, ma, purché basati su un numero molto elevato di partite, possano fornire le prime valide indicazioni.

Aspettiamo comunque che il campione statistico cresca di numero e soprattutto, per confronto, che arrivino finalmente i dati della CCRL 40/40 (con tempi doppi rispetto a quelli della CEGT)...

ciao.gifciao.gif
"TB or not TB..."
Giorno: 03/01/2014, 11:56:50
Ottimo inizio!
Si apre bene il nuovo anno.

Altre due modifiche si sono rivelate vantaggiose; l'ultima riguarda un affinamento della funzione di valutazione nel finale, quando, oltre ai pezzi, rimane un solo pedone (2 Gennaio, Shane 31, bench N 7602383).

Il test di regressione è al momento a +24,5 su SF DD, 5 punti in più di quello effettuato nei giorni scorsi.

Davvero non male! biggrin.gifbiggrin.gif zizi.gifzizi.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 03/01/2014, 15:09:50
Ho fatto 3 partite a 40 minuti fra SF del 2 gennaio e houdini 4 e ne ha vinte 2 e perse 1.
Su una partita vinta ha letteralmente demolito h4 in poche mosse guadagnando un vantaggio enorme già in apertura.
Se l'anno inizia così.
P.S.
Il nero è H4 non Tornado
biggrin.gif

You need Javascript enabled to view it.








Giorno: 05/01/2014, 18:36:28
Un primo dato interessante che si può ricavare dalla nuova CCRL 40/40 sono i miglioramenti, a questi livelli di gioco, dei motori più forti rispetto alle loro versioni precedenti.

A guardare direttamente i dati numerici, H4 sembrerebbe migliorato di soli 10 punti rispetto ad H3 (ecco forse perché al TCEC non ce ne eravamo affatto accorti...biggrin.gifbiggrin.gif); Komodo TCEC di 18 punti rispetto a K6, mentre Stockfish DD di ben 46 punti rispetto a SF4.

Naturalmente anche qui le barre d'errore potrebbero stravolgere notevolmente tali considerazioni, per cui è sempre meglio essere cauti...biggrin.gifbiggrin.gif

Consideriamo ora l'evoluzione di Stockfish in quest'ultimo anno: nella CCRL 40/40 su 4 core SF DD ha un vantaggio di +46 su SF4, di +85 su SF3 e addirittura +108 su SF 2.3.1, da cui tutto è partito nel Febbraio dello scorso anno.

Per vedere un miglioramento così rapido bisogna riandare indietro di 6-7 anni, ai tempi di Rybka 3, che riuscì a fare un balzo altrettanto prodigioso!

Un secondo dato interessante emerge poi dal confronto di questi incrementi con quelli misurati mediante i test di regressione dal team di SF: sembra infatti che ci sia una correlazione perfettamente lineare fra i due insiemi di valori, nel senso che basta ridurre di un terzo quelli misurati dal team di SF per ottenere, quasi esattamente, quelli della CCRL 40/40 su 4 core!

Se questa relazione continuerà a valere anche per i prossimi mesi, le ultime versioni di sviluppo potrebbero già aver messo a segno un'altra quindicina di punti effettivi rispetto alla DD...

ciao.gifciao.gif
"TB or not TB..."
Giorno: 11/01/2014, 18:32:15
Tiro mancino...
Dopo la babele di versioni della settimana scorsa, il test di regressione dell'altro ieri ha fatto un po' di chiarezza, consegnandoci altri 4-5 punti di incremento rispetto al precedente.

Nelle fasi iniziali del test, però, la statistica si è divertita a giocarci l'ennesimo scherzetto: dopo le prime 700 partite era apparso un sensazionale incremento di ben 55 punti rispetto a SF DD, con barra d'errore di ±15 punti per un grado di confidenza del 95%; sembrava quindi che "almeno" 40 punti (55 - 15) fossero ormai "sicuri".

Purtroppo con le probabilità non si è mai sicuri di niente, biggrin.gifbiggrin.gif, e infatti, al crescere delle partite il bottino è calato rapidamente: + 43 dopo 1000 partite, +34 dopo 4000, per attestarsi infine a poco meno di 30 punti (±2) al termine delle 40000 partite del test.

Quindi lo scostamento dopo le prime 700 partite (risultato pari a circa 25 punti) ha ampiamente superato la barra di errore! dho.gifdho.gifdho.gif

Una lezione da tenere sempre bene in mente in tutte le nostre considerazioni sull'Elo dei motori! biggrin.gifbiggrin.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 16/01/2014, 22:08:30
L'asticella a "quota 30" si sta rivelando un ostacolo molto più difficile del previsto. Nonostante l'inserimento di un altro paio di idee che sembravano promettenti, il test di regressione dell'ultima versione, iniziato un paio di giorni fa, ha fatto registrare lo stesso, identico, valore di quello della settimana scorsa, cosicché siamo praticamente fermi.

Ma forse, come sostengono anche molti biologi, l'evoluzione non è un processo continuo, bensì procede "a salti"... certocerto.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 18/01/2014, 14:06:22
"la statistica si è divertita a giocarci l'ennesimo scherzetto"
Volevo dire che secondo me la statistica, come tutta la matematica, non gioca veri e propri scherzetti, in quanto c'è sempre una spiegazione e quindi diventa tutto prevedibile: in questo caso sembra che i risultati vanno fuori dalla barra di errore con molta più "probabilità" del previsto perché (per dirla in parole povere) tutto il significato dell'Elo è basato su una distribuzione "normale" delle probabilità, ovvero un "comportamento" delle probabilità che segue una curva gaussiana (esponenziale e quindi con derivata n-esima sempre esponenziale).
Gli scacchi invece non seguono sempre una distribuzione "normale".
Gli algoritmi dei motori sono spesso testati per un incremento dell'Elo e quindi seguono un "comportamento" abbastanza "normale" (penso che ciò si potrebbe dimostrare osservando che un motore ha lo stesso guadagno di Elo con qualsiasi buon libro di aperture, testando il motore con il relativo dovuto numero di partite, dipendente dal tipo di libro usato), mentre i libri di apertura, soprattutto quello dei test di Stockfish, non sono stati testati affatto su basi statistiche di tipo "normale" (gaussiano).
Inoltre le prime partite della sequenza (in questo caso le prime 700) non sono distribuite in modo "parziale" (ne "normale") rispetto a tutte le altre partite del test.
Quindi penso che sia perfettamente probabile che le prime 700 aperture fossero meno "imparziali" delle altre. Più veritiero è invece il risultato quando sono completate un certo numero di aperture, dipendente dal tipo di libro usato (almeno 10.000 per quanto riguarda i test di Stockfish).
"W l'analphabeta pruning!"