Forum pubblico/privato: Pubblico
Permessi di scrittura: Utenti registrati
Giorno: 18/01/2014, 18:29:31
Sì, se le prime 700 partite di quel test sono state giocate usando sempre lo stesso tipo di apertura (un po' come il libro di Graham Banks che sta adoperando il nostro Riddick nel Maga Match, che finora ha previsto sempre 1.f4 come prima mossa d'apertura) si potrebbe ipotizzare che quella versione testata di Stockfish sia risultata particolarmente ottimizzata in confronto alla DD per quelle particolari linee di gioco.

Ma anche se si è trattato di una "normale" distribuzione gaussiana (ipotesi molto più semplice e che quindi, per il criterio del "rasoio di Occam", personalmente continuo a preferire), dobbiamo sempre tener presente che "indice di confidenza al 95%" non significa "certezza assoluta": c'è pur sempre un 5% di probabilità di uscire fuori dalla barra di errore.

Aumentare ulteriormente l'indice di confidenza, portandolo ad esempio al 99% aiuta a ridurre le eccezioni, ma non risolve concettualmente il problema. Del resto, anche arrivando alla probabilità di vincere un grosso premio alla Lotteria Italia, dell'ordine di uno su un milione (ma esattamente zero per me, che non compro il biglietto biggrin.gifbiggrin.gif), praticamente zero per l'italiano "medio" (quello del pollo di Trilussa, per intenderci), c'è sempre qualcuno che riesce a vincere...Di questi tempi beato lui!

ciao.gifciao.gif
"TB or not TB..."
Giorno: 23/09/2020, 06:19:27
Link sponsorizzati
Giorno: 18/01/2014, 19:23:11
Intanto, in vista della terza stagione del TCEC, che dovrebbe partire fra poche settimane, Marco Costalba ha finalmente innalzato a 16 GB la massima quantità di memoria supportata da Stockfish, il valore più alto possibile senza dover apportare modifiche sostanziali al programma.

Pare infatti che la RAM del server di Thoresen sia stata portata a 64 GB...

ciao.gifciao.gif
"TB or not TB..."
Giorno: 22/01/2014, 18:46:48
Al terzo tentativo l'asticella viene finalmente superata. L'ultima versione di sviluppo del 19/01 (20/01 nella versione con le Syzygy di Ronald de Man) ha fatto registrare un + 32,5 ± 2 sulla SF DD, quando manca appena qualche decina di partite per chiudere la serie da 40000 del nuovo test di regressione.

Per chi fosse interessato a scaricarla consiglio, in alternativa al sito ufficiale, l'ultima versione della "Stockfish Rockwood", del "Bosonico" compilatore Higgs

https://www.dropbox.com/s/upghqh4ay1x3zbu/Stockfish_Rockwood.7z

che, oltre ad alcune funzioni accessorie (Large Page e profondità di ricerca estesa a 192 semimosse), sembra davvero più veloce (pochi punti percentuali, beninteso) delle versioni ufficiali.

ciao.gifciao.gif
"TB or not TB..."
Giorno: 22/01/2014, 20:02:11
Una "novità" delle ultime versioni sembra la "rinormalizzazione" della funzione di valutazione, che ha tutta l'aria di essere stata, per così dire, "dimezzata".

Forse questa modifica è stata programmata proprio in vista del prossimo TCEC; ora i valori numerici forniti dal motore sembrano molto meno "ottimistici" e decisamente più in linea con quelli forniti dagli altri programmi...

ciao.gifciao.gif
"TB or not TB..."
Giorno: 30/01/2014, 22:23:38
Quasi terminato il test di regressione della versione del giorno 29 che fa registrare un ulteriore piccolo incremento, arrivando così a +36,7 ±2 su SF DD.

Un bel risultato per soli due mesi di lavoro.

Intanto il Team si prepara a festeggiare il 13 Febbraio il suo primo anno di attività, e probabilmente lo farà con un test di regressione sulla versione 2.3.1 da cui è partito il progetto; ad occhio e croce il progresso dovrebbe potersi quantificare sui 190 punti!

Ma non facciamoci prendere dai facili entusiasmi, perché ricordo ancora una volta che questi valori valgono solo a tempi ultrarapidi e, purtroppo, la CCRL 40/40 ci ha insegnato che, quando si passa a tempi molto più lunghi, bisogna, nella migliore delle ipotesi, dimezzare tali incrementi, perciò, tifosi di SF, restiamo pure coi piedi ben piantati per terra... biggrin.gifbiggrin.gif

Intanto, a chi proprio non apprezza il valore davvero "esagerato" della funzione di valutazione di SF, consiglio le versioni compilate dal giamaicano Higgs (indicate come Stockfish Rockwood, o Stockfish RW)

https://www.dropbox.com/s/upghqh4ay1x3zbu/Stockfish_Rockwood.7z

Oltre ad essere leggermente più veloci di quelle "ufficiali" e a poter gestire le Large Page (e ovviamente le Syzygy), forniscono una valutazione della posizione dimezzata rispetto a quella originale, cosicché il dato numerico fornito da SF RW non differisce molto da quello degli altri motori al top...

ciao.gifciao.gif
"TB or not TB..."
Giorno: 04/02/2014, 21:49:38
A proposito delle versioni di Higgs c'è da dire che, come sospettavo, ha introdotto un fattore di normalizzazione alla funzione di valutazione di Stockfish.

Pensavo che avesse semplicemente diviso per 2 il valore numerico mostrato a display ma, interpellato sul Rybka Forum ha dichiarato di aver utilizzato, come funzione di normalizzazione, la seguente:

y = x(x+4)/(x+10)

che ha ricavato empiricamente confrontando le valutazioni fornite da SF nelle partite giocate allo scorso TCEC con quelle degli altri motori.

In questa formula x è il valore assoluto della valutazione di SF "originale" mentre y il nuovo valore assegnato da SF Rockwood.

In pratica, quando SF valuta 1 RW indicherà 0,45.
Se SF dà 2 RW indicherà 1. Con SF = 3 RW = 1,62.
Se SF = 5 RW indicherà 3, ecc.

Ma niente paura: poiché la normalizzazione interviene solo a livello della valutazione mostrata a display, il motore di SF Rockwood funzionerà allo stesso identico modo dello SF originale. zizi.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 06/02/2014, 00:14:31
Author: Ronald de Man
Date: Wed Feb 5 21:09:05 2014 +0100
Timestamp: 1391630945

«If DTZ tables are not available and the root position is in the tablebases, SF now also probes after pawn moves (in addition to captures). This should ensure progress in most (but not all) endgame positions with pawns.»
"Niente è più curativo di un gesto umano!" - Bobby Fischer
Giorno: 06/02/2014, 13:39:05
In effetti sto cominciando a chiedermi a cosa cavolo servano le Syzygy DTZ.

In teoria dovrebbero dire al motore quante mosse servono esattamente per la vittoria o alla conversione in un finale vinto con meno pezzi ma, a quanto pare, entrano in funzione solo allorché rimangono solo 6 pezzi sulla scacchiera, altrimenti il motore si limita a dare una generica valutazione di vittoria, tipo +150 (o #1000 nel caso di Houdini).

Ma anche quando sono rimasti solo i 6 pezzi, se ci sono più continuazioni vincenti, il motore si butta solo sulla prima che trova, anche se magari è proprio la più lunga, trascurando tutte le altre (a meno che non si utilizzi un'analisi multi-pv).

Tanto varrebbe quindi usare le sole WDL, e del resto lo stesso Ronald de Man suggerisce di piazzare solo queste su SSD, lasciando le DTZ su un comune hard disk. mmmm.gifmmmm.gifmmmm.gif

A questo punto comincio a rimpiangere le vecchie Nalimov...certocerto.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 16/03/2014, 10:13:08
Dopo un mese e mezzo di sterili tentativi, in cui avevamo addirittura assistito a vere e proprie regressioni, anche l'asticella a + 40 viene finalmente superata, di strettissima misura, grazie a una modifica di Mysseno, rilasciata il giorno 14 Marzo (Bench 7451319), non ancora disponibile nella versione "ufficiale" di Ronald de Man per le Syzygy, ma già pronta nell'ultimissima SF Rockwood di Higgs.

In un mese e mezzo di duro lavoro, l'incremento complessivo si quantifica in soli 4 punti, una vera miseria rispetto a quanto il team ci aveva abituato durante i mesi precedenti, e stiamo parlando sempre di tempi ultra rapidi...senzasperanza.gif

Sembra proprio che il razzo di SF sia ritornato sulla Terra dho.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 24/03/2014, 20:54:34
Intanto, però, Ingo Bauer ha deciso di fare uno strappo alla sua regola di non testare versioni di sviluppo, ed ha appena finito di provare quella di SF del 23 Marzo.

Al termine delle 3080 partite preliminari la performance è risultata di 3099 punti, +27 rispetto alla DD e -20 rispetto ad H4.

Come più volte ho avuto modo di rimarcare in passato, però, c'è qualcosa che non quadra nell'attribuzione dell'Elo, perché facendo la media delle performance ottenute contro i vari avversari si otterrebbe invece un valore leggermente più alto, pari a 3010 punti.

Ma la cosa più importante è che nelle sfide dirette questo SF è riuscito a battere proprio tutti:

114.5 a 105.5 contro H4 (52%)
126.5 a 93.5 contro Komodo TCEC (57.5%)
136 a 84 contro Gull 2.8 (61.8%)

e distacchi via via crescenti contro tutti gli altri motori.

Come già rilevato anche dal responsabile della rating list "The LightSpeed" allora, l'unica ragione della permanenza di H4 in testa alle loro classifiche a tempi rapidi è che quest'ultimo, grazie anche a un contempt un po' più aggressivo, riesce a "macinare" meglio i motori più deboli.

Ma nelle sfide dirette contro i motori più forti, in entrambe le graduatorie, sembra esserci, di fatto, un nuovo numero 1...

ciao.gifciao.gif
"TB or not TB..."