Forum pubblico/privato: Pubblico
Permessi di scrittura: Utenti registrati
Giorno: 29/05/2017, 17:53:15
Iniziativa lodevole.
Come ho già accennato nel topic "SF8 developments", un Anonimo tester, dotato di una macchina di tutto rispetto (dual Xeon E5-2670 a 16 core fisici), si sta "divertendo" a testare tutte le versioni di sviluppo di SF, rilasciate a partire da un paio di anni a questa parte.

Come motore di riferimento ha scelto SF7 contro cui, tutte le versioni rilasciate con una nuova patch, disputano 10000 partite con tempi attorno ai 30" + 0.3" a mossa.

Disputando 8 partite contemporaneamente, grazie alla potenza della sua macchina, il nostro Anonimo riesce a concludere il test di ogni nuova patch (comprese quelle cosiddette "non funzionali", che gli sviluppatori buttano nel calderone senza alcuna verifica) in meno di 24 ore, il che gli consente di stare tranquillamente al passo con l'evoluzione del motore.

Consiglio a tutti di salvarsi il

Link

del sito fra i preferiti e di controllarlo di tanto in tanto per avere il polso della situazione in casa SF.

L'indeterminazione statistica su ogni misura è di circa 4 punti, e ciò spiega l'andamento "a dente di sega", semplice rumore statistico di un grafico di progressione che, che per il resto, è ancora sostanzialmente rettilineo, senza fasi di stasi ne brusche impennate.

Basta però una patch particolarmente "fortunata" che si sussegue a una statisticamente più sfortunata per dare l'illusione di uno sbalzo di 6-7 punti fra una versione e la successiva, che potrebbero erroneamente essere attribuiti a patch "miracolose" che avrebbero fatto fare un salto di qualità.

Sarebbe bello se, in questo tipo di test, le barre d'errore potessero essere ridotte a 2 soli punti ma, per far ciò, occorrerebbero ben 40000 partite (che è proprio il valore utilizzato dagli sviluppatori di SF).

È auspicabile che, con la prossima commercializzazione dei nuovi server "Naples" della amd, il nostro appassionato (e, probabilmente, anche "danaroso" biggrin.gifbiggrin.gif) Anonimo possa disporre di una macchina 4 volte più potente, e riuscire così a concludere nell'arco delle 24 ore il test di ogni nuova patch con un errore di soli 2 punti.

Ciò offrirebbe finalmente la possibilità di una contro verifica rigorosa e accurata, del tutto indipendente da quelle ufficiali, di ogni nuova patch, funzionale o non funzionale che sia, che viene aggiunta alla "master".

Le patch che ancora dovessero mostrare regressioni di 3 o 4 punti potrebbero allora essere sottoposte a ulteriori controlli e si potrebbe anche perseguire un serio progetto di fork alternativo a quello ufficiale: basterebbe rimuovere le patch che sembrano far regredire la curva di progressione e verificare, di tanto in tanto, se il nuovo motore diventi col tempo davvero più forte di quello ufficiale ... mmmm.gifmmmm.gifmmmm.gif

Una prospettiva decisamente interessante! zizi.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 12/12/2017, 01:58:01
Iniziativa lodevole.
Giorno: 16/08/2017, 18:05:46
Nonostante il margine di errore di 4 punti non offra una grande risoluzione per riuscire a discriminare la validità delle singole patch, il sito del nostro tester si è rivelato fondamentale nell'evidenziare un clamoroso errore in una delle tante patch "non funzionali" che vengono continuamente buttate nel calderone delle versioni di sviluppo di SF senza essere sottoposte ad alcuna verifica.

Il fattaccio è accaduto con la "thread code reformat" del 13 Agosto, che ha di colpo prodotto un'incredibile regressione di ben 30 punti. Il compianto Paolo Villaggio, nei panni del simpatico Fantozzi, avrebbe certamente etichettato questa patch come "una ca..ta pazzesca!" biggrin.gifbiggrin.gif

Per fortuna Marco Costalba ne è stato subito avvertito e, con la patch del giorno successivo, è corso immediatamente ai ripari ...

ciao.gifciao.gif
"TB or not TB..."
Giorno: 18/08/2017, 19:12:41
Una marea di patch non funzionali di SF si stanno susseguendo in questi ultimi giorni e il nostro Anonimo tester stenta a starci dietro.

Purtroppo sono ormai due o tre mesi che la curva di miglioramento del Baccalà sembra irrimediabilmente piatta, salvo le oscillazioni statistiche (e quella "ca..ta pazzesca" di qualche giorno fa biggrin.gifbiggrin.gif).

Si ha davvero l'impressione che il motore sia stato spremuto fino all'osso e che ulteriori margini di miglioramento nei prossimi mesi potrebbero essere davvero minimi.
Va però tenuto conto che siamo in pieno periodo estivo e molti programmatori del Team si stanno godendo le meritate vacanze. Anche negli anni scorsi abbiamo assistito a stasi estive con ripartenze autunnali; speriamo sia così anche stavolta.

Ma nel frattempo la concorrenza non sta di certo a guardare: il nuovo Komodo 11.2 dovrebbe aver guadagnato un'altra decina di punti rispetto alla versione precedente e, soprattutto a tempi lunghi, sembra finalmente potersela giocare alla pari con SF8 anche nei confronti diretti; Houdart ha poi annunciato l'uscita, a breve, di Houdini 6. Se riuscirà a migliorare la versione precedente di altri 40-50 punti potrebbe avvicinarsi anche lui alla vetta.

Se il TCEC 10 dovesse davvero svolgersi nei prossimi mesi, l'esito finale potrebbe essere ancora più incerto delle edizioni precedenti ...

ciao.gifciao.gif
"TB or not TB..."