Forum pubblico/privato: Pubblico
Permessi di scrittura: Utenti registrati
Giorno: 29/08/2017, 12:46:37
Sta per terminare l'ennesimo test ufficiale di regressione di SF, che ribadisce ancora una volta la situazione di stallo di queste ultime settimane. dho.gif

Dopo 10 mesi di sviluppo siamo solo a +29 su SF8 (che a tempi più lunghi dovrebbero ridursi a poco più della metà), il progresso più lento da quando è iniziato il progetto di sviluppo.

La situazione è ben fotografata sul sito di

nextchessmove

Le ultime 2 o 3 patch hanno forse aggiunto qualcosina (siamo proprio ai limiti delle barre d'errore), ma si ha l'impressione che alcune delle patch non funzionali inserite negli ultimi mesi possano avere in parte vanificato quanto di buono fatto dalle poche patch funzionali.

È un vero peccato che le barre di indeterminazione statistica di questo progetto siano superiori ai 4 punti. Con un valore dimezzato (che richiederebbe però un numero quadruplo di partite, e quindi molto più tempo) potrebbero venire alla luce tutte le falle delle patch inserite senza alcun tipo di verifica.

Forse, in futuro, il Team di SF dovrebbe prestare maggiore attenzione all'inserimento delle patch non funzionali, se vorrà mantenere inalterato il piccolo vantaggio che ancora conserva sui due inseguitori diretti ... mmmm.gifmmmm.gifmmmm.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 24/05/2018, 11:59:15
Link sponsorizzati
Giorno: 29/08/2017, 17:24:53
Un altro autorevole tester "non ufficiale" di alcune delle versioni di sviluppo di SF e di asmFish, Stefan Pohl, ha da poco rinnovato il suo parco macchine.

Grazie a computer più potenti e a un considerevole aumento dei tempi di riflessione (passati da 70" a 180" a partita + 1" a mossa) i nuovi dati si prospettano ancora più interessanti, in quanto costituiscono una sorta di "estensione" rispetto ai tempi utilizzati dagli sviluppatori di SF.

Una prima considerazione che emerge da questi primi test a tempi "lunghi" è il drastico ridimensionamento della superiorità di asmFish che, a parità di versione, era sempre risultato, con i vecchi tempi, circa 25 punti più forte del "normale" SF.

Con i tempi di riflessione triplicati, invece, il divario si è ridotto a soli 11 punti. Sarà interessante vedere se il dato sarà confermato anche per le prossime versioni ... mmmm.gifmmmm.gifmmmm.gif

SPCC

ciao.gifciao.gif
"TB or not TB..."
Giorno: 01/11/2017, 12:25:46
Finalmente buone notizie per i BaccaFans.

Nonostante i dati in controtendenza di Nextchessmove, che sembrano indicare una regressione di una decina di punti a tempi ultrarapidi per le versioni di sviluppo di queste ultime settimane, non c'è alcuna traccia di tale regressione , ma semmai un progresso di circa 10 punti nei test di Stefan Pohl a 180" a partita + 1" a mossa, dove siamo ormai a + 40 su SF8.

E un test di regressione ufficiale a 10" a partita, fatto proprio per vedere quanto ci sia di vero negli ambigui dati di nextchessmove, mostra un incoraggiante progresso complessivo di quasi 45 punti su SF8 in un campione di oltre 30000 partite. mmmm.gifmmmm.gifmmmm.gif

Anche a tempi più lunghi le cose promettono bene: a 20' + 5" a mossa su 7 threads, sempre secondo Stefan Pohl, asmFish del 19 Agosto (e quindi non l'ultimissima versione) conduce la graduatoria triangolare con 22 punti di vantaggio su Houdini 6 e 31 su Komodo 11.2, quando ciascuno dei tre motori ha già giocato 936 partite contro i due avversari.

Unitamente a quanto stiamo assistendo ai vari tornei on line a tempi lunghi, tutto ciò sembrerebbe suggerire che, sia pur di poco, è ancora il Baccalà il motore da battere ...

ciao.gifciao.gif
"TB or not TB..."
Giorno: 04/12/2017, 21:08:55
Ancora buone notizie da casa SF. zizi.gif

È in corso il nuovo test di regressione su un minuto a partita (che non contempla ancora l'ultimissima patch funzionale rilasciata oggi).

Su un campione che è ormai salito a oltre 33000 delle 40000 partite previste, la "master" e a + 45 su SF8, e ciò significa che entro i primi mesi del nuovo anno potrebbe finalmente vedere la luce la versione ufficiale di SF9.

Anche a tempi tre volte più lunghi la master si sta difendendo bene, con un incremento di quasi 40 punti su SF8.

E con la nuova versione ufficiale potrebbe anche essere fornita un'opzione pretarata di contempt da usare nei match contro i motori minori.

Il triangolare di Stefan Pohl a 20' + 5" a mossa conferma inoltre che, a tempi "medi", il Baccalà e i suoi derivati sono ancora i motori da battere.

In una competizione in cui ciascuno dei magnifici 3 ha ormai disputato quasi 1500 partite contro gli altri due, asmFish del 19 Agosto è primo con 21 punti di vantaggio su Houdini 6 e 35 su Komodo 11.2, distacchi che sono ormai ben al di fuori dell'indeterminazione statistica ...

ciao.gifciao.gif
"TB or not TB..."
Giorno: 05/12/2017, 16:23:27
Al prossimo TCEC 11, quello del Baccalà troppo "pattaiolo" potrebbe essere solo un brutto ricordo.

È stata finalmente rilasciata oggi la patch che consente di utilizzare un nuovo algoritmo di contempt molto più aggressivo.

Il valore di default è sempre impostato a "0", ma il Team ha ormai imparato la lezione ed ha capito la necessità di sperimentare un valore diverso per le fasi di qualificazione.

La nuova "master" con contempt zero è circa 120 punti più forte di SF7, utilizzato come riferimento ma, col contempt regolato a "40" il vantaggio sale di oltre 30 punti, attestandosi a +150.

Contro i motori minori incontrati nella Fase 2 una tale impostazione avrebbe potuto fare scintille.

Il rovescio della medaglia è che così si perdono circa 7-8 punti contro i motori di pari forza. Evidentemente non si può avere tutto. biggrin.gifbiggrin.gif

A conti fatti, però, il potenziale guadagno ottenibile contro i 5 motori minori dovrebbe compensare ampiamente il rischio di sconfitta contro gli altri magnifici 2.

Inutile ribadire che, con SF9 e un contempt regolato a 40, le varie IPON Rating list & Co. avrebbero tutte un nuovo Numero Uno ... biggrin.gifbiggrin.gifbiggrin.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 17/12/2017, 10:18:54
La batosta subita contro AlphaZero sembra aver dato la scossa in casa SF. biggrin.gifbiggrin.gif

Sono state rilasciate stamattina tre nuove patch funzionali, che portano il totale a 6 di quelle che sono state aggiunte dopo l'ultimo test di regressione di inizio mese.

Saranno sufficienti ad avvicinare l'asticella a quota +50, che giustificherebbe il rilascio della versione ufficiale di SF9? mmmm.gif

L'impressione è che ormai manchino poche settimane, o al massimo qualche mese. Forse per l'inizio del TCEC 11, previsto ai primi dell'anno prossimo, potremmo vedere all'opera il nuovo Baccalà ufficiale, sperando finalmente nell'uso del contempt per le fasi iniziali del torneo ...

ciao.gifciao.gif
"TB or not TB..."
Giorno: 30/12/2017, 20:20:33
In attesa di un nuovo test ufficiale di regressione che possa quantificare i progressi di queste ultime settimane, accontentiamoci del dato, statisticamente poco significativo, del XXIX super torneo a 1 cpu della CCRL 40/40, non ancora concluso (è sulle 70 partite) ma già vinto dal Baccalà con un distacco stratosferico sugli inseguitori:

RANK ENGINE GAMES POINTS

1. STOCKFISH 111217 64-BIT 66 47.0
2. SUGAR XPRO 141217 64-BIT 6 41.0
3. HOUDINI 6.03 64-BIT 66 40.5
4. KOMODO 1987.00 64-BIT 66 40.0
5. DEEP SHREDDER 13 64-BIT 65 28.0
6. FIRE 6.1 64-BIT 66 28.0
7. FIZBO 2.0 64-BIT 65 20.5
8. ANDSCACS 0.921 64-BIT 18.0

In effetti chiamarlo "super" torneo sembra un tantino esagerato rispetto agli standard a cui ci ha abituato il TCEC (le velocità di analisi sono 30 - 40 volte più lente) e il risultato del Baccalà potrebbe essere solo una favorevolissima oscillazione statistica, ma tant'è ...

ciao.gifciao.gif
"TB or not TB..."
Giorno: 09/01/2018, 20:03:41
In attesa del nuovo test ufficiale di regressione (e ci si aspetta finalmente anche l'inserimento di un sia pur piccolissimo contempt di default diverso da zero), ancora buone notizie da Stefan Pohl.

La versione del 26 Dicembre, nella compilazione "Cerebellum" (ma senza libro) è risultata 51 punti più forte di SF8 nel solito test sulle 5000 partite a 3' + 1" a mossa contro motori del calibro di H6, K11.2, Fire 6.1 Shredder 13 e Fizbo 1.9

Ecco i risultati nei vari testa a testa:

Stockfish 171226 bmi2 : 3447 5000 (+2348,=2391,-261), 70.9 %

Fire 6.1 popc : 1000 (+600,=389,- 11), 79.5 %
Houdini 6 pext : 1000 (+201,=680,-119), 54.1 %
Fizbo 1.9 bmi2 : 1000 (+644,=327,- 29), 80.8 %
Shredder 13 x64 : 1000 (+616,=368,- 16), 80.0 %
Komodo 11.2.2 x64 : 1000 (+287,=627,- 86), 60.0 %

Che la Maledizione dell'Ottavo Baccalà sia definitivamente svanita? biggrin.gifbiggrin.gif

Con l'arrivo della prossima primavera, insieme al profumo dei fiori potrebbe arrivare anche quello del tanto atteso SF9 ...

ciao.gifciao.gif
"TB or not TB..."
Giorno: 20/01/2018, 17:47:28
Visto che il team di SF non si decide ancora a rilasciare SF9, Ingo Bauer ha pensato bene di testare "non ufficialmente" l'ultima versione di sviluppo (quella del 13 Gennaio) per la sua IPON.

Ecco il dato finale, "rubato" prima che possa scomparire definitivamente, come sempre accade per i test delle versioni non ufficiali.

SF 130118:

Stockfish 130118 64 POPCNT - Houdini 6.02 (3349) 124.0 - 96.0 56.36% Perf=3393
Stockfish 130118 64 POPCNT - Komodo 11.2.2 (3318) 133.0 - 87.0 60.45% Perf=3391
Stockfish 130118 64 POPCNT - Shredder 13 (3124) 161.0 - 59.0 73.18% Perf=3298
Stockfish 130118 64 POPCNT - Fizbo 2 (3096) 173.0 - 47.0 78.64% Perf=3322
Stockfish 130118 64 POPCNT - Ginkgo 2.0 (3066) 183.5 - 36.5 83.41% Perf=3346
Stockfish 130118 64 POPCNT - Gull 3 (3060) 183.5 - 36.5 83.41% Perf=3340
Stockfish 130118 64 POPCNT - Andscacs 0.92 (3050) 193.5 - 26.5 87.95% Perf=3395
Stockfish 130118 64 POPCNT - Booot 6.2 (3031) 182.0 - 38.0 82.73% Perf=3303
Stockfish 130118 64 POPCNT - Jonny 8.00 (3028) 186.5 - 33.5 84.77% Perf=3326
Stockfish 130118 64 POPCNT - Fritz 16 (3020) 194.0 - 26.0 88.18% Perf=3369
Stockfish 130118 64 POPCNT - Equinox 3.30 (3014) 188.5 - 31.5 85.68% Perf=3324
Stockfish 130118 64 POPCNT - Chiron 4 (2994) 189.0 - 31.0 85.91% Perf=3308
Stockfish 130118 64 POPCNT - Critter 1.6a (2993) 190.0 - 30.0 86.36% Perf=3313
Stockfish 130118 64 POPCNT - Nirvanachess 2.4 (2969) 195.0 - 25.0 88.64% Perf=3325
Stockfish 130118 64 POPCNT - Hannibal 1.7 (2961) 195.5 - 24.5 88.86% Perf=3321
2672.0 - 628.0 80.97%

Perf=3322

3300 out of 3300 games played
Level: 5 Minutes/Game + 3 sec/Move

Il dominio su tutti gli altri motori è stato abbastanza netto (56% su H6.02 e 60% su K11.2.2 solo per citare i due più forti).

Eppure, come al solito nei test della IPON, qualcosa non convince nel dato finale della prestazione complessiva del motore, che viene indicata come pari a 3322.

Facendo semplicemente la media dovrebbe essere di 3338, vale a dire ancora 11 punti sotto quella di Houdini, nonostante sia stato chiaramente battuto negli scontri diretti.

Ancora una volta il Baccalà verrebbe penalizzato dagli scontri con i motori minori.

La media è infatti di 3355 contro i 7 avversari più forti e solo 3324 contro gli 8 più deboli e, a quanto pare, il meccanismo di calcolo della IPON privilegia in qualche modo le prestazioni contro i motori più deboli; in altre parole, qui è meglio essere forte contro i deboli che forte contro i forti ... biggrin.gifbiggrin.gif

Le cose potrebbero migliorare per SF se e quando si decideranno a inserire per il nuovo contempt un valore di default sensibilmente diverso da zero.

Il valore "20" ha superato brillantemente i due test a tempi "brevi" e "lunghi", facendo addirittura guadagnare qualcosina al motore nel gioco contro se stesso (il che, a dire il vero, sembra alquanto strano ... mmmm.gifmmmm.gifmmmm.gif) e non sembra penalizzarlo nel test, in corso di svolgimento, a tempi "lunghissimi".

Se si decideranno finalmente a inserirlo, le performance potrebbero migliorare anche contro i motori minori, diminuendo il numero di patte che Sua Maestà Baccalà VIII, nella sua magnanimità, si degna ancora di concedere loro ... biggrin.gifbiggrin.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 21/01/2018, 11:49:44
Comunque in fase di revisione i punti "sottratti" al Baccalà gli sono stati poi restituiti con gli interessi. biggrin.gifbiggrin.gif

La nuova graduatoria IPON, se il test di SFdev fosse stato ufficiale, sarebbe la seguente:

# PLAYER : RATING ERROR (%) D(%) OppAvg CFS(next) POINTS W D L PLAYED
1 Stockfish 130118 64 POPCNT : 3349 10 81.0% 35.0 3072 66 2672.0 2095 1154 51 3300
2 Houdini 6.02 : 3346 10 80.7% 32.1 3072 100 2663.0 2133 1060 107 3300
3 Komodo 11.2.2 : 3317 10 78.0% 34.2 3074 100 2575.0 2010 1130 160 3300
4 Shredder 13 : 3126 8 55.8% 51.2 3086 100 1840.5 995 1691 614 3300
5 Fizbo 2 : 3097 8 51.9% 41.4 3088 100 1711.5 1029 1365 906 3300
6 Ginkgo 2.0 : 3068 8 48.0% 50.2 3090 93 1583.5 755 1657 888 3300
7 Gull 3 : 3060 8 46.8% 46.4 3091 97 1546.0 780 1532 988 3300
8 Andscacs 0.92 : 3049 8 45.3% 44.3 3092 100 1496.5 765 1463 1072 3300
9 Booot 6.2 : 3031 8 43.0% 49.6 3093 74 1420.0 601 1638 1061 3300
10 Jonny 8.00 : 3028 8 42.5% 46.7 3093 92 1403.0 633 1540 1127 3300
11 Fritz 16 : 3019 8 41.4% 46.1 3094 75 1365.0 604 1522 1174 3300
12 Equinox 3.30 : 3015 8 40.8% 47.6 3094 100 1346.5 561 1571 1168 3300
13 Chiron 4 : 2996 8 38.3% 45.8 3095 66 1262.5 506 1513 1281 3300
14 Critter 1.6a : 2993 8 37.9% 45.5 3095 100 1251.5 501 1501 1298 3300
15 Nirvanachess 2.4 : 2970 9 35.0% 44.4 3097 95 1154.0 422 1464 1414 3300
16 Hannibal 1.7 : 2960 8 33.6% 43.4 3098 --- 1109.5 394 1431 1475 3300

SF sarebbe quindi di nuovo primo, sia pur con soli 3 punti di vantaggio su Houdini 6 e con un bel +48 su SF8

Link

Può darsi che nei prossimi giorni Ingo Bauer effettui un nuovo test della stessa versione ma col contempt = 20 (che è quello con cui SF potrebbe debuttare al TCEC 11) per vedere se ci saranno davvero miglioramenti contro i motori più deboli ... mmmm.gifmmmm.gifmmmm.gif

ciao.gifciao.gif
"TB or not TB..."