Forum pubblico/privato: Pubblico
Permessi di scrittura: Utenti registrati
Giorno: 15/07/2021, 09:44:13
Non credo che il Team di SF (non dimentichiamo poi che alcuni dei suoi sviluppatori sono coinvolti in entrambi i progetti) c'entri qualcosa con la decisione del TCEC di allungare il brodo (forse invece potrebbe esserci lo zampino della CB che distribuisce Komodo mmmm.gifmmmm.gifmmmm.gif) ritardando la tanto attesa finalissima, decisione secondo me sbagliatissima perche', portando la vera sfida in pieno periodo di vacanze, comportera' sicuramente una notevole perdita di audience.

Del resto "SF14" e' solo un'etichetta di comodo, fatta per accontentare gli utenti piu' sprovveduti e le associazioni di rating che richiedono versioni standard da poter testare senza disperdere le loro energie in una marea di versioni di sviluppo. Le ultime dev. del Baccala' non hanno di fatto guadagnato praticamente nulla, almeno stando ai dati di Stefan Pohl e della NCM, che mostrano oscillazioni casuali ben all'interno delle loro bande d'errore.
Se poi guardiamo ai reali progressi di SF14 su SF13, ci sarebbero secondo la CCRL bliz su 8 core 21 punti di differenza, piu' o meno in linea con quanto misurato negli autotest ufficiali.

21 punti che potrebbero ridursi a poco piu' di un fico secco a 2 ore a partita su 176 core.

Di gran lunga maggiore potrebbe essere il miglioramento di Lc0 dovuto al semplice incremento di velocita' rispetto alle edizioni precedenti, ma non ho assolutamente idea di quanto possa valere questo progresso tradotto in Elo.
La finalissima potrebbe aiutarci a capirlo, bonta' delle linee di apertura permettendo ...

mmmm.gifmmmm.gifmmmm.gif rollo.gifrollo.gifrollo.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 16/09/2021, 21:34:05
Link sponsorizzati
Giorno: 15/07/2021, 09:54:29
Di gran lunga maggiore potrebbe essere il miglioramento di Lc0 dovuto al semplice incremento di velocita' rispetto alle edizioni precedenti, ma non ho assolutamente idea di quanto possa valere questo progresso tradotto in Elo.
===========

Neppure io lo so quanto sia migliorato Leela rispetto al TCEC 20. Ma di certo molto di piu' dei soli 8 punti Elo misurati dall'Elo bayesiano di Tcec, che soffre di un bias evidente dovuto alle pochissime partite giocate nella Premier.

Ipotizzerei sulla base della Division Premier che attualmente Stockfish e Leela si rapportano su un livello equivalente di parita' in termini di forza Elo.

Il punto finale di vantaggio nella Divisione Premier a favore di Stockfish e' ampiamente compensato dalla sconfitta nel match diretto su 8 partite, divario che poteva essere ancor piu' ampio se si pensa che Stockfish pareggio' una partita solo per la sua maggior abilita' nel finale quando si dava una probabilita' del 99,2% di venire sconfitto.

In nessuna delle 4 partite giocate con il nero contro Stockfish Leela e' apparso in evidente difficolta' da temere di non riuscire a pareggiare.
Giorno: 19/07/2021, 09:40:11
Come previsto, faranno giocare la finalissima con l'ultima versione appena sfornata, del 13.7.2021

Ecco che appare sempre piu' plausibile il vero motivo del ritardo, guadagnare ancora 1-2 punti Elo nel timore di non riuscire a farcela.
Giorno: 19/07/2021, 10:51:05
Invece per Leela giochera' la 69626, quella attualmente in testa nella classifica di Stephan Pohl.
Giorno: 19/07/2021, 13:13:18
Kanitza, sei così sicuro che 2-3 elo dentro la barra di errore a tempi brevi (che diventeranno meno di 0.5 elo a tempo lungo e con hardware TCEC) possano essere determinanti? Con SF che a tempi brevi dai test di pohl e' dato in vantaggio tra i 50 e i 70 elo? Dai su siamo seri.

Tra l'altro questo miglioramento non sembra esserci dato che a seconda del run si passa da vantaggi minimi a svantaggi dai test di Pohl:

Latest update: 2021/07/17: Stockfish 210713 (no progress (-1 Elo) to Stockfish 14)

Stockfish Regression testing (30000 games (20sec+200ms) vs Stockfish 14 210702):

Latest testrun:

Stockfish 210713: (+1221 =27656 -1123)= 50.2% = +1.1 Elo
Giorno: 19/07/2021, 16:01:26
Kanitza, sei cos���ì sicuro che 2-3 elo dentro la barra di errore a tempi brevi (che diventeranno meno di 0.5 elo a tempo lungo e con hardware TCEC) possano essere determinanti? Con SF che a tempi brevi dai test di pohl e' dato in vantaggio tra i 50 e i 70 elo? Dai su siamo seri.
============
Questo e' cio' che pensano coloro che hanno ritardato la partenza della finalissima, non io che l'avrei fatta partire da subito.

Mi par di capire che tu mi chiedi se - invece - questo cambio di rete avra' effetto sul risultato finale.
Se l'avra' sara' poco rilevante, cioe' del tutto trascurabile.

C'e' un fattore decisivo che decidera' l'esito della superfinal, a mio avviso si puo' condensa in un'unica regola, la regola di Kanizsa per stabilire da subito chi vincera':

Regola "di Kanizsa":

if book corto
allora Leela utilizza l'algoritmo di time management preimpostato

if book lungo
allora Leela dei 120 minuti a disposizione deve pensare minimo 10-15 minuti sulla prima mossa.

Se alla prima partita all'uscita di un book lungo Leela pensera' 2-3 minuti e Stockfish 10, come e' accaduto praticamente in tutte le ultime superfinale giocate, sappiamo gia' da subito il risultato finale delle 100 partite: vittoria schiacciante per Stockfish.
Giorno: 19/07/2021, 17:18:03
In ogni caso spero che venga replicata alla fine del SUFI21 la tradizionale sfida delle 100 partite condotta sulle stesse aperture SUFI21 con tempo ridotto della meta' chiamata bonus

Sarei enormemente curioso di vedere il perdente della Sufi21 scontrarsi contro il vincitore del SUFI 20, presumibilmente una sfida Leela xx696 vs. Stockfish 13.
Giorno: 20/07/2021, 15:09:15
Tra qualche ora parte la finalissima.
Continua il mio disappunto nell'osservare la sproporzione di risorse, uomini, impegno nel progetto Stockfish e la trascuratezza del progetto LC0, oramai abbandonato a se stesso.

1 Chi ha deciso la rete 69626 di LCO, che partecipera' alla finale ?
2 Chi ha deciso che la rete 69626 e' davvero la piu' forte tra tutte?

Non conosendo la risposta ne' a 1 ne' a 2 avanzo alcune considerazioni. Alla domanda 1 rilevo che la versione che partecipa al TCEC21 e' l'ultima che ha testato Pohl.

Non puo' essere una casualita'. Vuol dire che non esistono piu' dei tester indipendenti di LC0 come ne esistevano molti in passato. E' sufficiente, e atteggiamento oltremodo sbrigativo, che una rete presa a caso da Pohl e testata solo da Pohl venga classificata aprioristicamente come la migliore

Segnalo che Pohl non ha nemmeno testato diverse altre reti successive alla 69626 si sono dimostrate piu' forti nell'Autotest.

69637 2021-07-03 16:41:52 +00:00 3078,00
69722 2021-07-19 02:11:33 +00:00 3077,00
69647 2021-07-04 20:53:57 +00:00 3077,00
69626 2021-07-02 08:58:45 +00:00 3076,00
Giorno: 20/07/2021, 15:18:47
A me va bene tutto perche' cio' che conta e' lo spettacolo, e spero che vinca davvero il migliore senza piccoli trucchi o favoritismi.

Tuttavia mi corre ugualmente l'obbligo di segnalare tutti questi piccoli vantaggi che vengono concessi a Stockfish, come il tempo extra per una versione migliorata mentre il tempo extra non e' stato utilizzato dagli stessi sviluppatori in comune per Leela per testare reti che in autotest sono migliori di quella che partecipera'.

Li giustifico peraltro con la necessita' da parte degli autori di tenere salda la comunita' di sviluppatori, programmatori, tester che si impegna da anni e ai quali va il mio plauso. Quale miglior ricompensa a questo gigantesco sforzo umano collettivo se non la vittoria del TCEC21, che li motivera' ad impegnarsi ancor di piu' in futuro per continuare a mantenere un minimo gap contro un avversario come Leela che non ha alcun bisogno di risorse umane, intelligenze, e procede autonomo in modalita' pilota automatico ?

L'unica richiesta da parte mia che mi piacerebbe venisse assecondata riguarda una richiesta piu' volte caldeggiata in passato, cioe' che Leela pensi almeno quanto Stockfish sulla prima mossa in uscita dai book lunghi e non muova - come ha sempre fatto - in soli 2-3 minuti con ben 120 minuti a disposizione.

Iniziamo dunque: e vinca il migliore !
Giorno: 20/07/2021, 18:02:29
Che io sappia, almeno fino al TCEC20, le reti di Lc0 venivano sempre scelte dagli sviluppatori di Lc0, non so in che modo ma suppongo o in base a dei test interni che dimostravano evidenti vantaggi o con qualche votazione.

Credo sia così anche per gli altri maggiori competitor, stockfish, Komodo e Stofvlees sicuramente decidono gli sviluppatori cosa presentare.

Alla fine, come anche per Stockfish, i test degli sviluppatori hanno molta piu' valenza dei test fatti da appassionati data la barra di errore molto piu' bassa.

La rete che partecipa al TCEC credo inoltre fosse tra le ultime uscite al tempo in cui hanno freezato la scelta, circa una settimana fa. Parliamo comunque, come per stockfish di differenze in termini di forza assolutamente insignificanti ai fini del risultato finale.