Forum pubblico/privato: Pubblico
Permessi di scrittura: Utenti registrati
Giorno: 20/03/2019, 13:29:53
Ma...... Io ho i sorgenti di Deep Saros, li mono e li stra mono come voglio, compilo e mi diverto un sacco sia a giocarci contro che per fare analisi mie partite, e sono più che soddisfatto dei risultati delle mie performance.

biggrin.gif ciao.gif
"Cosa è rimasto sul campo dopo la mietitura ?"
Giorno: 16/12/2019, 11:31:31
Link sponsorizzati
Giorno: 20/03/2019, 23:27:46
@ Masticone:

La logica di confrontare le PV di due motori molto diversi fra di loro è che ci sono buone probabilità che almeno uno dei due riesca a vedere ciò che all'altro sfugge.

È vero che nessun motore è in grado di spiegarci direttamente cosa sta facendo e perché, ma per cercare di capirlo possiamo sempre sottoporgli le mosse e i piani che noi giocheremmo al posto loro e vedere come reggono alla verifica pratica.

Quando siamo bravi (e anche un po' fortunati biggrin.gifbiggrin.gif) a valutare correttamente la posizione, la linea che avevamo in mente si dimostrerà accettabile anche per il motore e non produrrà un apprezzabile deterioramento della posizione; ma se abbiamo trascurato solo il più piccolo e quasi insignificante dettaglio, la loro punizione sarà davvero esemplare, ed è risaputo che si impara molto di più da una solenne legnata che da cento brillantezze. biggrin.gifbiggrin.gif

Allo stesso modo, in caso di divergenza fra le opinioni di due motori, sarà facile capire quale dei due punti di vista potrebbe essere il migliore: basterà giocare a ciascuno la PV suggerita dall'altro e vedere alla fine quale delle due avrà dato i risultati migliori.

Anche in questo caso, come nella pubblicità del gelato, due "gusti" è meglio di uno ... zizi.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 21/03/2019, 11:15:28
biggrin.gifbiggrin.gif
Per tutte le mosse espressione di un CE che assegni qualsivoglia valutazioni come, per esempio, 0,25 - 0,50 - 1,00 in più o in meno, un discreto scacchista è in grado di determinarne sempre il “perchè” attinente alla motivazione "tecnica"; mi riferisco a un CE con qualsiasi “forza” e a un “osservatore” in possesso della (mai completa) didattica degli scacchi che permetta di definire, senza (relativo?) margine di errore, un "perchè" (anche) di un piano di giuoco.
"Chiunque desideri diventare un fuoriclasse deve affinare le sue capacità nell'analisi scacchistica" (M. Botvinnik)
Giorno: 21/03/2019, 14:44:05
@myCARtoM
Anche io vedendo le mosse del CE riesco solitamente a capire dove sbagliavo, ma lo capisco sempre...
..."dopo" biggrin.gifbiggrin.gif

@Luigi335
Qualche perplessità mi rimane...
Si, due è meglio di uno...
Ma se facessi analizzare a st,hou,kom,lc0 e fire magari avrei 5 risposte diverse...
quindi possiamo essere certi che anche con due motori non sfugga qualcosa ?
E se stockfish fa una mossa perché vede come evolverà la situazione tra 15 mosse, che ne capiamo noi che non ci arriviamo a pensare 15 mosse avanti ?
Come usano i motori i grandi maestri ?
Giorno: 21/03/2019, 17:38:02
@ masticone ha scritto: Inoltre un motore può farti vedere la mossa "giusta", ma non ti spiega perchè la fa, sopratutto Lc0 che ha un gioco più "umano"...
Motori di 3400 elo sono utili a noi nell'analisi ?

E ancora, masticone scrive:
Anche io vedendo le mosse del CE riesco solitamente a capire dove sbagliavo, ma lo capisco sempre...
..."dopo"


Mi domando: ma allora se si "vede la mossa "giusta" e non si ha la spiegazione della motivazione della stessa dal CE, come le riesce "dopo" di comprendere qual è il motivo "tecnico di scuola" ?
Un esempio pratico sarebbe opportuno e gradito....., atteso che poco importa conoscere il valore del più o del meno" nel valore di una mossa indicata dal CE "; occorre conoscere "le generalità" e qual'è il piano e con quale mossa per comprendere; altrimenti, essere degli "imitatori" serve a poco. E' d'accordo con quest'ultima osservazione o no, anche a fronte della sua domanda Come usano i motori i grandi maestri?

Un esempio potrebbe essere che lei collabori con una spiegazione didattica al "perchè" nel puzzle proposto da Nophiq presente nella Home del 7/3 dove ha a disposizione un "prima" e un "dopo"? mmmm.gifmmmm.gif

Ovvio che tutti possono partecipare al mio invito.
"Chiunque desideri diventare un fuoriclasse deve affinare le sue capacità nell'analisi scacchistica" (M. Botvinnik)
Giorno: 10/06/2019, 22:50:48
Siamo ormai giunti al capolinea?
Dalle mie parti, nelle ore più calde della giornata, abbiamo ormai abbondantemente superato quota 30.

Il termometro delle SF dev è invece ancora sotto i 20. dho.gif

Il test di regressione del 3 Febbraio aveva fatto registrare un promettentissimo + 17,7 su SF10 ma, ad oltre 4 mesi di distanza, quello del 9 Giugno è ancora a + 19,9

Un incremento di soli 2,2 punti, praticamente nulla se teniamo conto del valore delle barre d'errore! dho.gif

Ben 90 patch inserite in questo lasso di tempo, con almeno una decina che promettevano, da sole, miglioramenti di 2 o 3 punti, e invece tutta la sommatoria ha dato come risultato praticamente zero! dho.gif senzasperanza.gif

Siamo forse prossimi al capolinea o è magari tempo di rivedere criticamente tutta la filosofia di sviluppo del progetto? mmmm.gifmmmm.gifmmmm.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 11/06/2019, 09:19:45
Dopo 60 anni di programmi forse alpha-beta si è raggiunto il massimo possibile, o forse bisognerebbe far uscire meno patch e inventarsi algoritmi nuovi

Ad ogni modo l'esperienza di Lc0 mi ha convinto che la forza di un programma dipende da vari fattori esterni, come tempo di riflessione, hardware ecc
Sono un pò perplesso a vedere Lc0 vincere il TCEC, e poi andar male nel TCEC attuale...
Nel mio molto piccolo, cercherò di vedere da solo come stanno le cose, ho una versione dev vecchia di mesi di Stockfish che su buildtester dà prestazioni migliori di quelli attuali, è in grado di vincere un match con le ultime dev di adesso ?
Vi farò sapere... biggrin.gif
Giorno: 11/06/2019, 11:17:47
Purtroppo la filosofia del Team di SF si è sempre basata sulla scelta di tempi ultra rapidi (15" a partita per il controllo preliminare, superato il quale scatta il secondo test a 60" a partita) e su un solo core, scelta necessaria per poter ottenere in tempi ragionevoli il campione statistico di 40000 partite in grado di rendere la barra d'errore inferiore ai 2 punti con un discreto grado di confidenza.

La speranza è che le patch buone a tempi così ridotti siano tali, come minimo, da non fare danni se applicate a tempi ben più lunghi, e fin qui la cosa si è sempre rivelata fondata, con la sola differenza che passando a tempi da torneo gli incrementi si sono sempre rivelati inferiori, riducendosi a non più del 50-60% di quelli fatti registrare a tempi brevissimi.

Ma naturalmente non esiste nessun teorema che dimostri che le cose vadano realmente così, e c'è sempre il rischio di poter incappare in qualche regressione ai tempi più lunghi ottimizzando il motore per quelli più brevi. mmmm.gifmmmm.gifmmmm.gif

Ecco perché un torneo come quello in corso al TCEC in questi giorni potrebbe rivelarsi davvero utile.
Peccato solo che il numero di turni di gioco non possa risultare decisamente più elevato.

Su sole 50 partite l'errore statistico potrebbe tranquillamente superare la cinquantina di punti Elo, e la cosa non è così infrequente come si potrebbe pensare.

Ricordo a tale proposito che alcuni anni fa un tizio aveva modificato, con un programmino che all'epoca andava molto di moda, i parametri di configurazione di Houdini 2, realizzando la versione "Barracuda", che sembrava oltre 50 punti più forte dell'originale dopo i primi test basati su poche decine di partite.

[si veda il vecchio Topic di Depamas:

"Il tuning di Houdini" ]

ma al crescere del numero di partite, la cosa si rivelò del tutto inconsistente ... dho.gif rollo.gifrollo.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 11/06/2019, 13:30:41
Sigh! cry.gif
La forza di un programma, a differenza della matematica, è un opinione biggrin.gif

Ma come fa un cristiano qualunque a fare 40000 partite ?
Alla fin fine, le cose più attendibili mi sembra restino i vari CCRL,CEGT ecc...
Relativamente attendibili, ognuno usa i suoi tempi e il suo Hw...
Si può ragionevolmente dire che i fantastici quattro (Stockfish, Houdini, Komodo e Lc0) stiano sopra gli altri, ma tra loro (e le loro varianti) la cosa diventa più difficile
Giorno: 15/07/2019, 19:13:51
Per il Baccalà continua la stagione delle vacche magre. dho.gif senzasperanza.gif

Il test ufficiale di regressione del giorno 11 (+24,39 su SF10) e quello della NCM, dove la versione rilasciata il 12 di Luglio aveva fatto registrare il nuovo massimo storico, +229,85 su SF (anche qui circa 24 punti e mezzo meglio di SF10) ci avevano dato, per un attimo, l'illusione che qualcosina stesse finalmente ricominciando a muoversi, ma si è trattato, probabilmente, del solito fuoco di paglia: le patch successive hanno prodotto l'immediata ricaduta del grafico della NCM. dho.gif

Davvero non si riesce a capire cosa diavolo stia succedendo, e a scegliere fra le due ipotesi estreme: da una parte si potrebbe pensare che queste oscillazioni abbiano un fondo di verità, e che ci siano state diverse buone patch che hanno fatto guadagnare qualcosina al motore, ma il cui effetto benefico sia stato rapidamente modificato da altre patch cattive; dall'altra si potrebbe anche sostenere che quasi tutte le centinaia di patch buttate nel calderone in questi ultimi 5 mesi siano risultate sostanzialmente neutre, riuscendo a passare solo grazie a un pizzico di fortuna (e 2 o 3 punti possono tranquillamente venire mascherati anche su un campione di ben 40000 partite, che a tanti di noi potrebbe sembrare un numero enorme, ma che in realtà non è affatto tale).

E se SF piange, Lc0 al momento non ride, con Leela che potrebbe essere anche lei prossima al suo limite asintotico.

I vari match di esibizione sulle 100 partite (una sciocchezza, secondo l'autorevole Stefan Pohl, che ha di recente ridotto di un ordine di grandezza i suoi tempi di riflessione per poter aumentare in maniera significativa il campione statistico di partite per la sua SPCC), anche se poco significativi singolarmente (banda di indeterminazione di almeno 30 - 40 punti Elo), indicano chiaramente che ormai l'esito di tali sfide dipende solo dal Rapporto Leela utilizzato in tali confronti.

Con un RL pari a 1, Leela si impone ormai sistematicamente su SF con diversi punti di vantaggio, mentre con un RL di 0,25 o giù di lì il rapporto di forza si rovescia.

A questo punto è ipotizzabile che, almeno per il momento, i due motori si equivalgano con un RL prossimo a 0,5.

Credo che questo sia il valore che si dovrebbe sperimentare per assistere a un match davvero equilibrato, in attesa che uno dei due possa riprendere a correre e a mettere a segno la zampata definitiva, anche se è probabile che l'aumento delle prestazioni delle gpu e il calo dei prezzi dei modelli di punta possano spostare sempre più l'ago della bilancia dalla parte dei programmi NN ...

ciao.gifciao.gif
"TB or not TB..."