Forum pubblico/privato: Pubblico
Permessi di scrittura: Utenti registrati
Giorno: 24/07/2019, 12:25:41
Lentamente, ma sta crescendo
Caro Luigi, vorrei puntualizzare che, seppur lentamente, stockfish sta facendo dei progressi.
Ho raccolto gli ultimi risultati di NCM dal 31 maggio fino ad oggi, facendo una regressione lineare con R ne risulta che c'è stato un miglioramento di quasi 0.1 elo/giorno, ed è statisticamente significativo, ovvero possiamo escludere che questo miglioramento sia dato dal caso. Per essere precisi, se vogliamo dare un' intervallo di confidenza al 95% del miglioramento che sta avendo stockfish in questi 2 ultimi mesi è:
[+0.043 ; +0.153] elo/giorno

allego il grafico della regressione con le relative barre di errore

image 1860
Giorno: 15/12/2019, 22:28:07
Link sponsorizzati
Giorno: 24/07/2019, 20:41:56
Grazie, Marcus.

Il tester di NCM ha fatto in questi anni un lavoro davvero encomiabile.

Se riuscisse a portare i suoi campioni a 40000 partite e a testare contro SF10, anziché utilizzare ancora il vecchio SF7 come motore di riferimento, le barre d'errore si dimezzerebbero e allora, forse, potremmo farci un'idea un po' più chiara di quanto, nelle singole patch, è vera progressione/regressione fra tanto rumore statistico ... mmmm.gifmmmm.gifmmmm.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 25/07/2019, 16:18:32
Intanto un'altra raffica di ben 7 patch è arrivata nelle ultime ore e la NCM ha già iniziato i nuovi test.

Sarà sufficiente a produrre qualche altro miglioramento apprezzabile? mmmm.gifmmmm.gifmmmm.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 27/07/2019, 09:08:02
Ancora risultati altalenanti alla NCM per le nuove patch inserite. dho.gif

Ma probabilmente, come segnalato da Marcus, le barre d'errore contribuiscono a mascherare i leggerissimi miglioramenti di queste ultime settimane, che sembrerebbero confermati anche dall'ultimo test ufficiale con il superamento, sia pure di un'inezia (+25,72 su SF10), del muro dei 25.

L'ultimissima patch di mstembera rilasciata ieri sembra particolarmente interessante perché corregge un fastidioso bug nel funzionamento multicore, che impediva al motore di giocare sempre la linea di matto più breve, o non gliela faceva giocare affatto.
In pratica uno dei core poteva trovare il matto più veloce, ma poi il motore prendeva in considerazione la linea suggerita da un altro core.
Vedremo se ciò potrà influire anche sul comportamento casuale che il motore sembra avere anche in altri tipi di tatticismi. mmmm.gif

Una cosa è certa: l'era dei progressi da oltre 5 punti al mese è definitivamente tramontata. D'ora in poi dovremo accontentarci della metà o della metà della metà. E potrebbe essere già tanto, visto che il motore è forse ai limiti delle sue capacità di miglioramento.

Però è gratis, e si sa, a caval donato non si guarda in bocca, per cui sarà oro tutto ciò che potrà ancora arrivare ...

ciao.gifciao.gif
"TB or not TB..."
Giorno: 27/07/2019, 17:28:29
E' comunque meritevole che Stock sia rimasto l'Ultimo Paladino dei motori "tradizionali" in grado di competere con LCZero. Gli altri motori sono praticamente spariti dalla circolazione e comunque non sono certo in grado di preoccupare la leadership di Leela.
Sono una carota in cerca di sè stessa...
Giorno: 28/07/2019, 02:16:34
Però mi piacerebbe saperne di più sulla faccenda dell' asintodo orizzontale che è un problema per far aumentare la forza dei programmi NN come Lc0...
Giorno: 28/07/2019, 14:03:54
Per quanto riguarda i "classici" motori scacchistici dell'ultimo mezzo secolo, le loro curve di crescita hanno quasi sempre mostrato un andamento molto simile ai grafici di un paio di funzioni molto "care" biggrin.gifbiggrin.gif agli studenti dell'ultimo anno delle superiori, il logaritmo crescente (logx), che non ha un asintoto orizzontale ma che continua a crescere con una lentezza sempre più esasperante, e un'altra funzione del tipo "esponenziale di 1/x" che, al crescere di x, tende a un valore limite (l'asintoto orizzontale, appunto).

Perché queste due semplici funzioni descrivono in maniera qualitativamente accettabile la progressione dei motori?

Credo che in definitiva la spiegazione sia legata al fatto che, al crescere della complessità del programma, divenga sempre più difficile migliorare ulteriormente un motore già molto forte: modificare qualche parametro per migliorarne un aspetto finisce quasi inevitabilmente per peggiorare qualche altro aspetto.

È un po' come nell'evoluzione biologica del nuoto dei pesci o del volo degli uccelli, dove si raggiungono delle configurazioni limite che ben difficilmente potranno essere superate, a meno di non specializzare l'organismo in una particolare attitudine: così dopo oltre 100 milioni di anni di evoluzione, il falcone pellegrino può scendere in picchiata a centinaia di chilometri orari, ma non potrà mai avere l'autonomia, nel volo planato, di un albatro.

Per quanto riguarda invece Leela e gli altri motori NN, potrebbe essere invece principalmente un problema di dimensioni della Rete Neurale. Quando questa è ormai satura, i progressi saranno davvero minimi.

Ciò sembrerebbe trovare conferma nell'ultimo match pentagonale in corso alla CCC.

Lc0 con dimensione della rete normale è solo terzo, mentre Terminator, che non è altro che Leela con rete in versione maggiorata a 24 x 320, sta lottando alla pari con un sorprendente SF settato però a contempt 0, il che, fra l'altro, mostra come la scelta di default di un contempt abbastanza elevato, adottata dagli sviluppatori del Baccalà, sia un'arma a doppio taglio, che potrebbe essere in parte responsabile della brutta figura rimediata da SF nell'ultima finalissima del TCEC ... mmmm.gifmmmm.gifmmmm.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 28/07/2019, 16:30:46
Errata Corrige:
Per non incorrere nelle ire degli amici matematici, biggrin.gifbiggrin.gif

precisiamo che per la seconda funzione intendevamo

"esponenziale di (-1/x)", per x > 0 e dove la base dell'esponenziale deve essere ovviamente maggiore di 1.

ciao.gifciao.gif
"TB or not TB..."
Giorno: 28/07/2019, 23:07:29
Ciao @Luigi

Per quanto riguarda i motori tradizionali, sono del tutto d'accordo con te

Ho qualche dubbio sui motori NN...
Si una rete maggiore rende un programma NN più forte, ma non diversamente da una un programma tradizionale che diventa più forte se portato su una cpu più veloce

Almeno credo...

Forse a mio avviso si dovrebbe sviluppare meglio la teoria delle reti neurali e poi le scoperte fatte implementarle nella programmazione...
Se è così temo ci vorrà un pò, le reti attuali stanno portando grossi miglioramenti in molti ambiti tecnologici, non solo gli scacchi
Adesso verranno sfruttate come si deve, poi quando le reti attuali non daranno più prestazioni adeguate si cercherà di andare avanti

Ma dubito che la spinta arriverà dai pur volenterosi programmatori scacchistici: dopo tutto se non ci pensava una grande potenza tecnologica e finanziaria come google creando alphago/alphazero (per autopromozione) adesso non avremmo Lc0 e Allie,che a quanto ne so sono nati "imitando" e sviluppando le nuove soluzioni presentate da alphago
Giorno: 01/08/2019, 08:12:51
Continua la fase interlocutoria in casa SF: l'ultima patch di xoto 10, che secondo il test ufficiale avrebbe dovuto far guadagnare oltre 5 punti, non ha prodotto alcun miglioramento apprezzabile per la NCM. Anzi! dho.gif

A questo punto non so davvero cosa pensare ... mmmm.gifmmmm.gifmmmm.gif

ciao.gifciao.gif
"TB or not TB..."