Forum pubblico/privato: Pubblico
Permessi di scrittura: Utenti registrati
Giorno: 28/02/2021, 21:18:15
TCEC 20: non è stato un vero match sportivo
Buongiorno a tutti, ho assistito all'intero match su 100 partite tra Stockfish e Lc0 ed ho collezionato un mio personalissimo scout su chi abbia giocato meglio, valutato partita dopo partita.

Sappiamo che la tendenza verso la patta del gioco non permette di attribuire la vittoria ad una delle due parti contendenti se il vantaggio materiale e' insufficiente per vincere, per cui giocare meglio in un match non e’ indice di una probabilita maggiore di vittoria nel match stesso. In particolare, se l’avversario riesce spesso a rifugiarsi nella tendenza verso la patta nelle posizioni inferiori ma e’ chirurgico nella realizzazione di vantaggi come Stockfish, in quanto la ricerca operativa Alpha Beta e’ molto piu’ precisa di altre ricerche operative di tipo diverso (Montecarlo, CPUT). Sappiamo anche che molti dei piccolissimi vantaggi accumulati da Leela non possono ancora essere concretizzati in possibilità di vittoria a causa delle difficoltà di pianificazione che i computer incontrano nelle posizioni chiuse. Vengono bloccate spesso delle posizioni sui lati dalla parte in vantaggio con delle spinte di pedone, mentre il mantenimento della tensione per una possibile apertura, successiva solo di molte mosse ancora, sarebbe invece utile, dopo che le manovre sul lato opposto abbiano preparato una posizione di vantaggio strategico. Anche Sadler in passato ha segnalato diverse posizioni in cui il blocco di talune posizioni con inaccurate spinte di pedone non ha poi potuto permettere delle successive aperture di posizioni che sarebbero state vantaggiose e probabilmente decisive. Si tratta in questo caso di fortezze che la parte piu’ debole costruisce quasi per casualita’, dato che non esistono ancora delle strategie “antifortezza” contro tali accadimenti. In questo aspetto di pianificazione delle strutture pedonali idonee in posizioni chiuse la strategia del computer, anche del miglior computer, e' ben lontana dal raggiungere le capacita' umane. E’ questo ancora l’ultimo baluardo della superiore concezione strategica dell’uomo sulla macchina. La mia previsione e’ che sara' molto probabile che un giorno la strategia antifortezza verra' compresa da Stockfish con l'introduzione di regole antropomorfe costruite su classi generali, oppure da Alphazero con gli algoritmi Muzero, mentre dubito assai che una qualsiasi strategia antifortezza efficiente possa essere raggiunta da Leela con l'autoapprendimento.

Svolta questa premessa, il mio giudizio sul match e' netto e radicale.

Se fino alla 70a partita il match e' stato inchiodato sul punteggio di parita', una gestione piu' votata al risultato che alla partecipazione da parte del team di LCO avrebbe potuto permettere un vantaggio di almeno 3-4 punti su Stockfish al giro di boa della 70° partita, vantaggio che poi sarebbe stato colmato dal ritorno di Stockfish dalla 70a alla 90a partita.

La vittoria di una o dell’altra parte si sarebbe poi decisa sul filo di lana.

Perche' questo vantaggio ipotetico che avrebbe premiato la migliore visione strategica di Leela non e' stato realizzato e quali sono stati gli ostacoli che si sono frapposti?

La mia netta interpretazione e' quella indicata nel titolo di cui all'oggetto: non e' stato un match sportivo, ma un incontro gestito da un unico team in cui diverse persone lavorano ad entrambi i progetti ed il cui obiettivo pare che da tempo sia quello di utilizzare Leela come benchmark per i progressi di Stockfish. Non esistono nei fatti – e mi piacerebbe che qualcuno mi smentisse - due team che si confrontano , ma un unico team che dedica molta piu' attenzione all'evoluzione di Stockfish e cerca di introdurre delle nuove migliorie al programma sull’unico contendente accreditato, Leela, la cui straordinaria visione di gioco possa far emergere alcune debolezze strategiche di Stockfish.

L'ostacolo a massimizzare le prestazioni di Leela nel match e che si riproporra’ in ogni TCEC successivo e' dunque costituito da una mancanza di un team sportivo dedicato esclusivamente a Leela, che possa proporre una svolta atta ad accreditare Leela come vincitore del match non piu’ partendo da sfavorito.

Un team sportivo indipendente coinvolto a livello di gestione del match capirebbe a quel punto il reale punto di debolezza di Leela in un confronto basato sul libro di Jeron Noomen e vi porrebbe facilmente rimedio, come facilmente ho intuito io che si possa fare. Il reale punto di debolezza di Leela che si e’ visto praticamente in ogni partita e’ la distribuzione piu’ o meno equipesata del tempo di riflessione, che e’ lo standard per partite con uscite dal book molto piu’ anticipate rispetto al book di Noomen.

Cerco di dimostrare questo limite del time management equipesato con una osservazione accessibile a tutti coloro che hanno seguito il match.



All’uscita di ogni book proposto Leela non ha mai pensato piu’ di 2-3 minuti a mossa, accumulando in quasi ogni partita dei vantaggi consistenti in tempo a disposizione, conseguenti all’handicap di di non aver potuto utilizzare dei tempi di riflessione piu’ idonei ad un match del genere impostato su aperture obbligate in posizioni complicate.

Un team indipendente che avesse studiato quali debbano essere le ottimizzazioni del tempo di riflessione per far competere al meglio Leela nel TCEC avrebbe facilmente compreso che computer e software cosi’ potenti possono giocare perfettamente una intera partita con pochissimi minuti con una correttezza di gioco quasi irreprensibile. Data questa premessa, un team indipendente avrebbe settato un tempo di riflessione di Leela dopo l’uscita dal book di almeno 60 minuti per le prime mosse successive, perche’ nel libro di Noomen le prime mosse sono cruciali per indirizzare le partite lungo dei binari favorevoli che poi vengono rapidissimamente percorsi da degli hardware cosi’ potenti.

Esempio

In una siciliana tra l’80a e la 90° partita, fase che ha segnato un punteggio tennistico di 6-0 a favore di Stockfish, Leela ha giocato in una siciliana all’uscita dei book una perdita di tempo con Dd8-c7 ? e poi alla mossa successiva la corretta Dc7-a5 compromettendo da subito la posizione. Questo errore si e’ verificato perche’ il time management attuale per il TCEC e’ considerevolmente affrettato per le posizioni “altamente dubbiose”, mentre il time management con distribuzione dei tempi di riflessione equipesata sarebbe corretto in posizioni con uscite dal book in posizioni equilibrate.

A riprova che non e’ stata condotta una serie analisi da parte di un team indipendente sulle prospettive di vincere un match in simili condizioni dettate dal libro di Noomen, troppo spesso Leela rifletteva a lungo in posizioni che erano di fatto gia’ considerate perse da Stockfish.
Giorno: 18/05/2021, 09:08:42
Link sponsorizzati
Giorno: 28/02/2021, 21:21:23
Avrei voluto continuare nell'analisi del match, ma mi fermo qui perche' il mio intervento precedente presenta dei problemi di accentazione e strani caratteri illeggibili.

Passo quindi direttamente alla conclusione, scusandomi se non ho analizzato degli altri aspetti del match,.

Conclusione: una gestione del time management corretta e tagliata specificatamente per l'evento TCEC avrebbe permesso a Leela di poter competere alla pari. L'impressione personale e che l'introduzione di nuovi elementi di disturbo, come la corrente "guerra dei programmi" innestata da chi approfitta maldestramente della buona fede altrui per lucrare commercialmente, porti al totale disinteresse sugli sviluppi potenziali e ad una vera gestione di stampo sportivo di Leela, rendendolo di fatto null'altro che uno sparring partner ideale per individuare miglioramenti per Stockfish. Non vedo piu' quell'interesse che esisteva fino al recente passato attorno al progetto LC0: il blog non viene piu' aggiornato e persino le pagine della versione j94 non sono piu' aggiornate da mesi.
Un vero peccato, perche' le potenzialita di sviluppo di Leela non erano e non sono certamente esaurite.


Un saluto
Giorno: 01/03/2021, 06:37:27
Condivido in pieno, fra l'altro gli sviluppatori di LCZero sono anche sviluppatori di Stockfisch ed hanno gia' annunciato che i due progetti si fonderanno, per portare avanti un unico motore.
...Prevedo gia' un futuro e originalissimo Fat Fritz 3! biggrin.gif
Sono una carota in cerca di sè stessa...
Giorno: 01/03/2021, 09:37:49
E credo che poi ci sara' anche un "Komodosaurus rex" biggrin.gifbiggrin.gifbiggrin.gif

Purtroppo in queste settimane le lettere accentate e altri caratteri particolari, come gia' accadde qualche anno fa, sono rigorosamente vietate sul nostro Sito!

In attesa che Claudio riesca a risolvere il problema per la seconda volta, se vogliamo un post pulito, non ci resta che sostituire gli accenti con gli apostrofi ... dho.gifdho.gifdho.gif

ciao.gifciao.gif
"TB or not TB..."
Giorno: 01/03/2021, 18:12:06
Mi e' un po' difficile leggere l'intervento con tutti quei caratteri strani...
Cmq per come la vedo io, la situazione e' molto piu' semplice di quanto appare: la situazione tra Lc0 e Stockfish e' la stessa (identica, per molti aspetti) a quella che c'era tra i migliori programmi per computer e i gran maestri umani prima dell'avvento di deep blue...
A quel tempo, i programmi erano limitati dalla potenza dell'hardware, oggi l'algoritmo MCTS e' penalizzato dalla sua estrema lentezza...
Stockfish, con una rete nnue ha saputo coniugare meglio potenza di calcolo e visione strategica di Lc0, almeno per ora
Forse un giorno si trovera' un algoritmo che velocizzi di un ordine di grandezza l'MCTS ma fino a quel giorno...
...se Lc0 non riesce a tramutare in vittoria i giochi chiusi e' un problema suo!
Se gioco una partita di gioco chiuso con Luigi e non riesco a capitalizzare i piccoli vantaggi e vincere, nessuno si sognerebbe nemmeno di dire che non e' stato un incontro sportivo, si direbbe semplicemente (e giustamente) che la mua forza scacchistica non e' stata sufficiente per vincere!
Sento periodicamente assurdita' su come penalizzare Stockfish per far vincere Lc0 (tipi di aperture, tempi di riflessione, hardware sbilanciatissimo... tutti a favore di Lc0!) dho.gif
Non voglio provocare, ma sono tutt'altro che sicuro che non sia stato Stockfish il vero giocatore "discriminato" negli ultimi TCEC con questo RL di m... che imita il rapporto di potenza tra i super server di google e un pc scrauso dove ci giocava Stockfish 8...

Attualmente l'mcts e' una tecnologia con grandi promesse per il futuro, ma non e' ancora abbastanza matura per battere Stockfish, tutto qui
Forse un domani ci riuscira', ma oggi ancora no
Giorno: 01/03/2021, 19:02:25
..se Lc0 non riesce a tramutare in vittoria i giochi chiusi e' un problema suo!
==========
E' un problema non di LcO, ma intrinseco agli scacchi per la tendenza pattaiola del gioco anche in presenza di vantaggi/svantaggi materiali.

Ipotizziamo di giocare te ed io. Tu sei miglior tattico, io miglior stratega ed e' logico che prevalga o l'uno o l'altro a seconda del tipo di posizione che si verifica.

Ipotizziamo che le stesse caratteristiche nostre si ritrovino in LcO e Stockfish.
Nelle posizioni tattiche Stockfish concretizzera' i vantaggi raggiunti con la vittoria, mentre Lc0 concretizzera' dei leggeri vantaggi incrementali che alla fine si riveleranno insufficienti per vincere: esempi di patta inevitabile sono i finali di torre con pedone in piu', il vantaggio della qualita' con pedoni bloccati, lo stallo in posizione inferiore, etc.

Sono tantissime posizioni degli scacchi in cui non e' sufficiente giocare meglio ed accumulare modesti vantaggi ad un altissimo livello che e' quello raggiunto dai due mostri: regole concepite nel secolo scorso per giocatori umani favoriscono oggi troppo il difensore se e' un computer oppur un forte grande maestro. Lo favoriscono a tal punto che Nigel Short ha proposto di abolire lo stallo e assegnare punteggi intermedi alla partita con questo esito (es 0,75 vs 0,25 per chi subisce lo stallo)

In questo 20simo TCEC e' accaduto proprio questo fenomeno: LC0 ha giocato meglio complessivamente nell'intero campionato, ma ha perso troppe partite in contesti di apertura favorevoli a Stockfish (exit book highly dubious) per l'unica "colpa" di aver giocato la prima o seconda mossa all'uscita dei book in soli pochissimi minuti.

Data questa evidenza, per ristabilire un match equilibrato si dovrebbe mettere mano al time management, cercando di assegnare almeno 10-15 minuti ad ognuna delle prime mosse in uscita dai book highly dubious, cioe' obbligare a "pensare" Leela di piu' quando lo svantaggio iniziale all'uscita dal book di Noomen e' nell'ordine di -0,40/-0,50. Un team indipendente e responsabile del miglior sfruttamento delle potenzialita' di Leela dovrebbe riconoscere che nel punteggio cosi' sfavorevole vi e' insita una trappola molto rischiosa nel libro di Noomen e che occorrerebbe dedicarvi tutto il tempo di riflessione necessario, persino in eccesso.

Tanto poi Leela sarebbe capace di giocare benissimo il resto della partita anche nei pochi minuti rimasti, esattamente come e' stato capace di dimostrare Stockfish nel campionato. Nel campionato Leela spendeva infatti solo 2-3 minuti a mossa in queste situazioni, che e' un tempo insufficiente data la lentezza della ricerca MTC come tu indicavi.

Non cercare di sfruttare al massimo le potenzialita' agonistiche di Leela implicherebbe la necessita' di dover affidare ad un team indipendente la gestione dei settaggi per il campionato, e che il team stesso sia motivato a rendere la gara equilibrata.

Il settaggio di soli 2/3 minuti all'uscita di book cosi' complessi in posizioni inferiori, mi fa temere che in mancanza di recenti sviluppi al progetto LC0 il team di Stockfish intenda relegare LC0 al ruolo di sparring partner per la ricerca di miglioramenti in Stockfish.

Atteggiamento comprensibile, comunque. Ma allora il match del TCEC 2020 non e' stato un vero match sportivo, come ho titolato all'oggetto. Non si sono utilizzate le piene potenzialita' di un programma che strategicamente gioca sicuramente meglio dell'avversario, condannandolo a perdere per una gestione del time management corretta forse per altri generi di sfide, ma non certamente per book "dubbi" come quello concepito da Noomen.

Ciao
Giorno: 01/03/2021, 19:23:50
Se affermo - come ho scritto poc'anzi - che strategicamente il TCEC 2020 ha mostrato piani di gioco complessivamente migliori da parte di Leela sull'avversario - affermazione certamente contestabile perche' non porto prove a suffragio - non lo affermo dall'alto di un principio di autorita' (sebbene verso la fine degli anni 80 e prima del mio abbandono degli scacchi attivi dovuta a motivi professionali il mio Elo Fide si collocava tra i primi 10 in Italia, appena alle spalle dei professionisti di allora), ma semplicemente per una deduzione molto logica e condivisibile:

dopo ben 70 partite del campionato, in condizioni di time management cosi' inadeguate per Leela, il risultato era ancora di parita'. Non dimentichiamolo fermandoci al risultato finale cosi' netto a favore di Stockfish.

Se fino alla 70a Stockfish ne ha vinte alcune per la sua indiscutibile superiorita' tattica che nessuno contesta, Leela deve averne vinte altre equivalenti per aver giocato strategicamente meglio.

Se si contesta questo passaggio, non sarebbe possibile giustificare come Leela abbia potuto tenere il punteggio in parita' addirittura fino alla 70a pur con una cosi' evidentissima inferiorita' tattica rispetto all'avversario.
Giorno: 01/03/2021, 20:29:43
Non dimentichiamo però che Lc0 è un motore più giovane di Stockfish (è uscito nel 2018) e che il metodo di apprendimento di Lc0 richiede tempi molto maggiori dei metodi tradizionali per allenare una rete. Superata una certa soglia, i miglioramenti richiedono tempi via via sempre maggiori (esponenzialmente maggiori).

Rispetto a 2-3 anni fa, quando Lc0 è apparso sulle scene, a livello tattico è migliorato in maniera netta. Chi si ricorda i primi tempi quando Lc0 dominava nel mediogioco e poi cominciava a muovere i pezzi a caso per 50 mosse nei finali? O quando valutava con punteggi quasi casuali numerose posizioni tatticamente molto complesse che magari erano tutte patte? Oggi questo non accade più. Non è ancora comparabile a Stockfish su questo punto ma sta migliorando rapidamente.

Allo stesso modo Stockfish è migliorato notevolmente nella parte posizionale e pur restando inferiore a Lc0 su questo fronte, è molto più difficile ingannarlo.

La differenza l'ha fatta la rete NNUE. Da quando Stockfish l'ha implementata, ha guadagnato su tempi lunghi +120-150 elo, colmando parecchie lacune che aveva e - con la configurazione hardware che usano al TCEC - tornando avanti a Lc0 (anche i vari siti di rating assegnano però sempre un +40-60 elo a SF rispetto a Lc0 a seconda delle configurazioni usate). Aggiungo che nella finale secondo me gli sviluppatori di Lc0 hanno sbagliato a proporre sia una rete non testata a dovere, sia una sorta di versione adattata dell'algoritmo di "Ceres".
Giorno: 01/03/2021, 20:41:52
@ Geralt diRivia: anche i vari siti di rating assegnano pero' sempre un +40-60 elo a SF rispetto a Lc0 a seconda delle configurazioni usate.

===========



1 A livello di test senza book (non ricordo il nome del sito che ha prodotto il test) sono esattamente equivalenti, cioe' tutte le partite finiscono patte sebbene Leela non possa condurre alla vittoria un maggior numero di partite in cui accumula un lieve vantaggio, per la tendenza del gioco alla patta piu' volte sottolineata in precedenza.
Tuttavia mi corre l'obbligo di precisare che non conosco dei test prodotti sullo stesso sito con le ultime versioni + recenti.

E' possibile che su 100 nuove partite senza book uno o l'altro programma possa vincere almeno 1 partita. Se dovessi scommettere, in queste condizioni di assenza del book scommetterei senza dubbio su Leela come vincitore, perche' la qualita' del book interno (non antropomorfo) che si costruisce Leela e' considerata da tutti gli esperti migliore del book interno di Stockfish.


2 A livello di hardware Pohl, l'Elo delle migliori versioni testate e' equivalente

Lc0 0.27.0 67741 (30x384) 3733 +/- 23
Stockfish 210226 avx2 3728 +/- 08

3 A livello di hardware TCEC, quindi potentissimo, il piu' potente che si conosca, la differenza nel TCEC n.20 e' risultata essere di una quindicina di punti a favore di Stockfish, dovuti essenzialmente al pessimo time management di LCO e all'ottimo time management di Stockfish calibrato per riflettere intensamente in caso di sorprese in uscita dal book di Noomen.
Giorno: 01/03/2021, 21:04:52
Superata una certa soglia, i miglioramenti richiedono tempi via via sempre maggiori (esponenzialmente maggiori).

==========

Vero, ma delle volte i miglioramenti nel gioco posizionale determinati dall'autoapprendimento sono pressoche' impossibili da stabilire.

In rarissime occasioni sono visibili, perche' sono mosse che piovono letteralmente dal cielo e fanno pensare alla metafora usata da Pieter Nielsen, quando disse che veder giocare il primo AlphaZero era come vedere un marziano che sbarca sulla terra.

Questa e' una delle rare occasioni recenti al TCEC in cui abbiamo visto Leela giocare un sacrificio di pedone solo posizionale, una mossa da Dio in terra.
Una mossa del tutto inconcepibile dagli umani e anche da Stockfish, da lasciarci sbigottiti ed interdetti su una violazione dei principi degli scacchi cosi' plateale ed incomprensibile.


Eppure la spinta 15. b4 !! si e' rivelata essere nel seguito la unica mossa vincente !

LC0-Stockfish 52a partita 1-0


You need Javascript enabled to view it.










Se ai tempi in cui giocavo al circolo avessi giocato in partita una spinta di pedone simile, mi avrebbero chiesto prima se si trattasse di uno "slip" rispetto all'attesa 15.b3, cioe' se inavvertitamente avessi allungato troppo la mano.

Poi - avuta conferma che era proprio la mossa 15 b4 che avrei voluto giocare - mi avrebbero gentilmente accompagnato alla porta, fatto uscire dal circolo con il divieto eterno di potervi rientrare !


ciao.gif