Gli ultimi sistemi d'intelligenza artificiale diventano campioni a un
gioco nel giro di poche ore partendo da zero. Ma i ricercatori stanno
cercando di applicare questi sistemi anche a problemi della vita reale,
che tuttavia per ora le macchine non riescono ad affrontare in modo
efficace a causa della loro complessità.
lescienze.it Joshua Sokol/Quanta Magazine
Fino a poco tempo fa, le macchine il grado di sconfiggere i campioni
erano almeno abbastanza rispettose da iniziare imparando dall’esperienza
umana.
Nel 1997, per battere Garry Kasparov a scacchi, gli ingegneri dell’IBM
hanno usato secoli di saggezza degli scacchi nel loro computer Deep
Blue. Nel 2016, AlphaGo di Google DeepMind ha battuto il campione Lee
Sedol nell’antico gioco da tavolo Go dopo aver esaminato milioni di
posizioni di decine di migliaia di partite umane.
Ma ora i ricercatori di intelligenza artificiale stanno ripensando il modo in cui i loro bot integrano la totalità della conoscenza umana. La tendenza attuale è: non disturbarti.
Nell’ottobre 2017, il gruppo di DeepMind ha pubblicato i dettagli di un
nuovo sistema per giocare a Go, AlphaGo Zero, che non ha studiato
affatto partite umane.
Invece, ha iniziato con le regole del gioco e ha
giocato contro se stesso. Le prime mosse sono state completamente
casuali. Dopo ogni partita, ha acquisito nuove conoscenze su che cosa lo
aveva portato a una vittoria e che cosa no. Alla fine di questi
allenamenti, AlphaGo Zero si è scontrato con la versione superumana di
AlphaGo che aveva sconfitto Lee Sedol. E ha vinto 100 partite a zero.
Il gruppo ora ha creato un altro giocatore esperto della famiglia di
AlphaGo, chiamato semplicemente AlphaZero. In un articolo pubblicato su”
Science”, i ricercatori di DeepMind hanno rivelato che, dopo aver
ricominciato da zero, AlphaZero addestrato ha superato in prestazioni
AlphaGo Zero, in altre parole, ha battuto il bot che ha battuto il bot
che ha battuto i migliori giocatori di Go nel mondo. (L’articolo è stato
pubblicato per la prima volta sul sito di preprint scientifico
arxiv.org nel dicembre 2017.) E quando gli sono state fornite le regole
per gli scacchi o lo shogi, variante giapponese degli scacchi, AlphaZero
ha imparato rapidamente a sconfiggere anche gli algoritmi di alto livello nati su misura per quei giochi.
Gli esperti si sono meravigliati dello stile aggressivo e inconsueto del
programma. “Mi sono sempre chiesto come sarebbe stato se una specie
superiore fosse arrivata sulla Terra e ci avesse mostrato come gioca a
scacchi”, ha detto il grande maestro danese Peter Heine Nielsen a un
intervistatore della BBC. “Adesso lo so.”
L’anno scorso hanno visto la luce anche bot di autoapprendimento
ultraterreno in ambientazioni molto diverse come il poker no-limit e
Dota 2, un popolare videogioco on line multiplayer in cui eroi a tema fantasy lottano per il controllo di un mondo alieno.
Ovviamente, le aziende che investono denaro in questi e altri sistemi
simili hanno ambizioni più grandi che dominare i tornei di videogiochi. I
gruppi di ricerca come DeepMind sperano di applicare metodi simili a
problemi del mondo reale, come la costruzione di superconduttori a
temperatura ambiente, o la comprensione degli origami necessari
per ripiegare le proteine in potenti molecole farmacologiche. E,
naturalmente, molti addetti ai lavori sperano di realizzare
un’intelligenza artificiale generale, un obiettivo mal definito ma
accattivante in cui una macchina potrebbe pensare come una persona, con
la versatilità sufficiente per affrontare molti diversi tipi di
problemi.
Tuttavia, nonostante gli investimenti su questi sistemi, non è ancora
chiaro fino a che punto le tecniche attuali possano andare oltre il
tavolo da gioco. “Non sono sicuro che le idee di AlphaZero si possano
generalizzare facilmente”, ha detto Pedro Domingos, informatico
dell’Università di Washington. “I giochi sono una cosa assai insolita.”
Obiettivi perfetti per un mondo imperfetto
Una caratteristica condivisa da molti giochi, scacchi e Go inclusi, è
che i giocatori possono vedere tutti i pezzi su entrambi i versanti in
ogni momento. Ogni giocatore ha sempre quella che viene definita
“informazione perfetta” sullo stato del gioco. Per quanto diabolicamente
complesso diventi il gioco, tutto ciò che occorre fare è pensare in
avanti rispetto alla situazione corrente.
Tante situazioni reali non sono così. Immaginiamo di chiedere a un
computer di diagnosticare una malattia o condurre una trattativa
d’affari. “La maggior parte delle interazioni strategiche del mondo
reale coinvolgono informazioni nascoste”, ha detto Noam Brown, studente
di dottorato in informatica alla Carnegie Mellon University. “Ho la
sensazione che ciò è stato trascurato dalla maggior parte della comunità
dell’intelligenza artificiale”.
Il poker, in cui Brown è specializzato, pone una sfida diversa. Non si
possono vedere le carte dell’avversario. Ma anche qui le macchine che
imparano giocando contro se stesse stanno ora raggiungendo livelli
sovrumani. Nel gennaio 2017, un programma chiamato Libratus creato da
Brown e dal suo consulente, Tuomas Sandholm, ha battuto quattro
giocatori professionisti di poker al Texas Hold ‘em testa a testa,
no-limit, finendo 1,7 milioni di dollari davanti ai suoi avversari alla
fine di una gara di 20 giorni.
Un gioco ancora più scoraggiante che coinvolge informazioni imperfette è
StarCraft II, un altro videogioco on line multiplayer con un vasto
seguito. I giocatori scelgono una squadra, costruiscono un esercito e
combattono una guerra in un paesaggio di fantascienza. Ma quel paesaggio
è avvolto da una nebbia di guerra che consente solo ai giocatori di
vedere le aree in cui hanno soldati o edifici. Anche la decisione di
andare in ricognizione tra le linee nemiche è piena di incertezze.
Questo è un gioco che l’intelligenza artificiale non può ancora
affrontare. Gli ostacoli al successo includono il numero di mosse in una
partita, che spesso arrivano a migliaia, e la velocità con cui devono
essere fatte. Ogni giocatore – essere umano o macchina – deve
preoccuparsi di una vasta serie di possibili futuri con ogni click.
Per ora, un testa a testa con i migliori esseri umani in questa arena è
fuori dalla portata dell’intelligenza artificiale. Ma è un obiettivo.
Nell’agosto 2017, DeepMind ha stretto una accordo con Blizzard
Entertainment, l’azienda che ha realizzato StarCraft II, per fornire gli
strumenti che, secondo loro, aiuteranno ad aprire il gioco ai
ricercatori di intelligenza artificiale.
Nonostante le sfide, StarCraft II si riduce a un obiettivo che può
essere enunciato in modo semplice: elimina il tuo nemico. È qualcosa che
condivide con scacchi, Go, poker, Dota 2 e praticamente ogni altro
gioco. Nelle partite, si può vincere.
Dal punto di vista dell’algoritmo, i problemi devono avere una “funzione
obiettivo”, cioè un obiettivo da perseguire. Quando AlphaZero ha
giocato a scacchi, non è stato così difficile. Una sconfitta contava
come meno uno, un pareggio zero e una vittoria più uno. La funzione
obiettivo di AlphaZero era di massimizzare il suo punteggio. La funzione
obiettivo di un bot per il poker è altrettanto semplice: vincere un
sacco di soldi.
Le situazioni della vita reale non sono così semplici. Per esempio,
un’automobile che guida da sola ha bisogno di una funzione obiettivo più
sfumata, qualcosa di simile al tipo di frase che useremmo per esprimere
un desiderio al genio della lampada. Per esempio: portare
tempestivamente il passeggero alla giusta destinazione, rispettare tutte
le leggi e valutare adeguatamente il valore della vita umana in
situazioni pericolose e incerte. Il modo in cui i ricercatori realizzano
la funzione obiettivo, ha affermato Domingos, “è una delle cose che
distingue un grande ricercatore di apprendimento automatico dalla
media”.
Consideriamo Tay, un chatbot di Twitter rilasciato da Microsoft il 23
marzo 2016. L’obiettivo di Tay era coinvolgere le persone, e così è
stato. “Quello che sfortunatamente Tay ha scoperto – ha detto Domingos, –
era che il modo migliore per massimizzare il coinvolgimento era
pubblicare insulti razzisti.” È stato messo off-line dopo nemmeno un
giorno.
Il nostro peggior nemico
Alcune cose non cambiano. I metodi usati dai bot di gioco dominanti oggi
usano strategie inventate decenni fa. “È quasi un tuffo nel passato,
solo con più calcoli”, ha detto David Duvenaud, informatico
dell’Università di Toronto.
Le strategie spesso si basano sull’apprendimento per rinforzo, una
tecnica basata sul non intervento. Invece di eseguire un algoritmo con
istruzioni dettagliate, gli ingegneri lasciano che la macchina esplori
un ambiente, in modo che impari a raggiungere gli obiettivi per prove ed
errori. Prima del rilascio di AlphaGo e dei suoi eredi, il gruppo di
DeepMind ha ottenuto il suo primo grande risultato da prima pagina nel
2013, quando ha usato l’apprendimento per rinforzo per creare un bot che
ha imparato a giocare sette giochi Atari 2600, tre dei quali a livello
esperto.
Questi progressi sono continuati. Il 5 febbraio scorso, DeepMind ha
presentato IMPALA, un sistema di intelligenza artificiale in grado di
apprendere 57 giochi Atari 2600, più altri 30 livelli costruiti da
DeepMind in tre dimensioni. In questi, il giocatore girovaga attraverso
diversi ambienti, raggiungendo obiettivi come sbloccare porte o
raccogliere funghi. IMPALA sembra trasferire conoscenza tra i compiti,
il che significa che il tempo trascorso a giocare a un gioco aiuta anche
a migliorare le prestazioni negli altri.
Ma nella più ampia categoria di apprendimento per rinforzo, giochi da
tavolo e giochi multiplayer permettono un approccio ancora più
specifico. Qui, l’esplorazione può assumere la forma di gioco solitario,
o self-play, in cui un algoritmo acquisisce la supremazia strategica combattendo ripetutamente con la copia di se stesso.
Questa idea risale a decenni fa. Negli anni cinquanta, l’ingegnere
dell’IBM Arthur Samuel creò un programma per giocare a dama che imparava
in parte facendo scontrare un lato alfa contro un lato beta. E negli
anni novanta, Gerald Tesauro, anch’egli di IBM, costruì un programma di
backgammon che metteva l’algoritmo contro se stesso. Il programma
raggiunse livelli di esperti umani, escogitando via via strategie non
ortodosse ma efficaci.
Partita dopo partita, l’algoritmo di un sistema self-play affronta un
avversario dello stesso livello. Ciò significa che i cambiamenti nella
strategia portano a risultati diversi, fornendo un feedback
immediato all’algoritmo. “Ogni volta che impari qualcosa, ogni volta che
scopri una piccola cosa, il tuo avversario la usa immediatamente contro
di te”, ha detto Ilya Sutskever, direttore della ricerca di OpenAI,
organizzazione no profit, che ha co-fondato con Elon Musk,
dedicata allo sviluppo e alla condivisione della tecnologia
dell’intelligenza artificiale con l’obiettivo di arrivare ad
applicazioni sicure. Nell’agosto 2017, l’organizzazione ha rilasciato un
bot Dota 2 che controlla il personaggio Shadow Fiend, una sorta di
demone-negromante che ha battuto i migliori giocatori del mondo nelle
battaglie uno contro uno. Un altro progetto OpenAI mette l’uno contro
l’altro esseri umani simulati in un incontro di sumo, dove finiscono per
auto-apprendere come attaccare e fare finte. Durante il self-play, “non
puoi mai stare fermo, devi sempre migliorare”, ha detto Sutskever.
Ma la vecchia idea del self-play è solo un ingrediente dei bot dominanti
di oggi, che hanno anche bisogno di un modo per tradurre le loro
esperienze di gioco in una comprensione più profonda. Chess, Go e
videogiochi come Dota 2 hanno molte più permutazioni di quanti siano gli
atomi nell’universo. Anche nel corso di molte vite trascorse a
combattere la propria ombra in arene virtuali, una macchina non può
affrontare tutti gli scenari, prendere nota in una tabella e consultare
quella tabella quando si trova di nuovo la stessa situazione.
Per rimanere a galla in questo mare di possibilità, “è necessario
generalizzare, catturare l’essenza”, ha detto Pieter Abbeel, informatico
dell’Università della California a Berkeley. Deep Blue di IBM ha fatto
questo con la sua formula di scacchi intrinseca. Dotato della capacità
di valutare l’efficacia di posizioni sulla scacchiera che non aveva mai
visto prima, poteva adottare mosse e strategie per incrementare le sue
possibilità di vittoria. Negli ultimi anni, tuttavia, una nuova tecnica
ha permesso di oltrepassare del tutto la formula. “Ora, all’improvviso,
la ‘rete profonda’ cattura tutto questo”, ha detto Abbeel.
Le reti neurali profonde, o deep neural networks, che hanno
accresciuto la loro popolarità negli ultimi anni, sono costruite con
strati di “neuroni” artificiali che si sovrappongono come in un pancake.
Quando i neuroni in un livello si attivano, inviano segnali allo strato
successivo, che li invia allo strato successivo e così via.
Modificando il modo in cui gli strati si connettono, queste reti
diventano molto abili nel trasformare gli input in output correlati,
anche se la connessione sembra astratta. Date loro una frase in inglese,
e potrebbero addestrarsi a tradurla in turco. Date loro foto di un
rifugio per animali e potrebbero identificare quali contengono gatti.
Oppure mostrate loro una scacchiera e potrebbero intuire le loro
probabilità di vittoria. In genere, però, è necessario prima dare a
queste reti una serie di esempi contrassegnati su cui esercitarsi.
Ecco perché self-play e reti neurali profonde si integrano così bene. Il
self-play sforna continuamente raccolte di partite, dando alle reti
neurali profonde la serie teoricamente illimitata dei dati di cui hanno
bisogno per insegnare a se stesse. A loro volta, le reti neurali
profonde offrono un modo per interiorizzare esperienze e schemi
incontrati nel self-play.
Ma c’è un problema. Per produrre dati utili, i sistemi self-play hanno bisogno di un luogo realistico in cui giocare.
“Tutti questi giochi, tutti questi risultati, sono emersi in ambienti in
cui è possibile simulare perfettamente il mondo”, ha dichiarato Chelsea
Finn, studentessa di dottorato di Berkeley che usa l’intelligenza
artificiale per controllare bracci robotizzati e interpretare i dati dai
sensori. Altri domini non sono così facili da simulare.
Le automobili a guida autonoma, per esempio, hanno difficoltà a gestire
il maltempo o i ciclisti. Oppure potrebbero non elaborare le bizzarre
possibilità che si presentano nei dati reali, come un uccello che per
caso vola direttamente verso la videocamera dell’auto. Per i bracci
robotici, ha detto Finn, le simulazioni iniziali forniscono la fisica di
base, permettendo al braccio almeno di imparare in che modo apprendere.
Ma non riescono a catturare i dettagli che riguardano il contatto con
le superfici, il che significa che compiti come avvitare un tappo di
bottiglia o condurre una complessa procedura chirurgica richiedono anche
un’esperienza del mondo reale.
Per problemi difficili da simulare, quindi, il self-play non è così
utile. “C’è un’enorme differenza tra un vero modello perfetto
dell’ambiente e uno valutato e appreso, soprattutto quando questa realtà
è complessa”, ha scritto Yoshua Bengio, pioniere del deep learning
all’Università di Montreal, in una email. Ma ciò lascia ancora ai
ricercatori della intelligenza artificiale alcune strade per andare
avanti.
La vita oltre i giochi
È difficile individuare l’alba della supremazia dell’intelligenza
artificiale nei giochi. Si potrebbe scegliere la sconfitta di Kasparov
negli scacchi, o la disfatta di Lee Sedol per mano virtuale di AlphaGo.
Un’altra opzione popolare sarebbe il momento in cui il leggendario
campione di Jeopardy! (quiz televisivo statunitense, in cui i
concorrenti si sfidano sulla cultura generale sulla base di indizi) Ken
Jennings è stato sconfitto da Watson dell’IBM nel 2011. Watson poteva
analizzare gli indizi del gioco e gestire i giochi di parole.
L’incontro, durato due giorni, non era equilibrato. “Io per primo do il
benvenuto ai nostri nuovi padroni computerizzati”, ha scritto Jennings
sotto la sua risposta finale.
Watson sembrava dotato del tipo di abilità che gli esseri umani usano in
una serie di problemi del mondo reale. Poteva prendere un suggerimento
in inglese, frugare tra i documenti pertinenti alla velocità della luce,
trovare i frammenti di informazioni attinenti e fornire una singola
migliore risposta. Ma sette anni dopo, il mondo reale continua a
presentare sfide ostinatamente ardue per l’intelligenza artificiale. Un
rapporto pubblicato a settembre dalla rivista sanitaria “Stat” ha
rilevato che la ricerca e la progettazione di trattamenti personalizzati
per il cancro, cercati da Watson for Oncology, erede di Watson, si
stanno dimostrando difficili.
“Le domande in Jeopardy! sono più facili, nel senso che non hanno
bisogno di molto senso comune”, ha scritto Bengio, che ha collaborato
con il gruppo di Watson, quando gli è stato chiesto di confrontare i due
casi dal punto di vista dell’intelligenza artificiale. “Capire un
articolo di medicina è molto più difficile. Sono necessarie ancora molte
ricerche di base”.
“Per quanto speciali siano i giochi, ci sono ancora problemi del mondo
reale che sono simili. I ricercatori di DeepMind hanno rifiutato di
essere intervistati per questo articolo, citando il fatto che il loro
lavoro con AlphaZero è attualmente sottoposto a revisione tra pari. Ma
il gruppo ha suggerito che le sue tecniche potrebbero presto aiutare i
ricercatori in campo biomedico che vorrebbero comprendere il
ripiegamento delle proteine.
Per fare questo, hanno bisogno di capire come i vari amminoacidi che
formano una proteina si ripiegano in una piccola macchina
tridimensionale con una funzione che dipende dalla sua forma. Ciò è
complicato quanto lo sono gli scacchi: i chimici conoscono abbastanza
bene le regole per calcolare scenari specifici, ma ci sono ancora così
tante configurazioni possibili, che cercare tra di esse è un compito
senza speranza. Ma che cosa succederebbe se il ripiegamento delle
proteine potesse essere configurato come un gioco? In realtà, è già
stato fatto. Dal 2008, centinaia di migliaia di giocatori umani si sono
cimentati con Foldit, un gioco on line in cui gli utenti ricevono un
punteggio in base alla stabilità e alla fattibilità delle strutture
proteiche che ripiegano. Una macchina potrebbe allenarsi in modo simile,
forse cercando di battere il suo precedente punteggio migliore con
l’apprendimento generale per rinforzo.
Anche apprendimento per rinforzo e self-play potrebbero aiutare ad
addestrare sistemi di dialogo, suggerisce Sutskever. Ciò darebbe ai bot
che hanno intenzione di parlare agli esseri umani la possibilità di
addestrarsi parlando a se stessi. E considerando che l’hardware
specializzato per l’intelligenza artificiale sta diventando più veloce e
più disponibile, gli ingegneri avranno un incentivo a mettere sempre
più problemi in forma di giochi. “Penso che in futuro il self-play e
altri modi di consumare una grande quantità di potenza di calcolo
diventeranno sempre più importanti”, ha affermato Sutskever.
Ma se l’obiettivo finale è che le macchine possano fare ciò che fanno
gli esseri umani, anche per un campione di gioco da tavolo generalista
autodidatta come AlphaZero si apre una strada. “Secondo me, è necessario
vedere che cosa è realmente un grande divario tra le attività reali del
pensiero, l’esplorazione creativa delle idee e quello che attualmente
vediamo nell’IA”, ha detto Josh Tenenbaum, scienziato cognitivo del
Massachusetts Institute of Technology. “Quel tipo di intelligenza è lì,
ma rimane per lo più nella mente dei grandi ricercatori di intelligenza
artificiale”.
“Molti altri ricercatori, consapevoli del clamore che circonda il loro
campo, mettono a disposizione le proprie competenze. “Farei attenzione a
non sopravvalutare il significato di giocare a questi giochi, per
l’intelligenza artificiale o per i lavori in generale. Gli esseri umani
non sono molto bravi nei giochi”, ha detto François Chollet, che si
occupa di ricerca nel campo del deep-learning per Google.
“Ma occorre tenere presente che strumenti molto semplici e specializzati possono effettivamente ottenere molto”, ha affermato.
(L'originale di questo articolo è stato pubblicato il 21 febbraio 2018 e aggiornato il 6 dicembre da QuantaMagazine.org,
una pubblicazione editoriale indipendente online promossa dalla
Fondazione Simons per migliorare la comprensione pubblica della scienza.
Rete per l'Autorganizzazione Popolare - http://campagnano-rap.blogspot.it
Pagine
- Home
- L'associazione - lo Statuto
- Chicche di R@P
- Campagnano info, news e proposte
- Video Consigliati
- Autoproduzione
- TRASHWARE
- Discariche & Rifiuti
- Acqua & Arsenico
- Canapa Sativa
- Raspberry pi
- Beni comuni
- post originali
- @lternative
- e-book streaming
- Economia-Finanza
- R@P-SCEC
- il 68 e il 77
- Acqua
- Decrescita Felice
- ICT
- ECDL
- Download
- हृदय योग सारस
martedì 25 dicembre 2018
Iscriviti a:
Commenti sul post (Atom)
Nessun commento:
Posta un commento