Migliori Large Reasoning Model per la matematica
LâAI âacceleraâ la matematica: una sinergia che cambia la ricerca. Lâintelligenza artificiale e la matematica si influenzano reciprocamente. I matematici utilizzano lâAI per risolvere problemi che prima sembravano irrisolvibili, sfruttando modelli avanzati come LRM. LâIntelligenza Artificiale e la matematica sono strettamente legate tra loro. La matematica è il linguaggio con cui lâIntelligenza Artificiale âpensaâ e impara. Senza algebra, statistica, calcolo e logica, tale dirompente tecnologia non potrebbe esistere. Allo stesso tempo, lâIntelligenza Artificiale sta diventando uno strumento potente per la matematica stessa, aiutando i ricercatori a esplorare nuove idee, dimostrare teoremi e risolvere problemi complessi. AI e matematica: lâiniziativa âexpMathâ del DARPA Lo scorso aprile, la âUS Defense Advanced Research Projects Agencyâ (lâagenzia statunitense per i progetti di ricerca avanzata della difesa, conosciuta come âDARPAâ) ha lanciato una nuova iniziativa chiamata âexpMathâ (abbreviazione di âExponentiating Mathematicsâ) con lâobiettivo di accelerare i progressi in un campo â quello della matematica â che è alla base di numerose applicazioni cruciali, dalla scienza informatica alla medicina, fino alla sicurezza nazionale. Secondo il DARPA però, per quanto la matematica abbia sempre un impatto enorme nelle vite di tutti noi, viene ancora praticata piĂš o meno come secoli fa, ossia âin solitaria davanti alla lavagnaâ. Il mondo moderno si regge sulla matematica. Certo, è un concetto pleonastico, ma utile a ricordarci che la matematica permette di modellare sistemi complessi, come il flusso dellâaria attorno a un aereo, lâandamento dei mercati finanziari, o la circolazione del sangue nel cuore. E le scoperte nel campo della matematica possono sbloccare nuove tecnologie come la crittografia, essenziale per la messaggistica privata e la sicurezza bancaria online, o la compressione dei dati, che ci consente di trasmettere immagini e video via internet. Tuttavia, tali progressi, in questo settore, possono richiedere anni. Gli obiettivi di expMath DARPA vuole âsemplicementeâ accelerare questo processo. Lâobiettivo di expMath è incentivare matematici e ricercatori nel campo dellâIntelligenza Artificiale a sviluppare quello che DARPA chiama âco-autore-IAâ, ossia uno strumento in grado di scomporre grandi problemi matematici complessi in sotto-problemi piĂš piccoli e comprensibili (e, si spera, piĂš veloci da risolvere). I matematici usano i computer da decenni, per velocizzare i calcoli o verificare se certe affermazioni sono vere. Ma oggi si immagina che lâIntelligenza Artificiale possa aiutarli a risolvere problemi finora considerati irrisolvibili. Tuttavia, câè una grande differenza tra unâIntelligenza Artificiale capace di risolvere i problemi delle scuole superiori e unâIntelligenza Artificiale che potrebbe (in teoria) affrontare i problemi su cui i matematici professionisti lavorano per decenni. Da una parte ci sono strumenti in grado di automatizzare compiti ripetitivi; dallâaltra, strumenti che potrebbero spingere la conoscenza umana oltre i suoi limiti attuali. Vediamo insieme tre modi per capire questo divario. Lâarrivo dei Large Reasoning Model per colmare le lacune matematiche dei LLM
I grandi modelli linguistici LLM, come ChatGPT, non sono famosi per la loro abilitĂ matematica. Come è ormai appurato, a volte âinventanoâ risposte per compiacere gli utenti, con la possibilitĂ di arrivare a dire che â2 + 2 = 5â solo per dare ragione a chi formula la domanda. E non dobbiamo nemmeno scomodare il romanzo distopico â1984â di George Orwell â dove il Partito usa questo tipo di manipolazione della realtĂ per imporre il suo potere â dato che non vi è nessuna imposizione per cui il modello debba rispondere in maniera errata. Ă semplice âvolontĂ â di soddisfare le richieste. Tuttavia, al di lĂ degli LLM piĂš popolari, vi sono i cosiddetti Large Reasoning Models (LRM), ossia LLM ulteriormente addestrati per risolvere compiti di ragionamento multi-step (a piĂš passaggi), tra i quali figura o3 di OpenAI e Claude 4 Thinking di Anthropic. E sono proprio questi LRM ad aver acceso lâinteresse dei matematici. Questâanno, diversi LRM hanno ottenuto punteggi elevati allâAmerican Invitational Mathematics Examination (AIME), un test rivolto al 5% degli studenti piĂš bravi delle scuole superiori statunitensi. Sono emersi anche modelli ibridi che combinano LLM e sistemi di verifica dei fatti. AlphaProof di Google DeepMind, per esempio, combina un LLM con il modello da gioco AlphaZero. Lo scorso anno, AlphaProof è diventato il primo programma a eguagliare le prestazioni di un medagliato dâargento alle Olimpiadi Internazionali di Matematica. A maggio scorso, invece, un altro modello di DeepMind, AlphaEvolve, ha trovato soluzioni migliori rispetto a quelle umane per oltre cinquanta problemi matematici irrisolti e numerosi problemi concreti di informatica. LRM, progressi e limiti dellâAI che âragionaâ I progressi, in questo caso, sono chiari. Mentre GPT-4 non è in grado di fare matematica oltre il livello di uno studente universitario, il LRM o1 (sempre di OpenAI) diventa il âreâ della materia. Certo, non dobbiamo esultare nellâimmediato. I problemi delle Olimpiadi della Matematica spesso richiedono trucchetti ingegnosi, mentre i problemi di ricerca sono molto piĂš esplorativi e pieni di elementi eterogenei. LâabilitĂ su un tipo di problema non garantisce il successo su un altro. Anche se vi è da dire che i problemi delle Olimpiadi della Matematica, pur difficili, seguono spesso schemi ripetuti sui quali ci si può allenare. E cosĂŹ come si possono allenare gli esseri umani in campo matematico, anche le macchine possono essere allenate in tal senso. E con i migliori modelli LRM che ottengono punteggi del 90%, non siamo molto lontano dal successo. Un progresso notevole, ma câè ancora tanto margine di miglioramento. Ogni problema di matematica è una âricerca di percorsoâ, ossia una sequenza di passaggi che porta alla soluzione. Il problema, chiaramente, è trovarla. Inoltre, la differenza la fa la lunghezza dei diversi passaggi. I problemi delle superiori hanno passaggi corti, quelli universitari piĂš lunghi. Per congetture come quella di Riemann (una dei âsette problemi del millennioâ), non abbiamo nemmeno i passaggi iniziali. Potrebbe servire un percorso che può essere lungo milioni di righe di dimostrazione. Proprio come nel gioco del Go, dove AlphaZero ha imparato a trovare sequenze vincenti tra numeri immensi di mosse possibili, anche nella matematica dura si tratta di cercare tra numeri con milioni di zeri. E nessun modello di Intelligenza Artificiale può ancora esaminare tutte queste possibilitĂ . Le âsuper-mosseâ che consentono allâAI di gestire i problemi con approccio collaborativo CosĂŹ alcuni ricercatori hanno creato un sistema per abbreviare i percorsi usando âsuper-mosseâ: gruppi di passaggi trattati come uno solo. Questo metodo ha permesso di approcciare a un problema, la congettura di Andrews-Curtis (AC) che, pur se non ancora risolta, ha visto dimostrare che un controesempio proposto quaranta anni fa era sbagliato. Pensare fuori dagli schemi è essenziale nella matematica avanzata. Non si tratta solo di procedimenti meccanici: è unâattivitĂ sperimentale, fatta di tentativi, errori e âlampi dâintuizioneâ. Modelli come AlphaEvolve funzionano con una dinamica a due fasi: un LLM genera codice per risolvere un problema, un secondo modello valuta i risultati, sceglie il migliore e lo rimanda indietro per miglioramenti. Dopo centinaia di iterazioni, nascono soluzioni che superano quelle umane. Questo approccio è collaborativo, con lâessere umano che può intervenire in ogni fase con suggerimenti e intuizioni. Le evoluzioni di AlphaEvolve e PatternBoost PatternBoost di Meta genera variazioni interessanti di unâidea matematica. Questo tipo di esplorazione è alla base della materia. Come il caso dellâicosaedro, un solido a 20 facce triangolari, noto fin dallâantica Grecia, e che ancora oggi influenza profondamente il pensiero matematico. Strumenti come PatternBoost potrebbero aiutare a scoprire nuovi oggetti matematici rivoluzionari. Le vere scoperte arrivano da nuovi modi di vedere un problema. E non sappiamo ancora da dove vengano queste intuizioni straordinarie. Per ora, strumenti come AlphaEvolve e PatternBoost sembrano scout avanzati al servizio dellâintuizione umana. Possono esplorare nuove strade e segnalare vicoli ciechi, risparmiando mesi o anni di lavoro. Ma le vere scoperte, almeno per ora, continuano a venire dalla mente umana. Fonti: expMath: Exponentiating Mathematics. DARPA. https://www.darpa.mil/research/programs/expmath-exponential-mathematics - Si pensi ai cd. âSette problemi irrisolti del millennioâ. Cfr. 7 problemi irrisolti della matematica (oltre alla congettura di Riemann). Wired. https://www.wired.it/scienza/lab/2018/09/26/problemi-irrisolti-matematica-riemann/ - Si legga anche: xAI Researchers Claim: AI Model Grok-3 May Prove the Riemann Hypothesis. Medium. https://ai-engineering-trend.medium.com/xai-researchers-claim-ai-model-grok-3-may-prove-the-riemann-hypothesis-b1d8786f383e - AI Program Plays the Long Game to Solve Decades-Old Math Problems. California Institute of Technology. https://www.caltech.edu/about/news/ai-program-plays-the-long-game-to-solve-decades-old-math-problems - AI maths assistant could help solve problems that humans are stuck on. New Scientist. https://www.newscientist.com/article/2456653-ai-maths-assistant-could-help-solve-problems-that-humans-are-stuck-on/ - Whatâs next for AI and math. MIT Technology Review. https://www.technologyreview.com/2025/06/04/1117753/whats-next-for-ai-and-math/ Read the full article











