Intelligenza Artificiale
Microsoft lancia 3 nuovi modelli AI
Microsoft sfida i rivali nel campo dell’IA con tre nuovi modelli fondamentali in grado di generare immagini, testo e voce. Questa pubblicazione segnala il suo continuo impegno nello sviluppo di una propria suite di modelli di intelligenza artificiale multimodale e nella competizione con i laboratori di IA rivali, pur rimanendo legata a OpenAI. MAI-Transcribe-1 trascrive il parlato in 25 lingue diverse e, secondo un comunicato stampa dell’azienda, è 2,5 volte più veloce dell’offerta Azure Fast di Microsoft. MAI-Voice-1 è un modello di generazione audio. Questo modello vocale consente agli utenti di generare 60 secondi di audio in un secondo e di creare una voce personalizzata. MAI-Image-2 è un modello di generazione video.
Microsoft lancia 3 nuovi LLM su Foundry
MAI-Image-2 è stato originariamente rilasciato su MAI Playground, un nuovo software per il test di modelli linguistici di grandi dimensioni, il 19 marzo. Ora, tutti e tre i modelli vengono rilasciati su Microsoft Foundry e i modelli di trascrizione e voce sono disponibili anche in MAI Playground.
I modelli sono stati sviluppati dal team MAI Superintelligence di Microsoft , un gruppo di ricerca sull’intelligenza artificiale guidato da Mustafa Suleyman, CEO di Microsoft AI, che è stato formato e annunciato nel novembre 2025.
“In Microsoft AI stiamo sviluppando un’IA umanistica. Abbiamo una visione ben precisa nella creazione dei nostri modelli di IA: mettere gli esseri umani al centro, ottimizzare il modo in cui le persone comunicano realmente e addestrarli per un utilizzo pratico”, ha scritto Suleyman nel post del blog . “Presto vedrete altri nostri modelli in Foundry e direttamente nei prodotti e nelle esperienze Microsoft.”
Vediamo più nel dettaglio i nuovi LLM Microsoft
‘MAI-Transcribe-1’ è un modello di riconoscimento vocale di prima generazione che dovrebbe offrire una “precisione di livello aziendale” in 25 lingue. Con costi GPU inferiori di circa il 50% rispetto alle alternative. Il modello ottiene un punteggio inferiore al 4% di “tasso di errore di parola” medio nei benchmark di precisione. Mentre GPT-Transcribe si attesta al 4,2% e Gemini 3.1 Flash al 4,9%.
‘MAI-Voice-1’ è un modello di generazione vocale che, secondo Microsoft, è in grado di produrre 60 secondi di audio espressivo in meno di un secondo su una singola GPU. L’obiettivo è che i due modelli, combinati, forniscano una piattaforma di intelligenza artificiale per l’elaborazione audio in grado di supportare i flussi di lavoro dei call center e altri servizi vocali, come la generazione di sottotitoli in tempo reale, la sottotitolazione automatica e la conversione delle interazioni in dati strutturati per la ricerca.
Il modello di immagine di seconda generazione di Microsoft, ‘MAI-Image-2′, dovrebbe offrire agli artisti un modo per “esplorare” diverse direzioni visive. Il modello è stato creato in “stretta collaborazione” con gli artisti, ha affermato l’azienda, e ha lo scopo di aiutare le imprese a creare materiale di branding e comunicazione. MAI-Image-2 ha debuttato al terzo posto nella classifica di Arena.ai per le famiglie di modelli di immagine e attualmente si trova al quinto posto.
I costi: cosa sappiamo
MAI-Transcribe-1 parte da $0,36 all’ora. Poi MAI-Voice-1 parte da $22 per 1 milione di caratteri, e MAI-Image-2 parte da $5 per 1 milione di token per l’input di testo e $33 per 1 milione di token per l’output di immagini.
Nonostante la pubblicazione dei propri modelli, Suleyman ha ribadito l’impegno di Microsoft nella partnership con OpenAI in un’intervista a VentureBeat, sebbene una recente rinegoziazione di tale partnership abbia permesso a Microsoft di perseguire concretamente questa ricerca sulla superintelligenza, come ha dichiarato Suleyman a The Verge .
Microsoft ha investito oltre 13 miliardi di dollari nel laboratorio di ricerca sull’intelligenza artificiale e ne integra i modelli nei suoi vari prodotti grazie a una partnership pluriennale. Microsoft adotta lo stesso approccio anche per quanto riguarda i chip: li produce internamente e li acquista anche da fornitori esterni. Nel frattempo, la recente integrazione di Copilot con Claude Cowork di Anthropic mira a soddisfare la crescente domanda di agenti autonomi.



