Connect with us

Intelligenza Artificiale

Microsoft lancia 3 nuovi modelli AI

Published

on

Microsoft

Microsoft sfida i rivali nel campo dell’IA con tre nuovi modelli fondamentali in grado di generare immagini, testo e voce. Questa pubblicazione segnala il suo continuo impegno nello sviluppo di una propria suite di modelli di intelligenza artificiale multimodale e nella competizione con i laboratori di IA rivali, pur rimanendo legata a OpenAI. MAI-Transcribe-1 trascrive il parlato in 25 lingue diverse e, secondo un comunicato stampa dell’azienda, è 2,5 volte più veloce dell’offerta Azure Fast di Microsoft. MAI-Voice-1 è un modello di generazione audio. Questo modello vocale consente agli utenti di generare 60 secondi di audio in un secondo e di creare una voce personalizzata. MAI-Image-2 è un modello di generazione video.

Microsoft

I tre nuovi LLM sono già utilizzabili sulla piattaforma Foundry.

Microsoft lancia 3 nuovi LLM su Foundry

MAI-Image-2 è stato originariamente rilasciato su MAI Playground, un nuovo software per il test di modelli linguistici di grandi dimensioni, il 19 marzo. Ora, tutti e tre i modelli vengono rilasciati su Microsoft Foundry e i modelli di trascrizione e voce sono disponibili anche in MAI Playground.

I modelli sono stati sviluppati dal team MAI Superintelligence di Microsoft , un gruppo di ricerca sull’intelligenza artificiale guidato da Mustafa Suleyman, CEO di Microsoft AI, che è stato formato e annunciato nel novembre 2025.

“In Microsoft AI stiamo sviluppando un’IA umanistica. Abbiamo una visione ben precisa nella creazione dei nostri modelli di IA: mettere gli esseri umani al centro, ottimizzare il modo in cui le persone comunicano realmente e addestrarli per un utilizzo pratico”, ha scritto Suleyman nel post del blog . “Presto vedrete altri nostri modelli in Foundry e direttamente nei prodotti e nelle esperienze Microsoft.”

Microsoft

Voce, arte e scrittura, un servizio completo per tutti gli utenti.

Vediamo più nel dettaglio i nuovi LLM Microsoft

‘MAI-Transcribe-1’ è un modello di riconoscimento vocale di prima generazione che dovrebbe offrire una “precisione di livello aziendale” in 25 lingue. Con costi GPU inferiori di circa il 50% rispetto alle alternative. Il modello ottiene un punteggio inferiore al 4% di “tasso di errore di parola” medio nei benchmark di precisione. Mentre GPT-Transcribe si attesta al 4,2% e Gemini 3.1 Flash al 4,9%.

‘MAI-Voice-1’ è un modello di generazione vocale che, secondo Microsoft, è in grado di produrre 60 secondi di audio espressivo in meno di un secondo su una singola GPU. L’obiettivo è che i due modelli, combinati, forniscano una piattaforma di intelligenza artificiale per l’elaborazione audio in grado di supportare i flussi di lavoro dei call center e altri servizi vocali, come la generazione di sottotitoli in tempo reale, la sottotitolazione automatica e la conversione delle interazioni in dati strutturati per la ricerca.

Il modello di immagine di seconda generazione di Microsoft, ‘MAI-Image-2′, dovrebbe offrire agli artisti un modo per “esplorare” diverse direzioni visive. Il modello è stato creato in “stretta collaborazione” con gli artisti, ha affermato l’azienda, e ha lo scopo di aiutare le imprese a creare materiale di branding e comunicazione. MAI-Image-2 ha debuttato al terzo posto nella classifica di Arena.ai per le famiglie di modelli di immagine e attualmente si trova al quinto posto.

Microsoft

Ovviamente questi LLM non sono gratuiti, hanno dei costi differenti in base alla mole di utilizzo.

I costi: cosa sappiamo

MAI-Transcribe-1 parte da $0,36 all’ora. Poi MAI-Voice-1 parte da $22 per 1 milione di caratteri, e MAI-Image-2 parte da $5 per 1 milione di token per l’input di testo e $33 per 1 milione di token per l’output di immagini.

Nonostante la pubblicazione dei propri modelli, Suleyman ha ribadito l’impegno di Microsoft nella partnership con OpenAI in un’intervista a VentureBeat, sebbene una recente rinegoziazione di tale partnership abbia permesso a Microsoft di perseguire concretamente questa ricerca sulla superintelligenza, come ha dichiarato Suleyman a The Verge .

Microsoft ha investito oltre 13 miliardi di dollari nel laboratorio di ricerca sull’intelligenza artificiale e ne integra i modelli nei suoi vari prodotti grazie a una partnership pluriennale. Microsoft adotta lo stesso approccio anche per quanto riguarda i chip: li produce internamente e li acquista anche da fornitori esterni. Nel frattempo, la recente integrazione di Copilot con Claude Cowork di Anthropic mira a soddisfare la crescente domanda di agenti autonomi.

Continue Reading
Click to comment

Leave a Reply

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Tendenza