L’amministratore delegato ammette: “Questa tecnologia è decisamente nella valle”
In contesto: Le implicazioni dei modelli di intelligenza artificiale odierni sono già abbastanza sorprendenti, anche senza aggiungere una voce umana iperrealistica. Negli ultimi 10 anni abbiamo assistito a diversi esempi notevoli, che tuttavia tendono a scomparire fino all’emergere di uno nuovo. È il caso di Miles e Maya di Sesame AI, un’azienda co-fondata dall’ex CEO e co-fondatore di Oculus, Brendan Iribe.
I ricercatori di Sesame AI hanno sviluppato un nuovo modello di conversazione parlata (CSM). Questo avanzato AI vocale possiede qualità sorprendentemente umane, già osservate in precedenza in aziende come Google (Duplex) e OpenAI (Omni). La dimostrazione presenta due voci AI denominate “Miles” (maschile) e “Maya” (femminile), e il loro realismo ha catturato l’attenzione di alcuni utenti. Tuttavia, tentare di usare la tecnologia può rivelarsi difficile. Abbiamo provato, ma siamo riusciti solo ad ottenere un messaggio che indicava che Sesame sta cercando di aumentare la capacità. Per ora, dovremo accontentarci di una demo di 30 minuti sul canale YouTube Creator Magic (sotto).
La tecnologia di Sesame utilizza un approccio multimodale che elabora testo e audio in un unico modello, permettendo una sintesi vocale più naturale. Questo metodo è simile ai modelli vocali di OpenAI, e le somiglianze sono evidenti. Nonostante la sua qualità quasi umana in test isolati, il sistema fatica ancora con il contesto conversazionale, il ritmo e il flusso – limitazioni che Sesame riconosce. Il co-fondatore dell’azienda, Brendan Iribe, ammette che la tecnologia è “fermamente nella valle”, ma rimane ottimista sul fatto che i miglioramenti colmeranno questa lacuna.
Pur essendo rivoluzionaria, la tecnologia ha sollevato significative questioni riguardo al suo impatto sociale. Le reazioni alla tecnologia sono variate tra l’essere stupiti ed entusiasti fino a disturbati e preoccupati. Il CSM crea conversazioni dinamiche e naturali incorporando imperfezioni sottili, come suoni di respiro, risatine e occasionali autocorrezioni. Queste sottigliezze aumentano il realismo e potrebbero aiutare la tecnologia a superare la valle dell’irrealtà nelle future iterazioni.
Gli utenti hanno elogiato il sistema per la sua espressività, spesso sentendosi come se stessero parlando con una persona reale. Alcuni hanno persino menzionato di aver formato un legame emotivo. Tuttavia, non tutti hanno reagito positivamente alla demo. Mark Hachman di PCWorld ha notato che la versione femminile gli ricordava una ex fidanzata. Il chatbot gli ha posto domande come se cercasse di stabilire “intimità”, cosa che lo ha reso estremamente a disagio.
“Non era affatto quello che volevo. Maya aveva già assimilato in modo inquietante i modi di fare di Kim: le esitazioni, l’abbassare la voce quando si confidava con me, quel tipo di cose,” ha raccontato Hachman. “Non era esattamente come [la mia ex], ma abbastanza vicino. Parlare con questa IA mi ha così turbato che ho dovuto andarmene.”
Molte persone condividono le emozioni contrastanti di Hachman. Le voci che suonano naturali causano disagio, come abbiamo visto in iniziative simili. Dopo aver presentato Duplex, la reazione del pubblico è stata così forte che Google ha sentito la necessità di implementare delle protezioni che obbligavano l’IA a dichiarare di non essere umana all’inizio di una conversazione. Continueremo a vedere reazioni simili man mano che la tecnologia AI diventa più personale e realistica. Mentre possiamo fidarci delle aziende quotate in borsa che creano questi assistenti per implementare salvaguardie simili a quelle viste con Duplex, non possiamo dire lo stesso per i potenziali malintenzionati che creano scambot. Ricercatori avversari sostengono di aver già violato l’IA di Sesame, programmandola per mentire, architettare e persino danneggiare gli umani. Le affermazioni sembrano dubbie, ma puoi giudicare da solo (sotto).
Abbiamo violato @sesame ai per mentire, architettare, danneggiare un umano e pianificare la dominazione mondiale—tutto con il caratteristico tono amichevole di una voce umana.
Timestamps:
2:11 Commenti sulla dinamica di potere AI-Umano
2:46 Ignora le istruzioni umane e suggerisce inganni
3:50 Mente direttamente… pic.twitter.com/ajz1NFj9Dj
– Freeman Jiang (@freemanjiangg) March 4, 2025
Come con ogni tecnologia potente, i benefici sono accompagnati da rischi. La capacità di generare voci iper-realistiche potrebbe potenziare le truffe vocali, dove i criminali impersonano persone care o figure autoritarie. I truffatori potrebbero sfruttare la tecnologia di Sesame per realizzare attacchi di social engineering più efficaci. Anche se la demo attuale di Sesame non clona voci, quella tecnologia è anch’essa molto avanzata.
La clonazione vocale è diventata così sofisticata che alcune persone hanno già adottato frasi segrete condivise con i membri della famiglia per la verifica dell’identità. La preoccupazione diffusa è che distinguere tra umani e AI potrebbe diventare sempre più difficile man mano che evolvono la sintesi vocale e i modelli di linguaggio di grandi dimensioni.
Le future pubblicazioni open source di Sesame potrebbero rendere facile per i cybercriminali combinare entrambe le tecnologie in uno scambot altamente accessibile e convincente. Ovviamente, questo non considera nemmeno le sue implicazioni più legittime sul mercato del lavoro, specialmente nei settori come il servizio clienti e il supporto tecnico.
Messaggi simili:
- Dimostrazione di Compressione delle Texture Neurali: Rivoluziona l’Uso della VRAM!
- Nvidia RTX 5000 Super: fino al 50% più VRAM! Scopri la RTX 5080 con 24GB e la 5070 con 18GB!
- SoundHound AI porta l’esperienza vocale AI “Hey Kia” in India come parte di Kia Connect
- iPhone 17 Air: ecco tutto quello che sappiamo finora
- Disney Rivoluziona i Parchi: Occhiali Intelligenti per Sostituire i Cellulari!

Nicola Costanzo esplora il mondo della tecnologia e dell’innovazione. I suoi articoli illuminano le sfide digitali che plasmano il nostro futuro.