giovedì 11 gennaio 2018

Cos'è la voce artificiale? Riassunto finale

Per voce artificiale si intende un suono non prodotto dall'apparato fonatorio umano, ma da un apparecchio meccanico o elettronico in grado di ricrearlo verosimilmente.

Come è organizzato il blog?

Nella prima parte del blog l'argomento voce artificiale è stata sviluppata per scoprire quali sono i metodi per aiutare le persone e cosa crea questo suono. Si divide in quella prodotta interamente in laboratorio ricreando l'organo fonatorio e quella che, come ad esempio, viene prodotta da un laringofono oppure quella prodotta da un apparato fonatorio artificiale.

Mi sono concentrato sui problemi legati agli elementi e alla ricostruzione di organi fonatori e agli interventi che si possono fare con relativi apparecchi che hanno ridato alle persone la possibilità di parlare. Fino ai metodi alternativi del linguaggio.
La voce artificiale non si conosceva fino 1870 dove è stata fatta la prima laringectomia e solo successivamente si è evoluta sempre di più.

Come argomento centrale ho riportato i collegamenti di altre discipline che fanno uso della Voce/Sintesi vocale. Un settore oltre alla medicina e all'informatica è la musica in cui i sintetizzatori vocali sono molto usati e diffusi soprattutto nel genere Rap.

Il cinema è l'ultimo grande pilastro in cui troviamo ne troviamo un sostanziale uso, dalla voce dei robot, alla modifica della voce per la creazione di super-eroi.

Nella seconda parte del blog mi sono occupato delle sintesi vocali e i lori primi brevetti meccanici e brevetti elettronici partite dal 1780 e solo verso gli anni 30 hanno visto un radicale sviluppo fino alla NPL.

La seconda viene detta sintesi vocale, e si dividono in due insiemi:

Speech Synthesis (Text-to-speech) Il text to speech è un sistema di lettura di testi direttamente da                                                                               parte di un software che viene utilizzato dall'uso scolastico fino                                                                             alle ferrovie dello stato per le voci che annunciano l'arrivo dei                                                                                 treni.

Natural language processing Cos'è il natural language processing?  E' il processo di trattamento                                                                       automatico mediante un calcolatore elettronico delle informazioni                                                                         scritte o parlate in una lingua naturale.

Infine troviamo il Linguaggio di make up, in forma teoria, per entrare nel vivo della materia e dei linguaggi di settore con tesi di laureandi che approfondisco il discorso.

I sintetizzatori vocali hanno iniziato ad aiutare grazie alle loro capacita ai servizi statali e privati, alla scuola, e vuole entrare nell'istruzione generale come hanno intenzione di fare per wikipedia.

martedì 9 gennaio 2018

Abecedario voce artificiale con immagini

Abecedario Voce Artificiale


Brevetti dei sintetizzatori elettronici? Il primo è negli anni '50


I primi dispositivi meccanici per i sintetizzatori vocali ricreavano voci metalliche e soprattutto difficilmente comprensibili, i primi sistemi di sintesi vocale messi sul computer furono inseriti alla fine degli anni cinquanta.


Sintesi del parlato da segnali di codice (brevetto)
Nel 1961 i fisici John Larry Kelly, Jr e Louis Gertsman utilizzarono un computer IBM 704 per sintetizzare la voce. Questo esperimento rappresentò uno dei momenti salienti dell'attività dei Bell Labs: il vocoder di Kelly riprodusse la canzone Daisy Bell.

Il primo sistema di sintesi vocale text-to-speech completo venne realizzato nel 1968.




Primi brevetti dei sintetizzatori meccanici

Non si hanno brevetti sui primi Sintetizzatori vocali ma sono di dominio pubblico dove i diritti di copyright sono durati circa 70 anni, cioè la vita dei loro ideatori.

UN PEZZO DI STORIA? ECCO COME E' PARTITO TUTTO...
"La comprensione fisica delle onde sonore fu stabilita intorno al 1750 da Leonhard Euler e altri. Dal 1766 Euler tornò di nuovo all'Accademia delle Scienze a San Pietroburgo. In una lettera del 1773 egli pose la domanda su come il linguaggio potesse sorgere dal flusso d'aria attraverso le corde vocali e il tratto . Una domanda senza risposta era legata a quali qualità tonali caratterizzassero le diverse lettere quando pronunciate. Eulero ipotizzò che forse sarebbe possibile costruire un qualche tipo di strumento musicale che potesse produrre suoni simili e metterli insieme a parole comprensibili. Una possibilità era di costruire sulla vox humana esistente che poteva essere trovata in alcuni organi a canne. Il risultato sarebbe quindi un sintetizzatore vocale meccanico . Ha anche sottolineato che le vocali sarebbero di particolare importanza.

Kratzenstein aveva seguito questa discussione da quando era rimasto in contatto con Eulero e già dal 1770 aveva indagato sugli stessi problemi. Dai suoi libri di testo in fisica sperimentale è chiaro che ha una buona conoscenza della fisica che sta dietro al suono. Non era quindi così sorprendente che l'accademia di San Pietroburgo nel 1778 annunciò un nuovo problema con i premi proprio attorno a queste domande. La prima parte dovrebbe indagare le differenze tonali tra le cinque vocali A, E, I, O e U, mentre l'ultima parte ha chiesto un dispositivo che potrebbe generare questi suoni.


Due ance libere usate in un harmonium .
Alla valutazione finale da parte dell'Accademia nel 1780, fu l'organo vocale di Kratzenstein a ottenere il primo premio. Il suo contributo Tentamen resolvendi problema è stato pubblicato l'anno successivo. Consisteva in una prima parte che descrive come le vocali potevano essere prodotte nel tratto vocale . Il suo background medico è stato di grande aiuto. La seconda parte è stata la costruzione di un nuovo tipo di organo con tubi per ciascuna delle vocali. Ogni tubo aveva una caratteristica cavità risonante che dovrebbe emulare il tratto vocale per la corrispondente vocale. Per eccitare questi risonatori ha fatto uso di canne libere che a quel tempo erano poco conosciute.

Questo strumento è stato dimostrato a San Pietroburgo per la piena soddisfazione dell'Accademia, ma è stato danneggiato e scomparso poco dopo. Ma l'uso di canne libere in strumenti musicali divenne in seguito diffuso e oggi può essere trovato in armonica , fisarmonica , armonium e bandoneon . Non è noto come Kratzenstein abbia avuto l'idea di usarli, ma per lungo tempo sono stati una parte centrale dello sheng dello strumento musicale cinese ."






Successivamente il sintetizzatore di "Wolfgang von Kempelen" ha perfezionato la prima opera in grado di riprodurre solo vocali, aggiungendo le consonanti.

E' un dispositivo meccanico in grado di riprodurre l'elaborazione elettronica dei segnali. Questa macchina aggiungeva un modello delle labbra e della lingua consentendo così di sintetizzare oltre alle vocali anche le consonanti.









Negli anni trenta, i Bell Labs svilupparono il Vocoder, un analizzatore e sintetizzatore elettronico della voce comandato a tastiera con un risultato chiaramente intelligibile. Homer Dudley perfezionò ulteriormente questo apparecchio creando il VODER, di cui venne data una dimostrazione nel 1939 durante la Fiera Mondiale di New York


Sintesi vocale per Wikipedia? ci hanno già pensato... è in fase di lancio!



Wikipedia è diventato ormai il più grande centro di raccolta dati e di informazioni presenti sul mondo! Questa piattaforma ha più di 500 milioni di visualizzazioni a settimana, e sta cercando di far partire il suo nuovo progetto chiamato "Wiki-Speech".

L'obbiettivo è quello di dare la possibilità alle persone di ascoltare il testo al posto che leggerlo.
Una ricerca afferma che il 25% delle persone che ricerca su questo sito preferirebbe ascoltare che leggersi l'intera pagina.

Questa sarà una nuova sfida.. 
Si cerchera di crearlo open-source, in modo che tutti possano adoperarlo, e inoltre, lo si vorrebbe creare senza l'uso di un applicazione ausiliaria da scaricare ma disponibile già dalla pagina di Wiki.






Sintetizzatori vocali per i DSA

Scuola

Perché vengono vengono utilizzati per i dislessici, i disgrafici e i disortografici?

Semplice.. Per chi ha un disturbo da DSA, la fatica nello scrivere tutte le parole correte è alto, è difficile che le frasi siano collegate in modo correttoe soprattutto che siano collegate con la punteggiatura corretta, insomma hanno un enorme problema con l'italiano (DSA).

La sintesi vocale permette al bambino di riascoltare ciò che ha scritto cosi che si accorga degli errori e modificare il testo.



Glossario sintesi vocale

Cosa vuol dire Sintesi vocale ormai già lo sappiamo. Vedi

Esistono diverse tecniche per generare artificialmente la voce (SINTESI VOCALE):

I sistemi di sintesi articolatoria.
La sintesi per formanti.  
La sintesi per concatenazione di segmenti acustici.

Sintesi articolatoria: hanno l'intento di riprodurre il funzionamento dell’apparato fonatorio umano, creando un modello di come le attività cerebrali e muscolari producono la vocalizzazione.

Sintesi per formanti: insieme di filtri matematici governa direttamente i parametri acustici del segnale artificiale.

Sintesi concatenativa: sono frammenti acustici estratti da voce naturale che vengono archiviati in una base dati e poi selezionati e ricombinati per generare il suono corrispondente alle lettere scritte.


What does speech synthesis mean by now we already know. You see

There are several techniques to artificially generate the voice:

Systems of articulatory synthesis.
The synthesis for formants.
The synthesis by concatenation of acoustic segments.

Articulatory synthesis: they have the intent to reproduce the functioning of the human phonatory apparatus, creating a model of how the cerebral and muscular activities produce vocalization.

Formant synthesis: set of mathematical filters directly controls the acoustic parameters of the artificial signal.

Concatenative synthesis: they are acoustic fragments extracted from a natural voice that are stored a database and then selected and recombined to generate the sound corresponding to the written letters.


Qu'est-ce que la synthèse vocal signifie, nous le savons déjà. vue

Il existe plusieurs techniques pour générer artificiellement la voix:

Systèmes de synthèse articulatoire.
La synthèse pour les formants.
La synthèse par concaténation de segments acoustiques.

Synthèse articulatoire: ils ont l'intention de reproduire le fonctionnement de l'appareil phonatoire humain, en créant un modèle de la façon dont les activités cérébrales et musculaires produisent des vocalisations.

Forme de synthèse: l'ensemble des filtres mathématiques contrôle directement les paramètres acoustiques du signal artificiel.

Synthèse concaténative: ce sont des fragments acoustiques extraits d'une voix naturelle stockée dans une base de données.

Storie dell'industria della sintesi vocale.

Il primo sintetizzatore vocale è il voder, uno strumento realizzato presso i Bell Laboratories nel 1939.

Un altra storia?
Ancora una storia...


Successivamente l'evoluzione della sintesi vocale ha molto successo e arriva alla portata di tutti quando viene inserita nei sistemi operativi.

  • Apple fu la prima nel 1984 sui primi modelli Macintosh, ad integrare la sintesi vocale nel sistema operativo dei propri computer, con il software MacIntalk.
  • Microsoft Windows: impiegarono la sintesi vocale basata su SAPI4 e SAPI5 con il modulo di riconoscimento vocale nelle versioni di sistema operativo Windows 95 e Windows 98.
  • Gli home computer TI-99/4 e TI-99/4A prodotti da Texas Instruments nel 1979 e 1981 erano in grado di generare fonemi da testo o di recitare intere parole o frasi tramite una periferica di sintesi vocale molto diffusa. TI utilizzava un codec proprietario per inglobare intere frasi all'interno delle sue applicazioni come ad esempio i videogiochi.
  • Il sistema IBM OS/2 Warp 4 incorporava di serie VoiceType, precursore del successivo sviluppo ViaVoice.
  • Diverse compagnie hanno realizzato sistemi di sintesi vocale commerciali di tipo dedicato, tra di esse Acapela Group, AT&T, Cepstral, CereProc, DECtalk, IBM ViaVoice, IVONA TTS, Loquendo TTS, NeoSpeech, Nuance Communications, SVOX, Voce Viva TTS, Voice on the Go, Voxette e YAKiToMe.
  • Sistemi di sintesi vocale sono stati sviluppati in passato anche da altre compagnie oggi non più esistenti, tra le quali si ricordano BeST Speech (acquisita da Lernout & Hauspie), Eloquent Technology (acquisita da SpeechWorks) e Rhetorical Systems (acquisita da Nuance). In seguito anche Lernout & Haspie e Speechworks vennero a loro volta acquisite da Nuance, come pure la stessa Loquendo.



    Linguaggi di markup per sintesi vocali

    Wikipedia:

    Sono stati definiti alcuni linguaggi di markup per la resa del parlato utilizzando un formato di descrizione di tipo XML. Il più recente è l'SSML (Speech Synthesis Markup Language) che dal 2004 è una raccomandazione del W3C, arrivato alla versione 1.1 nel 2010 e integrato nel 2008 dal linguaggio PLS (Pronunciation Lexicon Specification) usato per specificare in modo formale le regole di pronuncia. Tra i linguaggi di markup più vecchi rientrano tra gli altri JSML (Java Speech Markup Language) e SABLE: nonostante fossero stati entrambi proposti come base per uno standard, nessuno di essi ha avuto in realtà un'ampia diffusione.

    I linguaggi di markup per la sintesi vocale non vanno confusi con i linguaggi di markup per i dialoghi: per esempio, VoiceXML oltre al markup per la conversione vocale prevede anche dei tag relativi al riconoscimento vocale, alla gestione dei dialoghi e alla composizione di numeri telefonici su comando vocale.

    Alcuni laureandi approfondiscono l'argomento:

    Tecnologie avanzate per la sintesi vocale dagli "Screen readers" alla "VoiceXML" Tesi

    Interprete VXML (Capitolo 5) Tesi 

    Ferrovie dello stato, GPS

    Chi non ha mai sentito palare Roberto?

    Già da più di 20 anni alcuni sistemi più evoluti usavano sistemi di sintesi vocali. La voce delle ferrovie dello stato "attenzione, allontanarsi dalla linea gialla!". Roberto!

    Questa voce che sentiamo non arriva da una persona ma da un Text-to-speech.

    Un programma che possiamo trovare on-line e fargli dire quello che vogliamo. Provalo!

    Ricordati di mettere la voce di Roberto





    GPS: Utilizzata anche per il sistema di navigazione. Dà informazioni vocali al guidatore per agevolarne la ricezione degli spostamenti che deve fare per arrivare a destinazione.

    Cos'è la voce artificiale? Riassunto finale

    Per voce artificiale si intende un suono non prodotto dall'apparato fonatorio umano, ma da un apparecchio meccanico o elettronico in gra...