fbpx
Skip links

Voce e futuro: l’AI che parla e capisce il friulano

Il Friuli ha una voce. E oggi quella voce può essere ascoltata, compresa e restituita da sistemi di intelligenza artificiale progettati ad hoc per la nostra lingua.

Il progetto di riconoscimento (STT, Speech-to-Text) e di sintesi vocale (TTS, Text-to-Speech) in friulano nasce con una finalità chiara: rendere la lingua fruibile nei contesti digitali quotidiani, dalla scuola ai servizi pubblici, dall’inclusione all’accessibilità, e allo stesso tempo valorizzare il patrimonio linguistico con strumenti moderni, aperti e sostenibili.

L’obiettivo è mettere a disposizione modelli affidabili, documentati e adeguati agli standard, capaci di alimentare applicazioni reali: trascrizione del parlato negli eventi (pubblici o privati), sottotitolazione automatica di video, assistenti vocali, lettori di notizie, strumenti didattici, servizi per persone con disabilità uditive o visive.

Dalla visione al progetto: come abbiamo progettato l’ecosistema friulano

ARLeF (Agjenzie Regjonâl pe Lenghe Furlane) ha incaricato DITEDI di studiare e realizzare i sistemi di sintesi e riconoscimento della lingua friulana, mediante un accordo che si sta rinnovando negli anni.

Il percorso è stato impostato come un vero e proprio “ecosistema linguistico-tecnologico” che combina:

  • corpora di audio e di testi rappresentativi in friulano, anche nelle sue diverse varianti che lo rendono ancora più autentico
  • metodologie di addestramento e valutazione dei modelli (di machine learning e di IA), ripetibili e tracciabili
  • strumenti di validazione con metriche chiare e confrontabili nel tempo
  • prototipi applicativi per testare sul campo e misurare l’impatto

La progettazione ha previsto fasi iterative e incrementali (2023-2025) con una regia condivisa tra soggetti tecnici e istituzionali.

Abbiamo lavorato in modo modulare: prima definizione degli standard (formati, convenzioni ortografiche e pronuncia), poi messa a punto delle metodologie, quindi addestramento e test su casi d’uso reali.

Questo approccio ha permesso di far crescere i modelli mano a mano che aumentavano quantità e qualità dei dati.

Abbiamo beneficiato sia di linguisti esperti individuati da ARLeF e Sportel Furlan, sia di persone comuni che hanno più volte “prestato” la loro voce per incidere alcuni brevi audio o verificare il grado di riconoscimento del parlato, in occasione delle due edizioni del forum AI di Tavagnacco organizzato da DITEDI e di Eureka (fiera dedicata alle imprese culturali e creative a Pordenone).

Far “capire” il friulano alle macchine

Per il riconoscimento vocale l’attenzione si è concentrata su tre assi:

1. Qualità dei dati: segmentazione degli audio, normalizzazione dei testi, annotazioni coerenti (rumori, esitazioni, marcatori di punteggiatura), controllo dei metadati (parlante, contesto, dispositivo)

2. Robustezza del modello: addestramento su varietà di parlato (lettura, conversazione, parlato spontaneo), condizioni acustiche differenti (ambienti silenziosi e “rumorosi”), e dizionari/lessici aggiornati

3. Valutazione: uso di metriche riconosciute (CER/WER ovvero numero di caratteri e parole corretti di una frase rispetto al totale) su insiemi di test separati, con report comparabili tra rilasci successivi.

Il risultato è un modello che, pur continuando a migliorare, già oggi permette la trascrizione automatica con accuratezza crescente.

Questo abilita funzioni la trascrizione di registrazioni di eventi, dettatura e ricerca nei contenuti audio, e possibilmente tanto altro…

Dare una voce naturale al friulano

Per la sintesi vocale abbiamo lavorato sulla naturalezza e sulla coerenza prosodica, con una particolare attenzione a quelli che sono i “suoni” caratteristici (e unici) della lingua friulana… provare per credere: fate leggere “O ce biel cjiscjel a Udin, o ce biele zoventût!” a un non friulano…

Ci siamo quindi occupati di:

  • selezione di voci campione con dizione chiara e registrazioni in ambiente controllato
  • copertura fonetica bilanciata e testi di lettura calibrati per varietà lessicale e sintattica
  • cura dell’intonazione e dei legami tra pronuncia standard e uso vivo della lingua, così da ottenere una resa gradevole e riconoscibile.

Il percorso per il raggiungimento degli obiettivi è ancora significativo, ma le versioni più recenti dei prototipi TTS offrono una voce fluida, con ritmo e pause credibili, adatta sia alla lettura di brevi messaggi sia alla narrazione di testi più lunghi (articoli, guide, contenuti didattici).

La raccolta degli audio e i test “sul campo”: il banchetto al forum AI di DITEDI

Un tassello decisivo è stata la raccolta partecipata di audio e una prima interazione con parte di alcuni prototipi.

Al banchetto dell’Artificial Intellingence Forum di Tavagnacco organizzato da DITEDI, abbiamo invitato cittadine e cittadini ad effettuare brevi registrazioni in friulano, ognuno/a con la propria e tipica variante parlata nella vita quotidiana e a provare il riconoscimento in situazioni reali (rumore di fondo, parlato spontaneo).

Questa esperienza “a contatto con il pubblico” ha avuto un doppio effetto: da un lato ha arricchito il corpus con voci varie per età, area e timbro; dall’altro ha fornito segnali di qualità difficili da ottenere in laboratorio (pronunce, velocità di parlato, inflessioni).

I commenti raccolti hanno guidato alcune correzioni rapide, migliorando così sia il riconoscimento sia la sintesi.

Cosa cambia per utenti, scuole, istituzioni e imprese

Grazie ai modelli STT/TTS in friulano diventerà possibile:

  • trascrivere e ricercare velocemente contenuti audio-video
  • leggere ad alta voce testi e notizie in modo accessibile
  • creare assistenti vocali e interfacce conversazionali localizzate
  • sviluppare contenuti didattici e strumenti per l’apprendimento personalizzato
  • migliorare accessibilità e inclusione in eventi, uffici pubblici e servizi al cittadino

I prossimi passi prevedono l’ampliamento del corpus con ulteriori sessioni di raccolta e test aperti oltre all’affinamento dei modelli con nuove metriche.

Continueremo a lavorare in modo aperto e collaborativo, perché la tecnologia è uno strumento: la finalità è dare alla nostra comunità una voce digitale autorevole, naturale e presente nei luoghi in cui oggi si informa, studia e lavora.