15/05/2026
𝐋’𝐚𝐮𝐝𝐢𝐨 𝐟𝐨𝐫𝐞𝐧𝐬𝐞 𝐞 𝐢𝐥 𝐩𝐞𝐫𝐢𝐜𝐨𝐥𝐨 𝐝𝐢 𝐬𝐞𝐧𝐭𝐢𝐫𝐞 𝐭𝐫𝐨𝐩𝐩𝐨: 𝐢𝐥 𝐜𝐨𝐧𝐟𝐢𝐧𝐞 𝐢𝐧𝐯𝐢𝐬𝐢𝐛𝐢𝐥𝐞 𝐭𝐫𝐚 𝐩𝐞𝐫𝐜𝐞𝐳𝐢𝐨𝐧𝐞 𝐞 𝐜𝐨𝐫𝐫𝐞𝐭𝐭𝐚 𝐢𝐧𝐭𝐞𝐫𝐩𝐫𝐞𝐭𝐚𝐳𝐢𝐨𝐧𝐞.
Ci sono registrazioni che, appena ascoltate, restituiscono immediatamente un significato semantico e prosodico chiaro e rispondente a quanto realmente il parlatore intendeva far comprendere. Le parole emergono dal rumore senza sforzo apparente e le frasi si concatenano con naturalezza facendo sì che il cervello umano riesca a trasformare il segnale acustico in linguaggio quasi istantaneamente. Esistono però anche registrazioni profondamente diverse, nelle quali il parlato convive con situazioni di degrado acustico quali ad esempio rumori ambientali, riverberi, sovrapposizioni vocali, distorsioni di codifica, saturazioni o, semplicemente, con un rapporto segnale/rumore talmente basso da rendere estremamente fragile il contenuto informativo disponibile; proprio in questo territorio ambiguo l’audio forense affronta uno dei suoi problemi scientifici più delicati: l’intelligibilità del parlato.
In ambito di audio forensics il problema non consiste soltanto nello stabilire se una voce sia presente all’interno di una registrazione e chi sia il parlante, ma anche nel comprendere se il segnale della registrazione possieda realmente un contenuto linguistico sufficientemente affidabile da poter essere trascritto senza l’introduzione di interpretazioni soggettive. Giovanni Costantini, Andrea Paoloni e Massimiliano Todisco, in uno studio dedicato proprio alla valutazione dell’intelligibilità del parlato, ricordano che “nelle applicazioni forensi è fondamentale che il significato delle frasi e dei nomi citati rifletta effettivamente ciò che è stato detto dai parlanti piuttosto che le opinioni dei trascrittori” (Paoloni, Costantini et al., 2011). La frase appare semplice soltanto in apparenza, perché racchiude un problema enorme: quando il segnale acustico degrada oltre una certa soglia, il rischio non è più soltanto quello di non comprendere il parlato, ma quello di attribuirgli un contenuto che potrebbe non essere realmente presente.
La psicoacustica e la linguistica sperimentale, attraverso numerosissimi studi pubblicati negli ultimi 30 anni, hanno dimostrato che la comprensione del parlato non è un processo puramente “passivo” in quanto il cervello umano (attraverso l’apparato uditivo che agisce da trasduttore biologico) non si limita a ricevere mere informazioni acustiche sotto forma di segnali bioelettrici, bensì le interpreta continuamente utilizzando aspettative, contesto, esperienza linguistica e meccanismi predittivi. Richard Warren dimostrò già nel 1970 il celebre “phonemic restoration effect”, osservando che l’ascoltatore tende a ricostruire automaticamente fonemi mascherati dal rumore quando il contesto semantico suggerisce una possibile soluzione (Warren, 1970); in altre parole, il cervello non tollera facilmente il vuoto informativo e tende spontaneamente a completare ciò che manca.
Un aspetto spesso sottovalutato riguarda, inoltre, la differenza tra qualità percepita e intelligibilità reale: un segnale può apparire “più pulito”, più forte o meno rumoroso senza che questo comporti un reale incremento della quantità di informazione linguistica disponibile. La stessa letteratura scientifica distingue chiaramente tra “naturalness”, “quality” e “intelligibility”, evidenziando come un miglioramento della gradevolezza dell’ascolto non coincida necessariamente con una migliore comprensione del contenuto verbale (Paoloni, Costantini et al., 2013); quest’ultimo aspetto assume particolare rilevanza nelle applicazioni forensi dove anche minime alterazioni percettive possono modificare il modo in cui il cervello interpreta segmenti vocali ambigui.
La percezione del parlato, infatti, non dipende esclusivamente dalle caratteristiche fisiche del segnale acustico ma anche dalle condizioni cognitive dell’ascoltatore. Helen Fraser e collaboratori osservano che l’intelligibilità non può essere considerata una proprietà assoluta della registrazione poiché qualunque valutazione percettiva richiede implicitamente di chiedersi “quale ascoltatore?” e “in quali condizioni di ascolto?” (Fraser et al., 2024). In buona sostanza l’esperienza linguistica, le aspettative contestuali, la conoscenza preventiva del contenuto e perfino il semplice suggerimento di una possibile frase possono alterare profondamente ciò che l’ascoltatore ritiene di percepire.
Proprio per questa ragione la trascrizione preventiva di un audio degradato rappresenta uno degli elementi più delicati dell’intero processo interpretativo; Fraser descrive questo fenomeno come “contextual priming”, ossia una forma di orientamento cognitivo capace di guidare inconsapevolmente l’ascoltatore verso specifiche interpretazioni linguistiche (Fraser & Stevenson, 2014): una volta che il cervello riceve un’ipotesi semantica plausibile, tende spontaneamente a ricercarla all’interno del rumore aumentando progressivamente la sensazione soggettiva di chiarezza anche quando il segnale rimane fortemente ambiguo.
Il fenomeno descritto assume implicazioni enormi quando viene applicato a registrazioni degradate utilizzate come prova in ambito giudiziario. Un recente lavoro pubblicato sul Journal of the Audio Engineering Society da Helen Fraser e collaboratori sottolinea come l’audio enhancement forense possa addirittura produrre “the undesired opposite effect”, aumentando la credibilità percepita di trascrizioni inaccurate (Fraser et al., 2024). Gli autori osservano, inoltre, che una trascrizione fornita preventivamente all’ascoltatore agisce come un potente meccanismo di “priming” cognitivo, inducendo il cervello a percepire parole che potrebbero non essere realmente contenute nel segnale acustico. Il passaggio più inquietante dello studio afferma che una registrazione degradata possiede “the potential to sound clearly like something it is not” (Fraser et al., 2024): il problema dell’audio forense rumoroso, quindi, non riguarda soltanto la sua incomprensibilità ma anche la possibilità di percepire con apparente chiarezza contenuti inesistenti.
Gran parte delle difficoltà nascono da un insufficiente valore del rapporto segnale/rumore (indicato comunemente con la sigla SNR (Signal-to-Noise Ratio): quando il rumore compete energeticamente con il parlato alcune componenti spettrali della voce vengono progressivamente mascherate. Le consonanti, che trasportano una parte enorme dell’informazione linguistica risultano essere particolarmente vulnerabili a questo fenomeno. Già Miller e Nicely nel 1955 mostrarono sperimentalmente come la degradazione dell’SNR produca un aumento drastico degli errori percettivi consonantici. La voce continua a essere “udibile” ma la comprensione linguistica collassa molto più rapidamente della semplice percezione sonora.
Il problema diventa ancora più complesso in presenza di rumori non stazionari, riverbero e sovrapposizioni vocali. Costantini e colleghi, utilizzando corpora sperimentali costruiti appositamente per simulare scenari realistici di intercettazione, dimostrarono che per mantenere livelli di intelligibilità superiori all’80% è generalmente necessario un rapporto parlato/rumore superiore a circa 7.5 dB richiamando i dati ISO/TR 4870:1991 (Costantini et al., 2013). Al diminuire di questo rapporto l’intelligibilità degrada rapidamente e le trascrizioni divergenti diventano progressivamente più probabili.
A questo punto entra in gioco un altro equivoco estremamente diffuso: l’idea che i sistemi di miglioramento audio, comunemente chiamati “sistemi di filtraggio”, siano in grado di “recuperare” automaticamente il contenuto perduto. In realtà il concetto stesso di speech enhancement è molto più delicato di quanto comunemente si creda. James Zjalic, in una tesi dedicata ai framework di audio enhancement forense, ricorda che ogni elaborazione modifica il segnale secondo algoritmi specifici e che la sequenza dei processi di elaborazione del segnale produce effetti cumulativi sul risultato finale (Zjalic, 2017).
Riduzione del rumore, equalizzazione, de-reverberazione e filtraggi spettrali adattivi possono certamente migliorare la gradevolezza percepita dell’ascolto, ma non esiste alcuna garanzia che questo comporti un reale incremento dell’informazione linguistica disponibile in contesti di segnale fortemente degradato, anzi, diversi studi dimostrano esattamente il contrario. Paoloni, Costantini e colleghi riportano che alcuni algoritmi di soppressione del rumore non soltanto non migliorano l’intelligibilità ma possono addirittura peggiorarla sensibilmente (Paoloni, Costantini et al., 2013). In uno degli esperimenti descritti nello studio, un segnale inizialmente associato a un’intelligibilità vicina al 90% è stato degradato fino a circa il 50% dopo l’applicazione di specifici processi di de-enhancement. Anche Hu e Loizou, in uno studio comparativo sugli algoritmi di speech enhancement, evidenziarono come il miglioramento della qualità soggettiva non coincida necessariamente con il miglioramento dell’intelligibilità reale (Hu & Loizou, 2007).
Il punto centrale è che il filtraggio audio non crea informazione nuova; esso può certamente, se correttamente eseguito, enfatizzare componenti già presenti, attenuare mascheramenti dominanti o aumentare il contrasto percettivo ma, contemporaneamente, può alterare transizioni fonetiche, introdurre artefatti spettrali o modificare l’equilibrio tra componenti vocaliche e consonantiche. Quando il contenuto originario è estremamente degradato il rischio che il cervello interpreti tali alterazioni come parole coerenti con le aspettative contestuali diventa piuttosto concreto.
La moderna audio forensics si trova quindi davanti a un problema profondamente diverso rispetto a quello immaginato dall’immaginario cinematografico e televisivo: nella realtà scientifica, invece, esistono limiti fisici e informativi oltre i quali il segnale originario non possiede più dati sufficienti per sostenere interpretazioni linguistiche affidabili. Lo stesso gruppo di Fraser ricorda come molte aspettative nutrite dai tribunali nei confronti delle applicazioni di audio enhancement derivino da una percezione irrealistica delle effettive capacità tecnologiche dell’elaborazione audio forense (Fraser et al., 2024).
Quando il contenuto linguistico residuo diventa troppo fragile il rischio non consiste più soltanto nell’errore di trascrizione ma si concretizza nella costruzione involontaria di una narrazione percettiva coerente con aspettative, ipotesi investigative o con suggestioni contestuali; in queste condizioni il confine tra ciò che il segnale contiene realmente e ciò che il cervello ritiene di percepire può diventare estremamente sottile e alquanto pericoloso.
Per queste ragioni le moderne linee guida forensi insistono sempre più sulla necessità di approcci validati, prudenti e metodologicamente trasparenti. L’ENFSI, la SWGDE e numerosi lavori scientifici recenti sottolineano l’importanza di rappresentare non soltanto ciò che un’analisi sembra mostrare, ma anche i limiti intrinseci del segnale e dell’elaborazione applicata.
La moderna scienza forense non può fondarsi sull’impressione soggettiva del “mi sembra di sentire”, ma deve confrontarsi con misurazioni, validazione sperimentale e consapevolezza dell’esistenza di possibili bias cognitivi.
In fondo, il vero problema legato a questi aspetti dell’audio forense nei segnali degradati non riguarda semplicemente il rumore, bensì il modo in cui il cervello umano tenta disperatamente di dare un significato a informazioni incomplete ed è proprio in quello spazio ambiguo, sospeso tra percezione e interpretazione, che la prudenza metodologica diventa una necessità scientifica.
Per i più curiosi:
• Costantini G., Paoloni A., Todisco M. (2013). “Objective Evaluation of the Speech Intelligibility in Forensic Applications.” Proceedings of the International Conference on Acoustics, Speech and Signal Processing (ICASSP).
• Paoloni A., Zavattaro D. "Intercettazioni telefoniche e ambientali. Metodi, limiti e sviluppi nella trascrizione e verbalizzazione". Centro Scientifico Editore (2007).
• Fraser H., Aubanel V., Maher R.C., et al. (2024). “Forensic Speech Enhancement: Toward Reliable Handling of Poor-Quality Speech Recordings Used as Evidence in Criminal Trials.” Journal of the Audio Engineering Society, 72(11), 748–753.
• Fraser H., Stevenson B. (2014). “The Power and Persistence of Contextual Priming: More Risks in Using Police Transcripts to Aid Jurors’ Perception of Poor Quality Covert Recordings.” International Journal of Evidence & Proof, 18(3), 205–229.
• Warren R.M. (1970). “Perceptual Restoration of Missing Speech Sounds.” Science, 167(3917), 392–393.
• Miller G.A., Nicely P.E. (1955). “An Analysis of Perceptual Confusions Among Some English Consonants.” Journal of the Acoustical Society of America, 27(2), 338–352.
• Hu Y., Loizou P.C. (2007). “Subjective Comparison and Evaluation of Speech Enhancement Algorithms.” Speech Communication, 49(7–8), 588–601.
• Zjalic J. (2021). Digital Audio Forensics Fundamentals: From Capture to Courtroom. Routledge.
• SWGDE (2023). “Best Practices for the Enhancement of Digital Audio.” Scientific Working Group on Digital Evidence.
• ENFSI Forensic Speech and Audio Analysis Working Group. Best Practice Guidelines for Forensic Speech and Audio Analysis.