sábado, 4 de junio de 2011

Identificación automática de la voz humana.

La tecnología de identificación de voz fue iniciada en la década de 1960,  desde entonces ha sido objeto de investigación y desarrollo agresivos para ponerla en la corriente principal. El reconocimiento de voz es una tecnología en rápido desarrollo, gracias a la disponibilidad del poder de cómputo barato o económico; los laboratorios espectrográficos y / o los sistemas informáticos de comparación de voz no producen resultados concluyentes, pero los hallazgos significativos son posibles con un cuidadoso análisis de las muestras recogidas del habla en condiciones forenses.
Los sistemas de identificación de voz requieren muestras de habla del sujeto. El ingreso de voz es comparado con una muestra almacenada del habla del sujeto; esta última se denomina registro de voz ó impresión de la voz. Una impresión de voz es un diagrama de densidad de frecuencia en función del tiempo. Los sistemas de reconocimiento de voz de las primeras épocas realizaban cotejos entre grupos de esos diagramas/gráficos. Si coincidían, entonces se identificaba a la persona.

Los sistemas modernos de identificación de voz, que tienen menores tasas de error [incluso en presencia de ruido], dependen en mayor medida de una técnica conocida como análisis de rasgos. Una característica es un elemento idiosincrásico de expresión, como una transición testigo entre fonemas con diferentes tonos. Estos no pueden ser fácilmente escuchados por los humanos, pero pueden ser identificados a través de análisis digital.
La identificación de voz es posible porque cada persona tiene un conjunto único de características de la voz y patrones del habla. Esta identificación extrae características específicas y únicas del habla de una persona, como el nivel, el tono, la cadencia, el nivel de armónicos y vibraciones en la laringe, y los almacena y utiliza para diferenciar la voz de esa persona de otras voces.
Un espectrógrafo de sonido analógico produce espectrogramas de voz excelentes, especialmente bajo condiciones de grabación ruidosa. Está siendo reemplazado rápidamente con software espectrográfico especializado.
El software especializado mencionado produce espectrogramas digitalmente calculados que se han optimizado para el habla y las comunidades forenses. Este software debe ser fácil de usar y permite al operador controlar todo el tiempo importante y las características de la frecuencia de la representación gráfica.
Actualmente se están desarrollando algoritmos forenses especializados de reconocimiento de voz, cuando esté completamente desarrollado, este software especializado, basado en computadoras, permitirá establecer comparaciones de voz automatizadas y / o con asistencia de operador, entre muestras de voz diferentes.
El software de edición permite que dos o más muestras de voz grabada sean aisladas de forma selectiva y combinadas en una nueva grabación.

La identificación del registro de voz se puede definir como una comparación combinada tanto auditiva como espectrográfica de una o más voces conocidas, con una voz desconocida, con el propósito de identificar o eliminar.
Desarrollada por los Laboratorios Bell en la década de 1940 con fines de inteligencia militar, la utilización forense moderna de la técnica no se inició hasta finales de 1960 tras su aprobación por la Policía Estatal de Michigan. Desde 1967 hasta la actualidad, más de 5.000 casos policiales relacionados con la identificación de voz han sido procesados por examinadores de registro de voz certificados.

La identificación de voz se ha utilizado en EE.UU en una variedad de casos criminales, incluyendo homicidio, violación, extorsión, tráfico de drogas, investigación de juego de apuestas,  corrupción política, blanqueo de dinero, evasión de impuestos, robo, amenazas de bomba, actividades terroristas y actividades del crimen organizado. Posee un rol forense más grande, conocido como análisis acústico, que consiste en el filtrado y mejora de cintas, su autenticación,  acústica de disparos de armas de fuego, reconstrucción de conversaciones y el análisis de cualquier otro evento/acontecimiento acústico cuestionado.
Teoría
La teoría fundamental para la identificación de voz se basa en la premisa de que cada voz es característica individual suficiente para distinguirla de otras a través del análisis del registro de voz. Hay dos factores generales que intervienen en el proceso del habla humana. El primer factor en la determinación de la singularidad de una voz radica en el tamaño de las cavidades vocales, como la garganta, cavidades nasales y orales, y la forma, longitud y tensión de las cuerdas vocales del individuo, localizadas en la laringe. Las cavidades son resonadores vocales, al igual que tubos de órgano, que refuerzan algunos de los armónicos producidos por las cuerdas vocales, que producen formatos o barras de registro de voz. La probabilidad de que dos personas tengan todas sus cavidades vocales del mismo tamaño y configuración y se acoplen de forma idéntica, parece muy remota.
El segundo factor en la determinación de la singularidad de la voz,  radica en la manera en que los articuladores o los músculos de expresión son manipulados durante el habla. Los articuladores incluyen los labios, dientes, lengua, paladar blando y músculos de la mandíbula, cuya interacción controlada produce el habla inteligible. Esta última se desarrolla por el proceso aleatorio de aprendizaje de imitar a otros que se están comunicando. La probabilidad de que dos personas puedan desarrollar patrones idénticos de sus articuladores también parece muy remota.
Por lo tanto, la probabilidad de que dos oradores tengan idénticas dimensiones de la cavidad vocal y configuraciones, junto con idénticos patrones de uso del articulador parece muy remota. Se han publicado varios estudios que acreditan la capacidad para identificar adecuadamente las voces en determinadas condiciones, y una encuesta de la Oficina Federal de Investigación (FBI) de su propio desempeño en el examen de 2.000 casos forenses revelaron una tasa de error de 0,31 por ciento para las identificaciones falsas, y 0,53 por ciento para las eliminaciones falsas. (Ver Koenig, BE, 1986, Identificación Espectrográfica de Identificación de la Voz: un estudio forense, Revista de la Sociedad Acústica de América, 79:2088-2090).
Si bien no hay acuerdo en la llamada "comunidad científica" en el grado de precisión con que los examinadores pueden identificar a los hablantes bajo todas las condiciones, hay acuerdo en que las voces pueden, de hecho, ser identificadas.
Para facilitar las comparaciones visuales de voces, se utiliza un espectrógrafo de sonido para analizar la forma de onda compleja en lo que se conoce como un espectrograma. El espectrograma muestra la señal de voz con el tiempo a lo largo del eje horizontal, la frecuencia en el eje vertical, y la amplitud relativa indicada por el grado de sombreado de color gris en la pantalla. La resonancia de la voz del orador se muestra en forma de impresiones de señal verticales o marcas de sonidos para las consonantes, y las barras horizontales o formantes para los sonidos de las vocales. Las configuraciones visibles que aparecen son características de la articulación que involucra al hablante que  produce las palabras y frases. Los espectrogramas sirven como un registro permanente de las palabras habladas y facilitan la comparación visual de palabras similares dichas por las voces entre personas conocidas y desconocidas.


No hay comentarios: