jueves, 26 junio, 2025

Rita Singh

Científica experta en análisis de voz y biometría, y profesora en la Universidad Carnegie Mellon ha liderado el desarrollo de tecnologías que utilizan inteligencia artificial para analizar la voz, mostrando que puede ser un biomarcador más revelador que las huellas dactilares o el ADN.

Por Mauro Arancibia/Nicolás Fernández

Inicios en la Biometría de Voz: ¿Qué te motivó inicialmente a explorar el campo de la biometría de voz y qué oportunidades viste en esta área de investigación?

    Es toda una historia. Si no hubiera sido por la participación de la Guardia Costera de EE.UU., quizás nunca me habría aventurado en esta notable área de investigación.

    En la Universidad Carnegie Mellon, hemos sido reconocidos por mucho tiempo por nuestro trabajo de vanguardia en procesamiento de voz y audio. Algunas de las tecnologías fundamentales en estos campos se desarrollaron justo aquí. Para 2014, había pasado casi dos décadas trabajando en reconocimiento automático de voz, estudiando la voz humana de cerca para entender cómo podía diseñar algoritmos que permitieran a las máquinas entender su contenido con mayor precisión. A pesar de esto, nunca se me ocurrió abordar el problema del perfilado humano, hasta un día en diciembre de 2014.

    Ese día, el 5 de diciembre de 2014, recibí un conjunto de grabaciones en mi escritorio, acompañadas de una solicitud para extraer cualquier percepción que pudiera. Estas grabaciones no eran ordinarias: eran llamadas de auxilio desesperadas: «¡Mayday, Mayday, ayúdame!» o «¡Mi barco se está hundiendo!» Algunas no eran más que un repetido «Mayday». Cuanto más escuchaba, más claro se hacía que todas eran llamadas falsas. La voz en cada una pertenecía a la misma persona.

    Verás, cualquiera con acceso a un radio VHF puede transmitir por el Canal 16, reservado exclusivamente para emergencias que amenazan la vida. Cuando la Guardia Costera recibe una llamada de socorro, deben iniciar una misión de búsqueda y rescate. Esto significa desplegar barcos, helicópteros y personal altamente capacitado para escudriñar potencialmente cientos de millas cuadradas de océano en busca de un barco en apuros. Pero en estos casos, no había barco. No había emergencia. Eran bromas crueles, perpetradas por alguien que obtenía algún tipo de satisfacción retorcida al ver a la Guardia Costera actuar en respuesta.

    Estas llamadas no son solo molestias; son peligrosas. Si se hacen durante una tormenta en el mar, por ejemplo, ponen en grave peligro la vida de los rescatistas. Desperdician recursos valiosos y pueden retrasar la ayuda para aquellos que realmente están en peligro. Las consecuencias a veces pueden ser fatales. Hacer tales llamadas es un delito federal, punible con multas elevadas y largas penas de prisión.

    Durante varios meses en 2014, esta persona siguió realizando estas llamadas falsas. La Guardia Costera, desesperada por detenerlo, envió las grabaciones a uno de los Centros de Excelencia del DHS alojados en la Universidad de Rutgers —específicamente el Centro de Comando, Control e Interoperabilidad para Análisis Avanzado de Datos (CCICADA). Fred Roberts en Rutgers y Eduard Hovy en Carnegie Mellon codirigieron el centro. Reconociendo la complejidad del desafío, enviaron las grabaciones a mí.

    Así que ahí estaba yo, mirando estas llamadas de auxilio de un bromista anónimo, encargado de descubrir cualquier cosa que pudiera ayudar a la Guardia Costera a encontrarlo. A primera vista, el contenido lingüístico parecía inútil. Cualquiera podía identificarlo como una llamada de auxilio; no me necesitaban para eso. Pero cuando dirigí mi atención a la voz misma, y al audio ambiente que la rodeaba, me asombró cuánto podía inferir.

    Años de lectura y trabajo en reconocimiento de voz en entornos ruidosos y estudio de los matices de la voz humana, me habían enseñado cómo destilar información de los elementos más sutiles de una señal de audio. Desde mi trabajo anterior, también tenía la tecnología para procesar, extraer y aislar información crítica incrustada dentro de las ondas sonoras. Poco a poco, comencé a construir un perfil del llamador: su altura, peso, edad, etnia, ubicación en el momento de hablar, etc. Deduje que no estaba llamando desde el mar, sino desde una ubicación estática, probablemente desde tierra. Podía decir en qué tipo de recinto estaba, qué tipo de equipo usaba y mucho más.

    La Guardia Costera encontró esta información invaluable. Todo resultó ser preciso, y a través de este trabajo, yo, y ellos, comenzamos a entender el inmenso potencial del perfilado de voz para las agencias de aplicación de la ley y seguridad. Pero en el proceso de este análisis también me di cuenta de cuánta más investigación se necesitaba para refinar y automatizar esta tecnología. Aunque no era desconocido que la voz está correlacionada con muchos parámetros humanos, no había una premisa unificadora sobre la cual construir esta ciencia. Más de 400 revistas científicas de más de 30 campos informaron observaciones sobre el habla humana en la literatura científica, pero los puntos no estaban conectados, ni había un hilo que los conectara.

    El perfilado humano a partir de su voz, en mi opinión, era una ciencia en sí misma. La voz humana es tan compleja, tan singularmente estratificada, que desentrañar sus misterios y complejidades requeriría años de investigación dedicada.

    Y así es como todo comenzó. Este incidente no solo cambió la trayectoria de mi carrera, sino que también abrió la puerta a una nueva era en la biometría de voz donde la voz humana se convierte no solo en una herramienta de comunicación, sino en una ventana hacia la esencia misma de una persona.

    Fundamentos de la Información Confiable de la Voz: ¿Cuáles son las bases para asegurar que la voz pueda transmitir información confiable sobre las características físicas del hablante, estados emocionales, alteraciones conductuales o condiciones de salud?

      La producción de la voz es un proceso extremadamente complejo. Es tanto un proceso biomecánico como cognitivo. El proceso mismo involucra la interacción intrincada de cientos de factores; es tan detallado que la menor influencia en el cuerpo y mente humanos lo perturba, dejando una firma hipotéticamente medible en la señal de voz. Muchos parámetros biológicos y ambientales modulan la voz, desde las dimensiones del tracto vocal y la elasticidad de las cuerdas vocales hasta la frecuencia cardíaca, la presión arterial e incluso la exposición a contaminantes. La clave está en descubrir estas firmas a menudo sutiles e imperceptibles incrustadas dentro de la señal de voz.

      Debido al enorme número de parámetros que juegan un papel en su producción, no hay dos voces en el mundo iguales. Esto abre la posibilidad de que la voz sea tanto un identificador (un biométrico) como un descriptor del hablante. Como identificador, la voz es potencialmente tan única como el ADN y las huellas dactilares. Como descriptor, la voz es más reveladora que el ADN o las huellas dactilares. Lleva información que puede vincularse con las características físicas, fisiológicas, demográficas, médicas, ambientales y otras características bio-relevantes actuales (en referencia al momento de la producción) del hablante.

      La ciencia del perfilado humano a partir de la voz se basa en la hipótesis de que si cualquier factor influye en la mente o el cuerpo humano, y si existe una vía biológica entre esa influencia y el mecanismo de producción de la voz, entonces debe existir un efecto en la voz. El desafío radica en descubrir y cuantificar estos efectos. Para esto, utilizamos múltiples enfoques, incluido el análisis por síntesis que utiliza modelos matemáticos para recrear el movimiento de las cuerdas vocales y estudia las soluciones a estos modelos, mecanismos basados en IA que están diseñados y diseñados para descubrir las firmas de cualquier factor que perturbe o influya en la producción de la voz, enfoques de aprendizaje automático que utilizan datos para aprender correlaciones entre la voz y varios parámetros del hablante, enfoques impulsados por el conocimiento que analizan la señal de voz desde la perspectiva de la teoría de la información, el procesamiento de señales, etc.

      Desde la hipótesis hasta el algoritmo hay un largo camino. Los avances recientes incluyen ser capaces de deducir el movimiento de las cuerdas vocales durante la fonación a través de modelos matemáticos que operan sobre señales de voz grabadas, recreando la cara humana a partir de la voz en vacío, mecanismos para el descubrimiento de biomarcadores, para la reconstrucción de diferentes aspectos de la forma física humana en 3D a partir de la voz, y mucho más. Nuestro trabajo está lleno de triunfos y plagado de desafíos, muchos de los cuales siguen sin resolverse.

      Principales Diferencias en el Perfilado Biométrico: ¿Cuáles son las principales diferencias entre el perfilado biométrico y otros métodos de captura de características físicas, cambios conductuales o alteraciones en humanos en términos de costos, tiempo, disponibilidad, fiabilidad, etc.?

        El perfilado biométrico, principalmente usando la voz, presenta ventajas en términos de costo y disponibilidad. Los datos de voz pueden capturarse de manera remota y no invasiva utilizando dispositivos como smartphones, lo que lo hace mucho más asequible y accesible que métodos que requieren equipo especializado o presencia física, como escaneos por resonancia magnética o análisis de sangre. El análisis de voz también puede realizarse en tiempo real, proporcionando percepciones inmediatas sobre el estado del hablante, a diferencia de métodos que requieren una recolección de muestras más engorrosa y análisis de laboratorio.

        Validación Científica: ¿Cómo aseguras que los métodos desarrollados en tu laboratorio son científicamente válidos y fiables, por ejemplo, para su uso en entornos forenses?

          Trabajamos con datos del mundo real y utilizamos enfoques científicos probados para establecer la validez de nuestros métodos. Nuestro trabajo está fundamentado en marcos teóricos sólidos, basados en principios científicos establecidos de producción de voz, acústica y las influencias conocidas de varios parámetros humanos en las características de la voz. Este proceso involucra documentar la metodología en detalle muy fino, asegurando la transparencia y replicabilidad de los procedimientos y algoritmos utilizados. Validamos nuestros modelos y métodos probándolos en conjuntos de datos diversos para evaluar su precisión, exactitud y generalización. Proporcionamos medidas de fiabilidad y de falta de fiabilidad en nuestras comunicaciones científicas. Nuestros esfuerzos incluyen abordar posibles sesgos y tener en cuenta la variabilidad vocal inherente entre las poblaciones humanas. Para usos forenses, dependiendo del caso, también debemos asegurar que los métodos cumplan con los criterios de Daubert para la admisibilidad en corte.

          Impacto de los Hallazgos: Desde tu perspectiva, ¿cuál ha sido el impacto más significativo de tu investigación en las comunidades científica y legal hasta la fecha? 

            El mundo ha despertado a las posibilidades del perfilado de voz, y también a las serias amenazas que representa la capacidad de esta tecnología para invadir la privacidad de una persona. La voz es un biométrico tan potente como el ADN, pero mientras que uno puede elegir no proporcionar su ADN a otros, es imposible no hablar en absoluto. Una vez que hablamos, la información que revelamos a través del medio de la voz puede invadir seriamente nuestra privacidad. Con la proliferación de dispositivos de grabación en estos días, y la facilidad con la que cualquiera puede grabar voces, es imposible proteger la privacidad y la identidad de uno. La voz no puede ser desidentificada sin cambiar completamente su correlación perceptual con el hablante. En ese punto, no sonará como la voz del hablante. Las comunidades legales en Estados Unidos están en el proceso de definir qué constituye una huella de voz, para facilitar la legislación sobre tal invasión de la privacidad.

            Aplicaciones Prácticas: ¿Podrías compartir tus opiniones sobre qué industrias utilizan actualmente estas tecnologías y dónde ves oportunidades para su uso? ¿Cuál es tu conexión con Chile? 

              Aquí en Chile, colaboro con SCANVOX y Merlin  Research. Estamos investigando juntos y tenemos acuerdos que involucran a ellos y al Centro de Inteligencia y Seguridad de la Voz (CVIS). Es estimulante. En cierto sentido, el perfilado de voz ha sido utilizado indirectamente por la industria del entretenimiento durante décadas. La naturaleza y significancia de la voz para los personajes representados en películas, dramas, música y ópera es bien conocida. Los artistas de voz en off intentan renderizar la «voz» de un personaje, destilando la esencia de la personalidad del personaje en su voz. Esto probablemente será la mayor adopción de la industria y generador de ingresos para la ciencia del perfilado de voz en el futuro. Otras áreas de adopción están creciendo. Las agencias de aplicación de la ley y seguridad se benefician enormemente de los perfiles de posibles perpetradores obtenidos de muestras de voz que son evidencia en crímenes. Estos van desde abuso infantil hasta asesinato y llamadas de broma. El perfilado de voz puede apoyar sistemas de identificación de hablantes mucho más avanzados, potencialmente asistiendo en el control de fronteras y otras áreas de aplicación en seguridad. La voz puede ser utilizada para monitorear a las personas por fatiga en el trabajo, respuesta a situaciones estresantes, problemas de salud inminentes, etc. La industria bancaria y financiera está comenzando a utilizar el perfilado de voz para fortalecer su seguridad y escrutinio de clientes en escenarios de banca telefónica. Los minoristas están investigando cómo proporcionar un servicio al cliente más efectivo monitoreando las llamadas de los clientes para intervenciones adecuadas, etc. El perfilado de voz puede personalizar interacciones en el campo de educación, donde también podría ayudar a evaluar las interacciones entre estudiantes y profesores para brindar una mejor asistencia a los estudiantes.

              Futuro de la Tecnología de Voz: ¿Cómo ves el futuro de la tecnología de perfilado de voz en los próximos años y en qué industrias esperas el impacto más significativo? Hay muchas, pero mencionaré tres:

                • Salud: Casi todo lo que afecta tu salud física y mental influye en tu voz. La voz está siendo cada vez más reconocida como un biomarcador potente para muchas condiciones médicas.
                • Detección temprana: Para muchas condiciones serias y potencialmente mortales como Parkinson, demencia, ALS, etc., la intervención temprana puede ayudar mucho, y la voz podría ser utilizada para la detección temprana de tales condiciones serias. Las firmas de muchas condiciones graves a menudo aparecen en la voz mucho antes de que se manifiesten física o mentalmente lo suficiente como para ser diagnosticadas clínicamente.
                • Telemedicina: Hay tantas personas en el mundo hoy que no tienen acceso a médicos. Podrías monitorear la salud de las personas por teléfono, las máquinas podrían advertirles, darles la oportunidad de obtener ayuda temprana, pueden ayudar a las personas mayores que viven solas,
                • Intervención más profunda: puede ayudar a los humanos a recuperarse o afrontar situaciones graves entendiendo lo que les sucede a niveles mucho más finos de lo que los humanos pueden. Me hace pensar en los rayos X. Cuando pudimos usar rayos X para ver dentro del cuerpo, se abrieron tantas posibilidades. Su potencial diagnóstico sigue salvando millones de vidas. Creo que el uso de la voz también puede salvar millones de vidas en el futuro.

                ADVERTENCIA: Aún debe establecerse si puede ser utilizado como una herramienta de diagnóstico independiente. Ciertamente puede ser utilizado como una herramienta de apoyo y para la medicina preventiva, la telemedicina para personas que no tienen acceso fácil a instalaciones médicas, para monitorear la salud de veteranos, niños, etc. Es no invasivo y fácilmente obtenido de manera remota, y por lo tanto puede ser una herramienta muy útil para la atención sanitaria.

                spot_img