Resumen
El principal interés en el estudio de sistemas de reconocimiento de voz es
proveer una forma más natural de interacción humano-computadora. Para este
modelo de interacción se pretende la creación de interfaces centradas en las
necesidades del usuario aprovechando una de las habilidades que tiene el
humano para comunicarse: el habla.
El objetivo principal de estas investigaciones es hacer una descripción de los
sistemas de reconocimiento del lenguaje hablado capaces de reconocer voz de
manera espontánea, continua y sin restricciones.
El paso de un tipo de representación a otra no está exento de dificultades, dada
la naturaleza variable de la onda sonora que producimos al hablar. Por una
parte, una misma unidad lingüística por ejemplo un fonema no tiene idéntica
manifestación sonora en todos los contextos en que puede aparecer y, a su
vez, en un determinado segmento de la onda sonora se encuentra información
acústica correspondiente a más de una unidad lingüística. Por otra parte, cada
hablante posee características individuales algunas de ellas intrínsecas como el
sexo, otras variables como la edad, el estado físico o el estado emocional y
rasgos que señalan su pertenencia a un grupo social y a una zona geográfica,
al tiempo que puede llegar a dominar una amplia gama de estilos o diferencias
en el habla asociadas a una situación comunicativa particular. Mientras que el
sistema humano de procesamiento del habla está preparado para responder a
tales variaciones y también para realizarlas, la producción y el reconocimiento
automáticos por parte de un ordenador suponen la capacidad de tratar
adecuadamente los tipos de variación que se acaban de mencionar.