TELEVISION DIGITAL BAJO EL ESTANDAR ESTADOUNIDENSE ATSC ROBERTO E. MORDECAI F. ADELMO R. CUADRADO V. UNIVERSIDAD TECNOLÓGICA DE BOLÍVAR. FACULTAD DE INGENIERIA ELECTRICA Y ELECTRÓNICA CARTAGENA DE INDIAS DICIEMBRE DE 2004 TELEVISION DIGITAL BAJO EL ESTANDAR ESTADOUNIDENSE ATSC ROBERTO E. MORDECAI F. ADELMO R. CUADRADO V. Trabajo de Monografía presentado como requisito para optar al título de Ingenieros Electrónicos Director: EDUARDO GOMEZ VÁSQUEZ Magíster en Ciencias Computacionales UNIVERSIDAD TECNOLÓGICA DE BOLÍVAR FACULTAD DE INGENIERIA ELECTRICA Y ELECTRÓNICA CARTAGENA DE INDIAS DICIMBRE DE 2004 II III TABLA DE CONTENIDO 1. INTRODUCCIÓN.........................................................................................5 1.1 Televisión Analógica vs Televisión Digital ..........................................7 1.2 Sistemas de Transmisión Analógicos.................................................11 1.2.1 NTSC: National Television System Comité................................. 11 1.2.2 PAL: Phase Alternation Line ....................................................... 12 1.3 Estándares Digitales...........................................................................14 1.3.1 DVB: Digital Video Broadcasting (Norma Europea) .................... 14 Características Principales:....................................................................... 14 1.3.2 ATSC: Advanced Television System Comitee (Norma Americana)..... 14 Características principales: ....................................................................... 14 2. Video MPEG-2 ATSC ................................................................................16 2.1 Introducción a MPEG..........................................................................17 2.1.1 Necesidad de la Compresión...................................................... 17 2.1.2 Introducción a la Compresión de Video ...................................... 19 2.2 ISO/IEC 13818-2 ................................................................................24 2.2.1 Tipos de Codificación: Espacial y Temporal ............................... 24 2.2.2 Codificación Espacial.................................................................. 25 2.2.3 Ponderación................................................................................ 28 2.2.4 Scanning..................................................................................... 31 2.2.5 Codificación Entrópica ................................................................ 33 2.2.6 Un Codificador Espacial.............................................................. 34 2.2.7 Codificación Temporal ................................................................ 36 2.2.8 Compensación de Movimiento.................................................... 38 2.2.9 Codificación Bidireccional ........................................................... 41 2.2.10 Imágenes I, P y B........................................................................ 42 3. CODIFICACIÓN DE LA TRAMA DE AUDIO AC-3 ....................................46 3.1 Introducción ........................................................................................46 3.2 Resumen del Proceso de Codificación...............................................47 3.2.1 Entrada PCM .............................................................................. 47 3.2.2 Detección de Transitorios ........................................................... 50 3.2.3 Transformada en Adelanto ......................................................... 52 3.2.4 Estrategia de Acoplamiento ........................................................ 57 3.2.5 Formación del Canal de Acople .................................................. 57 3.2.6 Reajustar Matriz.......................................................................... 59 3.2.7 Extraer Exponentes .................................................................... 59 3.2.8 Estrategia de Exponente............................................................. 60 3.2.9 Codificación de Exponentes ....................................................... 61 3.2.10 Normalizar Mantisas ................................................................... 62 3.2.11 Empaquetación AC-3.................................................................. 62 4. MODULACIÓN 8-VSB ...............................................................................63 4.1 Sincronización de Datos .....................................................................65 4.2 Embrollador de Datos.........................................................................66 4.3 Codificación Reed-Solomon ...............................................................67 4.4 Interfoliador de Datos .........................................................................68 4.5 Codificador Trellis ...............................................................................69 4.6 Inserción de la Piloto y Los Sincronismos ..........................................70 4.7 Modulación de Amplitud .....................................................................76 4.8 Diagrama de Ojo del 8-VSB ...............................................................85 4.9 Constelación de Señal del 8-VSB.......................................................86 4.10 Conversión Analógica y el Resto de la Cadena 8-VSB ......................88 5. APLICACIONES DE SERVICIO DE DTV ..................................................90 5.1 VOD (VIDEO EN DEMANDA) ............................................................90 5.1.1 Arquitectura de un Sistema VOD................................................ 91 5.1.2 Tecnologías de Acceso para VOD.............................................. 96 5.1.3 Arquitectura................................................................................. 99 5.1.3.1 Lado del Proveedor……………………………………………......…75 5.1.3.2 Lado del Usuario...........................................................................77 5.2 MHP (Multimedia Home Plataform) ..................................................103 5.2.1 Modelos de aplicaciones........................................................... 104 5.2.2 Señalización de Aplicaciones MHP........................................... 106 5.2.3 Plug-ins..................................................................................... 107 6. CONCLUSIONES ....................................................................................110 7. BIBLIOGRAFÍA ...........................................................................................113 GLOSARIO DE ACRÓNIMOS Y TÉRMINOS.................................................115 ANEXOS.........................................................................................................121 2 LISTA DE FIGURAS Figura 1. Digitalización de Imagen Figura 2. Entropía Almacenada o Transmitida Figura 3. Función de Entrada con relación a Función Base Figura 4. Reflejo señal de entrada Figura 5. Coeficientes de la DCT para un bloque 8x8 Figura 6. Percepción Humana al Ruido Figura 7. Proceso de Ponderación Figura 8. Probabilidad para Sistemas Figura 9. Codificación Espacial Figura 10. Interpolación Vertical Figura 11. Retardo de Imagen Combinada Figura 12. Codificación Espacial para imágenes Intra Figura 13. Imagen Diferencia Figura 14. Espaciamiento Vertical Figura 15. Codificación Bidireccional Figura 16. Group of Pictures (GOP) Figura 17. Factor de Compresión y Retardo en la Codificación Figura 18. Diagrama de Flujo del Proceso de Codificación Figura 19. Diagrama de Bloques, Excitador 8-VSB 3 Figura 20. Segmento de Datos de Banda Base Figura 21. Campo de Datos de Banda Base ATSC Figura 22. Señal de Base de 8 Niveles Figura 24. Espectro de Frecuencia RF del 8-VSB Figura 25. Espectro del Filtro de Nyquist sobre la envolvente de FI del 8-VSB Figura 26. Suma de Pulsos de símbolos ortogonales de banda estrecha Figura 27. Forma de Onda de RF del 8-VSB a la salida del excitador Figura 28. Diagrama de Ojo del 8-VSB Figura 29. Constelación de la señal 8-VSB contra la de 64-QAM Figura 30. Arquitectura Servicio VoD Figura 31. Ancho de Banda ADSL Figura 32. Arquitectura interconexión lado proveedor Figura 33. Arquitectura interconexión lado usuario LISTA DE FIGURAS EN ANEXOS Figura 1. Posición de los muestreos en el formato 4:2:2 Figura 2. Cuantificación de la señal de luminancia Figura 3. Cuantificación de la señal de crominancia 4 1. INTRODUCCIÓN El ser humano siempre en busca del desarrollo de su calidad de vida está evolucionando e inventando nuevas herramientas que le ayuden con este propósito. Las personas en general pasan desde horas, hasta días en su hogar descansando y viendo televisión, es por ello que este es un importante centro de estudio y desarrollo, con el objetivo de mejorar y ampliar el rango de acción y efecto de la televisión. Desde sus inicios hasta sus más recientes innovaciones, como lo son: • La digitalización de la señal para su posterior compresión pudiendo así utilizar mejor el espectro radio eléctrico, esto se traduce en más canales televisión en el mismo ancho de banda. • Nuevas formas de acceso al usuario; dentro de las cuales se pueden mencionar el cable coaxial y la fibra óptica, las cuales conforman las redes híbridas fibra–coaxial y por otro lado, en los medios no guiados se llega al extremo de los satélites, los cuales, debido al gran ancho de banda que poseen, tienen la capacidad no solo de transmitir un gran número de canales de televisión digitalizada (mayor calidad de vídeo y de sonido), sino también de implementar la televisión interactiva, la cual basa su funcionamiento en la navegación en Internet para la adquisición de Video on Demand (VoD), compras en línea y un sin fin de 5 capacidades que acaban en el mismo sitio donde termina la capacidad de Internet con su comercio electrónico, por ende no tienen nada que envidiarle a las aplicaciones que corren sobre PC’s para la compra en línea a través de Internet. 6 1.1 Televisión Analógica vs Televisión Digital El principal problema de la televisión analógica es que no saca partido al hecho de que en la mayoría de los casos, las señales de vídeo varían muy poco al pasar de un elemento de imagen (píxel) a los contiguos, o por lo menos existe una dependencia entre ellos. En pocas palabras, se derrocha espectro electromagnético, además de que al crecer el número de estaciones transmisoras, la interferencia pasa a convertirse en un grave problema. En la televisión analógica, los parámetros de la imagen y del sonido se representan por las magnitudes analógicas de una señal eléctrica, por tanto su transporte hasta los hogares ocupa muchos recursos. En el mundo digital esos parámetros se representan por números; en un sistema de base dos, es decir, usando únicamente los dígitos "1" y "0". El proceso de digitalización de una señal analógica lo realiza el conversor analógico/digital. Esta representación, numérica en bits, permite someter la señal de televisión a procesos muy complejos, sin degradación de calidad, que ofrecen múltiples ventajas y abren un abanico de posibilidades de nuevos servicios en el hogar. Sin embargo, la señal de televisión digital ofrecida directamente por el conversor analógico/digital contiene una gran cantidad de bits que no hacen viable su transporte y almacenamiento sin un consumo excesivo de recursos. 7 La cantidad de bits que genera el proceso de digitalización de una señal de televisión es tan alta que necesita mucha capacidad de almacenamiento y de recursos para su transporte. Ejemplos de la cantidad de bits que genera la digitalización de 3 diferentes formatos de televisión: • En formato convencional (4:3) una imagen digital de televisión está formada por 720x576 puntos (pixel). Almacenar esta imagen requiere de 1 Mbyte. Transmitir un segundo estas imágenes continuas, requiere una velocidad de transmisión de 170 Mbits/s. • En formato panorámico (16:9) una imagen digital de televisión está formada por 960x 576 puntos (pixel): requiere un 30% más de capacidad que el formato 4:3 • En formato alta definición la imagen digital de televisión consiste en 1920 x1080 puntos (pixel). Almacenar esta imagen requiere más de 4 Mbyte. Transmitir un segundo de imágenes continuas, requiere una velocidad de transmisión de 1Gbit/s. Afortunadamente, las señales de televisión tienen más información de la que el ojo humano necesita para percibir correctamente una imagen. Es decir, tienen una redundancia considerable, la cual es explotada por las técnicas de compresión digital, para reducir la cantidad de "números" generados en la digitalización hasta 8 unos niveles adecuados que permiten su transporte con una gran calidad y economía de recursos. Estas y otras técnicas han sido los factores que han impulsado definitivamente el desarrollo de la Televisión Digital, permitiendo el almacenamiento y transporte de la señal de televisión con un mínimo uso de recursos. La televisión digital posee múltiples ventajas, tales como: • Resolución igual o mejor que una película de 35 mm. La televisión analógica convencional tiene una resolución inferior a una película de 16 mm. Esa baja resolución se puede apreciar en la televisión analógica convencional cuando se usan pantallas grandes o proyectores de TV. • Libre de perturbaciones o ecos. La televisión analógica convencional, cuando se recibe por antena, está sujeta a ecos que se manifiestan como señales superpuestas, con variaciones de color. Estos ecos son debidos a reflexiones de propagación de la señal. Este fenómeno pasa casi inadvertido en la televisión por cable, ya que la señal es guiada por el mismo y no existen posibilidades de reflexión, salvo en el caso de no haber acople de impedancias entre el cable y el receptor. • Calidad de sonido digital semejante a los CD’s. La televisión convencional modula el video en amplitud y el audio en FM. La diferencia en calidad de sonido en la televisión digital es la misma que la que existe en una estación de audio en FM y la que se obtiene en un amplificador de alta fidelidad con un disco compacto (CD). 9 • Soporta hasta 16 canales de audio digitales. Con lo cual pueden obtenerse efectos semejantes a los cinematográficos "soround". Permite también transmitir programas en varios idiomas. • Presenta mayor inmunidad contra interferencias y distorsión. Una señal digital es prácticamente inmune a las interferencias y no está sujeta a distorsión. • Requiere menor potencia de transmisión para cubrir una zona de servicio. La televisión analógica necesita mayor potencia de transmisión para la misma zona de servicio. • Posee mayor eficiencia en el uso del espectro. El espectro radio eléctrico es un recurso escaso, la televisión digital permite la utilización de redes de frecuencia única, que en la misma frecuencia pueden cubrir áreas de servicio diferentes. • Ideal para el uso de compresión digital y emisiones multiprograma, con lo cual se pueden acomodar más de cuatro señales de televisión digital en el mismo ancho de banda de una señal analógica. Por ejemplo: la compresión según el sistema MPEG (Moving Picture Experts Group) consiste en no enviar las imágenes completas, sino sólo los cambios entre dichas imágenes. El resultado es que se necesitan muchos menos datos para actualizar una imagen. Los datos comprimidos de vídeo, audio y otros se multiplexan formando una sola sucesión de bits. 10 1.2 Sistemas de Transmisión Analógicos 1.2.1 NTSC: National Television System Comité Con respecto a frecuencia, modulación y ancho de banda, estas son las principales características: 1. La señal Y se trasmite por modulación de amplitud con banda lateral vestigial, sobre una portadora de R.F. correspondiente al canal utilizado. 2. La modulación de la croma es en cuadratura, Cb (diferencia al azul) modula en amplitud a una subportadora de valor fsp=3.58MHz y Cr (diferencia al rojo) modula la misma portadora, pero tras haber sido adelantada en 90 grados y colocados en los ejes I y Q, 33 y 123 grados respectivamente. 3. La señal de prueba es una señal constitutiva de 8 barras verticales adyacentes que presenta los 3 colores primarios (rojo, verde y azul), sus respectivos complementarios (cían, púrpura y amarillo) y además el blanco y el negro. La suelen trasmitir las emisoras previo al comienzo de la programación y sirve al usuario para corregir si es necesario los matices de su receptor. El arreglo de colores no es arbitrario, sino empieza por el de mayor luminancia (el blanco) y termina en el extremo derecho con el negro (luminancia nula). Por lo tanto, la secuencia de colores es: blanco, amarillo, cían, verde, magenta, rojo, azul y negro. 11 4. La frecuencia exacta de la subportadora es fsp=3.579545MHz y el burst se trasmite con fase de 180 grados. 5. La señal C debe ir incluida dentro del canal asignado, pero sin interferir en lo posible a la señal Y. 6. El sistema NTSC adolece de gran inconveniente frente a corrimientos de fase en el trayecto entre emisor y receptor. 1.2.2 PAL: Phase Alternation Line Con respecto a frecuencia, modulación y ancho de banda, estas son las principales características: 1. Este sistema conserva la modulación en cuadratura, pero con los ejes Cb y Cr, asignándole a ambos igual ancho de banda. 2. La fase del producto de modulación cambia de línea a línea en 180 grados, teniéndose así una línea llamada NTSC y la siguiente llamada PAL con fase de 180 grados. 3. El burst se trasmite con fase de 135 grados durante las líneas NTSC y de 225 grados durante las líneas PAL. 4. Confía al propio ojo humano el corregir errores de fase por integración de la imagen, para errores de fase de hasta unos 5 grados. Se parte de la 12 premisa que el contenido de color de 2 líneas consecutivas es prácticamente el mismo. (PAL Simple) 5. En vez de que el ojo integre y corrija, lo hace un circuito, para lo cual es necesario almacenar una línea. (PAL-N) 6. La frecuencia de subportadora original; es de 4.43MHz en sistema PAL Simple y en PAL-N es de 3.58MHz. 7. La señal de vídeo se trasmite por el método de modulación de amplitud con polaridad negativa (máximo brillo corresponde a la mínima amplitud de portadora) y banda lateral vestigial para mayor estabilidad de sincronismo (máxima energía de la portadora) en zonas de recepción pobre. 8. Anchura de banda nominal del canal radio eléctrico: 6MHz. 9. Separación de la portadora de sonido respecto de la de imagen: +4.5MHz1. 1 http://www.iconet.es/teleweb/tv_func.htm 13 1.3 Estándares Digitales 1.3.1 DVB: Digital Video Broadcasting (Norma Europea) Características Principales: 1. Ancho de banda por canal de 8MHz. 2. Modulación COFDM (Multicanalización por división de frecuencia ortogonal codificada) con mapeo QPSK (Quaternary Phase Shift Keying) o QAM (Quadrature Amplitude Modulation). 3. Utiliza estándares de compresión MPEG-2 para video y Musicam por su siglas (Masking pattern Universal Sub-band Integrated Coding And Multiplexing) para audio. 4. Relación de aspecto 4:3 para televisión de definición estándar (SDTV) y 16:9 para televisión de alta definición (HDTV). 5. Resolución de 1152 líneas verticales y 1920 píxeles horizontal. 1.3.2 ATSC: Advanced Television System Comitee (Norma Americana) Características principales: 1. Ancho de banda por canal de 6MHz. 2. Modulación 8-VSB ó 16-VSB. 3. Utiliza estándares de compresión MPEG-2 (Vídeo) y Dolby AC-3 (Audio). 14 4. Relación de aspecto 4:3 para televisión de definición estándar (SDTV) y 16:9 para televisión de alta definición (HDTV). 5. Resolución de 1080 líneas verticales y 1920 píxeles horizontal. Las transmisiones de televisión digital, al igual que las de televisión analógica convencional, pueden llegar al receptor por tres medios diferentes: por transmisores ubicados en la tierra (televisión terrenal), por transmisores ubicados en satélites (televisión directa por satélite) o por cables físicos que pueden ser coaxiales o de fibra óptica (televisión por cable). 15 2. VIDEO MPEG-2 ATSC La aplicación primaria de MPEG-2 fue la transmisión digital de señales de TV con buena calidad y a velocidades de 4 a 10 Mbps. Debido a esto, la principal característica y diferencia con MPEG-1 es que MPEG-2 brinda un soporte para imágenes entrelazadas, es decir, se tomo en cuenta el hecho de que las cámaras de TV forman una imagen tomando primero un campo y luego el otro. Ya que estos dos campos están separados por un intervalo de tiempo, codificar la secuencia con MPEG-1 no produciría los mejores resultados, ya que MPEG-1 asume que no hay diferencia de tiempo entre líneas sucesivas en la imagen. El estándar MPEG-2 provee una forma de codificar imágenes entrelazadas incluyendo dos técnicas basadas en campo: predicción basada en campo y DCT (Transformada Discreta del Coseno) basada en campo. Otras mejoras, como la introducción de una DCT con precisión de 10 bits en el coeficiente DC, cuantización no lineal, tablas VLC (Codificación de longitud variable) y control mejorado de mismach (para los vectores de movimiento) han sido introducidas en este nuevo estándar que han brindado mejoras sustanciales aun para material progresivo. Otra especificación clave del MPEG-2 son las extensiones escalables, que permiten la división de la señal de video en dos o 16 más cadenas de bits representando el video a diferentes resoluciones, calidad de imagen o cadencia de cuadros. 2.1 Introducción a MPEG MPEG es uno de los más populares estándares de compresión de video y audio, debido a que no es un simple estándar. En vez de eso, es un rango de estándares disponibles para diferentes aplicaciones, pero basados en principios similares. MPEG es el acrónimo de Moving Pictures Experts Group, establecido por la ISO para trabajar en compresión2. 2.1.1 Necesidad de la Compresión El éxito inicial del video digital fue en aplicaciones de post producción, en donde la producción de video generaba alrededor de 200 Mbps de datos, con lo cual se requería de gran capacidad de almacenamiento o gran ancho de banda para su eventual transmisión. La figura 1 ilustra este concepto para la digitalización de una imagen de 625 líneas, 720 píxeles por línea y una cadencia de cuadros de 30 cuadros por segundo, resultando en un ancho de banda de 216 Mbps para su eventual transmisión. El formato de submuestreo de croma usado es 4:2:2. 2 http://www.imagendv.com/mpeg.htm 17 Figura 1. Digitalización de Imagen Y = 8*13.5 =108 Mbps (Luminancia) Cr = 8*6.75 =54 Mbps (crominancia roja) Cb = 8*6.75 =54 Mbps (crominancia azul) Total = 216 Mbps Debido a estas dificultades, era necesaria una forma de codificación del material de audio y/o video, en la cual se requieran menos datos para representar al material. La forma en que MPEG consigue llevar a cabo este objetivo, es mediante el procesamiento de la secuencia de video (o la señal de audio), de manera tal de codificar solo lo necesario, y dejar que el decodificador “adivine” el resto, y posiblemente, como en la mayoría de los casos, la eliminación de determinada información no tan crítica para el observador. En las siguientes secciones se tratan con cierto detalle las técnicas usadas por MPEG para llevar a cabo la compresión. 18 2.1.2 Introducción a la Compresión de Video En todo material real ya sea de audio o video, hay dos tipos de componentes de señal: aquellos componentes que son nuevos o impredecibles y aquellos que pueden ser anticipados. Los componentes nuevos son llamados entrópicos y corresponden a la verdadera información en la señal. Los restantes son llamados redundancia ya que no son esenciales. La redundancia puede ser espacial tal como un área plana de una imagen, en donde los píxeles cercanos tienen todo el mismo valor, o temporal, en donde se explota la similitud de imágenes sucesivas. En sistemas de codificación sin pérdidas, se intenta que el codificador extraiga la redundancia de la señal y envíe solo la entropía al decodificador. En sistemas con pérdidas, se elimina cierta información irrelevante o no tan crítica para el observador antes de analizar los componentes importantes en la señal. Solo la entropía es almacenada o transmitida y el decodificador calcula la redundancia con la señal recibida. La figura 2 ilustra este concepto. 19 Figura 2. Entropía Almacenada o Transmitida Un codificador ideal debería transmitir solo la entropía y un decodificador ideal debería reconstruir la señal completa con esa información. En la práctica sin embargo, no se puede alcanzar la idealidad. Un codificador ideal requeriría de un retardo muy grande para poder extraer solo la redundancia de la señal, retardo que es inconcebible para determinadas aplicaciones en tiempo real. En algunos casos, un codificador ideal sería muy caro. Se sigue entonces que no hay un sistema de compresión ideal. En la práctica se necesita de un rango de codificadores con diferentes grados de retardo y complejidad. La potencia de MPEG es que no es solo un formato de compresión, sino un rango de herramientas de compresión que pueden ser combinadas eficazmente para diferentes necesidades. MPEG-2 introduce el 20 concepto de perfiles y niveles, que justamente permiten la elección mas apropiada para determinada aplicación. Hay diferentes formatos de video digital y cada uno tiene su bit rate. Por ejemplo, un sistema de alta definición podría tener 6 veces el bit rate de un sistema de definición estándar. Consecuentemente, conocer solo el bit rate a la salida del codificador no es muy útil. Lo que importa es la razón de compresión, que es la relación entre el bit rate a la entrada del codificador y el bit rate a la salida del mismo. Desafortunadamente, el número de variables involucradas, hace difícil determinar el factor de compresión adecuado. La figura 2 muestra que si toda la entropía es enviada, la calidad es buena. Sin embargo, si el factor de compresión es incrementado con el fin de reducir el bit rate, la calidad decae. Para identificar la entropía completamente, un codificador debería ser muy complejo. Un compresor práctico, deberá enviar más datos generalmente, para asegurarse de llevar la entropía en ellos. La figura 2b muestra la relación entre complejidad y performance. A un nivel de calidad dado, se requiere de un compresor mas sofisticado para lograr altas razones de compresión. La entropía en señales de video varía. En el proceso de codificación, algunas imágenes tendrán más entropía que otras y por lo tanto requerirán de más datos para ser representadas, si lo que queremos es mantener la calidad de la 21 codificación constante. Bajo este esquema de codificación, tendremos calidad constante pero bit rate variable, con lo cual se introduce un buffer a la salida del codificador que absorba dichas variaciones de entropía y produzca un bit rate constante a la salida. En la codificación de video bajo el estándar MPEG, aparecen dos conceptos importantes y claramente diferenciados: la codificación Intra (Intra Coding) y la codificación Inter (Inter Coding). Codificación Intra es una técnica que explota la redundancia espacial o dentro de una imagen y codificación Inter explota la redundancia temporal. La Intra Coding puede ser usada sola como en JPEG, o puede ser combinada con Inter Coding, como en MPEG. Intra coding relaciona dos propiedades de las imágenes típicas. Primero, no todas las frecuencias espaciales están simultáneamente presentes y segundo, los componentes de frecuencias espaciales altas son de mas baja amplitud que las bajas. Intra coding requiere del análisis de frecuencias espaciales en una imagen. Este análisis es el propósito de transformadas como wavelets o la DCT. Las trasformadas producen coeficientes que describen la magnitud de cada componente espacial frecuencial. Típicamente, muchos coeficientes serán cero, con lo que se omitirán, y se lograra por lo tanto una reducción en el bit rate. Inter coding, relaciona las similitudes entre imágenes sucesivas. Si una imagen esta disponible en el codificador, la siguiente imagen puede ser reconstruida 22 enviando solo la imagen diferencia. Esta diferencia se incrementa con el movimiento, pero esto puede ser compensado con la estimación de movimiento, ya que un objeto en una imagen generalmente solo cambiará de posición, no de apariencia. Si el movimiento puede ser medido, puede ser creada una aproximación a la imagen actual, corriendo parte de la imagen previa a una nueva localidad. El proceso de movimiento es controlado por un vector que es transmitido al decodificador. MPEG-2 maneja tanto imágenes progresivas como entrelazadas, llamando ‘picture’ a una imagen dada en alguna posición temporal, independientemente si es campo o cuadro. La codificación temporal es ahora más difícil, ya que los píxeles en un campo estarán en otra posición en el siguiente. La compensación de movimiento minimiza pero no elimina la diferencia entre imágenes sucesivas. La imagen diferencia puede ser ahora tratada como imagen Intra, con la técnica descrita anteriormente. La compensación de movimiento simplemente minimiza la cantidad de datos en la imagen diferencia. Claramente, las imágenes codificadas temporalmente son difíciles de editar, ya que su contenido depende de alguna imagen quizás ya trasmitida tiempo atrás. Los sistemas de producción tendrán que limitar el grado de codificación temporal para permitir la edición y esto afectara el límite de la compresión3. 3 http://www.fuac.edu.co/autonoma/pregrado/ingenieria/ingelec/proyectosgrado/compresvideo/int_comp_video.htm 23 2.2 ISO/IEC 13818-2 (Norma del Estándar MPEG-2) 2.2.1 Tipos de Codificación: Espacial y Temporal La compresión de video saca partido tanto de la redundancia espacial como la temporal. En MPEG la redundancia temporal es extraída usando similitudes entre imágenes sucesivas. Tanto como sea posible, la imagen actual es estimada a partir de imágenes recientemente enviadas. Cuando se usa esta técnica, solo se necesita enviar la diferencia entre la imagen estimada y la actual. La imagen diferencia es entonces sujeta a codificación espacial. Es más fácil comenzar explicando la codificación espacial antes que la temporal. La compresión espacial se relaciona con las similitudes entre píxeles adyacentes en áreas planas de la imagen y en frecuencias espaciales dominantes en el modelo. JPEG solo utiliza compresión espacial ya que fue diseñado para comprimir imágenes fijas. No obstante, JPEG puede usarse para codificar una sucesión de imágenes para video en el así llamado ‘Motion JPEG’. En este esquema, la compresión no es tan buena como en MPEG, pero la capacidad de edición es interesante, ya que se puede editar cuadro a cuadro4. 4 http://www.paginadigital.com/tesis.asp 24 2.2.2 Codificación Espacial El primer paso en la codificación espacial, es desarrollar un análisis de frecuencias espaciales mediante una transformada. Una transformada es una forma de expresar una forma de onda en un dominio diferente, en este caso, el de la frecuencia. La salida de la trasformada es un conjunto de coeficientes que indican cuanto de una determinada frecuencia esta presente. La transformada mas conocida es la de Fourier. Esta trasformada encuentra cada componente de frecuencia multiplicando muestra a muestra la señal de entrada por su respectiva función base e integrando el producto. La Figura 3 muestra que cuando la señal de entrada no contiene la función base, este producto da cero, pero si la contiene, la integral dará un coeficiente que describe la amplitud de esa componente. Figura 3. Función de Entrada con relación a Función Base 25 Los resultados serán como se describieron, si la componente de frecuencia de la señal esta en fase con la función base. Si la componente esta en cuadratura con la función base, la integral será cero. Por lo tanto será necesario realizar dos búsquedas para cada frecuencia, una con la función base en fase y otra en cuadratura, para encontrar las componentes en cuadratura en la señal. La transformada de Fourier tiene la desventaja de requerir de coeficientes para los términos seno y coseno de cada frecuencia. En la trasformada del coseno, la señal de entrada es reflejada con respecto al eje de las ordenadas antes de multiplicarla por las funciones base. La figura 4 muestra que este reflejo cancela todos los componentes seno y duplica los componentes coseno de la señal. Ahora los coeficientes seno de la trasformada son innecesarios y solo se necesita un coeficiente para cada frecuencia. Figura 4. Reflejo señal de entrada 26 La Transformada Discreta del Coseno (DCT) es la versión muestreada de la transformada del coseno, y es usada ampliamente en dos dimensiones. Un bloque de 8x8 píxeles es transformado en un bloque de 8x8 coeficientes. Ya que la operación requiere la multiplicación por fracciones, algunos coeficientes tendrán longitud de palabra más larga que los valores de los píxeles. Típicamente, un bloque de píxeles de 8 bits, incurrirá en un bloque de coeficientes de 11 bits. Por lo tanto, la DCT no produce una compresión, sino lo contrario. No obstante, la DCT convierte la fuente de píxeles en una forma en donde es más fácil la compresión. La figura 5 muestra los coeficientes de la DCT para un bloque 8x8. Para un bloque de luminancia, el coeficiente DC indica el nivel medio de brillo en la imagen. Moviéndonos a lo largo de las filas, se incrementa la frecuencia horizontal, y a lo largo de las columnas se incrementa la frecuencia vertical. Figura 5. Coeficientes de la DCT para un bloque 8x8 27 En una imagen real, pueden ocurrir componentes de frecuencia diferentes en las diferentes direcciones, y un coeficiente en algún punto del bloque representará el peso de determinada frecuencia de dos dimensiones. Claramente, para imágenes en color, las muestras de diferencia de color también deben ser tratadas. Los datos Y, Cr y Cb son tratados individualmente en la codificación5. En mucho material real, muchos coeficientes tendrán valor cero o cerca de cero, y no serán transmitidos. Esto resulta en una significante compresión que resulta virtualmente sin pérdidas. Si se necesita una compresión mayor, se tendrá que reducir la longitud de palabra de los coeficientes distintos de cero, introduciendo una pérdida en el proceso. Con cuidado, las pérdidas pueden ser introducidas en una forma que sean menos visibles al observador. 2.2.3 Ponderación La figura 6 muestra que la percepción humana al ruido no es uniforme, sino que es función de la frecuencia. Más ruido puede ser tolerado a altas frecuencias. 5 www-etsi2.ugr.es/depar/ccia/ mia/complementario/video/hibridos.pdf 28 Figura 6. Percepción Humana al Ruido La compresión reduce la exactitud de los coeficientes y tiene un efecto similar al de usar palabras cortas en PCM, es decir, aparece un nivel de ruido. En PCM, el resultado de acortar las palabras del código, resulta en un incremento del nivel de ruido a todas las frecuencias. Como la DCT separa los componentes de frecuencia, es posible controlar el espectro del ruido. La figura 7 muestra que en el proceso de ponderación, los coeficientes de más baja frecuencia son divididos por números pequeños y los de alta frecuencia por números más grandes. Siguiendo a la división, se produce el truncamiento del coeficiente, lo que resulta en una recuantización. Como resultado, los coeficientes de baja frecuencia espacial son recuantizados con pasos pequeños y los de alta frecuencia con pasos más grandes y llevan más ruido que los anteriores. 29 Figura 7. Proceso de Ponderación En el decodificador, los coeficientes se multiplicarán por sus valores correspondientes de forma tal de recuperar los coeficientes de la DCT con ruido de cuantización superpuesto. Por supuesto, este ruido será mayor a las altas frecuencias. Claramente, el grado de compresión obtenido y el subsecuente bit rate, es función de la severidad del proceso de recuantización. Diferentes bit rates requerirán diferentes tablas de cuantización y en MPEG-2 es posible usar diferentes tablas para la compresión y trasmitirlas al receptor para la correcta decodificación. 30 2.2.4 Scanning En material de video típico, los coeficientes significativos de la DCT se encuentran en la esquina superior del bloque de coeficientes. Después de la recuantización, los coeficientes de más alta frecuencia posiblemente se habrán reducido a cero. Podría ser obtenida una forma de codificación mas eficiente si primero se trasmitieran los coeficientes distintos de cero y luego un código indicando que los restantes coeficientes son cero. El Scanning es una técnica que permite llevar a cabo esto último, ya que envía los coeficientes en orden decreciente de probabilidad de magnitud. La figura 8a muestra que en un sistema no entrelazado, la probabilidad de que un coeficiente tenga un alto valor es mayor en la esquina superior izquierda del bloque y menor en la esquina inferior derecha. Un escaneo diagonal de 45º es lo mejor para usar aquí. 31 a) ZigZag o Clásico b) Alternativa (Normalmente para Cuadros) (Normalmente para campos) Figura 8. Probabilidad para Sistemas En la figura 8b, se muestra el escaneo para una imagen entrelazada (nuevo en MPEG-2). En una imagen entrelazada, un bloque 8x8 DCT de un campo se extiende sobre el doble de área vertical de la pantalla, así que para una imagen dada, las frecuencias verticales parecerán ser el doble de grandes que las horizontales. Por lo tanto, el escaneo ideal para imágenes entrelazadas es el que se muestra en la figura 8b, en donde se ve que una frecuencia vertical dada se escanea antes que la misma frecuencia horizontal6. 6 http://www.fuac.edu.co/autonoma/pregrado/ingenieria/ingelec/proyectosgrado/compresvideo/MPEG2.htm 32 2.2.5 Codificación Entrópica En video real, no todas las frecuencias espaciales aparecen simultáneamente. Por lo tanto, muchos coeficientes de la DCT serán cero. A pesar del escaneo, pueden aparecer coeficientes cero entre valores distintos de cero. Run Length Encoding (RLC) permite que estos coeficientes sean manejados de forma eficiente. Cuando se presenta una cadena de ceros, un RLC simplemente transmite la cantidad de ceros en la carrera en vez de cada bit individualmente. La probabilidad de ocurrencia de ciertos valores de coeficientes en un material de video real puede ser estudiada. En la práctica, algunos valores ocurren más frecuentemente que otros. Esta información estadística puede utilizarse para llevar a cabo una mejora en la compresión con códigos de longitud variable. Los valores que ocurren mas frecuentemente son codificados con palabras mas cortas que los que ocurren menos a menudo. De cara a la deserealizacion, no se permite que una palabra sea prefijo de otra (código instantáneo). 33 2.2.6 Un Codificador Espacial La figura 9 muestra todos los conceptos descritos anteriormente sobre codificación espacial. Figura 9. Codificación Espacial En la figura 9 se asume que la señal de entrada es 4:2:2 con 8 a 10 bits por píxel. MPEG trabaja con resolución de 8 bits, por lo cual será necesaria una etapa de redondeo cuando la señal de entrada tiene palabras de 10 bits. La mayoría de los perfiles de MPEG trabajan con muestreo 4:2:0, por lo que será necesaria también una etapa de filtrado pasabajo vertical. Esto elimina información de la imagen y también baja el bit rate. 34 La etapa DCT transforma la información de la imagen al dominio de la frecuencia. Luego, los coeficientes son ponderados y truncados, obteniendo la primera compresión significante. Estos coeficientes son escaneados en zig-zag por las razones mencionadas anteriormente. Después del último coeficientes distinto de cero, se genera un código end of block (EOB). Luego son comprimidos con RLC y VLC. En un sistema de bit rate variable, la cuantización es fija, pero en un sistema de bit rate fijo se necesita de un buffer para absorber las variaciones en el proceso de codificación. Imágenes con muchos detalles tenderán a llenar el buffer, mientras que imágenes más homogéneas tenderán a vaciarlo. Si el buffer esta en peligro de over flowing, la cuantización se deberá hacer mas severa para bajar el bit rate. En el decodificador, el bit stream es deserealizado y la codificación entrópica es revertida para obtener los coeficientes ponderados. Se realiza la ponderación inversa de los coeficientes, y luego se arma la matriz DCT de acuerdo al zig-zag. Luego se aplica la IDCT y se recrean los bloques 8x8 de coeficientes. Los bloques son almacenados en RAM que se lea una línea a la vez. Para obtener una salida 4:2:2 a partir de una 4:2:0, se debe realizar una interpolación vertical como se muestra en la figura 10. 35 Figura 10. Interpolación Vertical 2.2.7 Codificación Temporal La redundancia temporal puede ser explotada realizando codificación Inter, es decir, trasmitiendo solo la diferencia de imágenes. La figura 11 muestra que un retardo de una imagen combinada con un sustractor, puede llevar a cabo la operación. Figura 11. Retardo de Imagen Combinada 36 La imagen diferencia es una imagen mas, y puede ser codificada espacialmente después. El decodificador revierte de codificación espacial y le suma la diferencia para obtener la siguiente imagen. Muchos sistemas de compresión realizan un offset en la imagen antes de aplicar la DCT, eliminando con esto los posibles valores negativos producidos en le proceso de codificación. Hay algunas desventajas en este modelo. Primero, ya que solo son enviadas las imágenes diferencia, se hace imposible la decodificación de la secuencia una vez comenzada la transmisión. Segundo, si alguna imagen diferencia contiene algún error, este se propagará indefinidamente. La solución a este problema es usar un sistema que no es completamente diferencial. La figura 12 muestra que periódicamente se envían imágenes Intra, que son codificadas solo espacialmente. Si ocurre un error o hay un cambio de canal, se podrá resumir la decodificación en la próxima imagen Intra. La figura 11 solo generaliza el concepto7. Figura 12. Codificación Espacial para imágenes Intra 7http://www.fuac.edu.co/autonoma/pregrado/ingenieria/ingelec/proyectosgrado/compresvideo/compresion_JPEG.htm 37 2.2.8 Compensación de Movimiento El movimiento reduce las similitudes entre las imágenes e incrementa la cantidad de datos necesarios para crear una imagen diferencia. La compensación de movimiento se utiliza para incrementar la similitud de las imágenes. La figura 13 muestra el principio. Figura 13. Imagen Diferencia Cuando un objeto se mueve en la pantalla puede aparecer en otra posición en la imagen siguiente pero generalmente no cambiará su apariencia. La diferencia de imagen puede ser reducida, midiendo el movimiento en el codificador. Este movimiento es enviado al decodificador como un vector. El decodificador usa este vector para correr parte de la imagen previa a un lugar mas adecuado en la nueva imagen. 38 Un vector controla el movimiento de imagen entera de la imagen conocida como macrobloque. El tamaño del macrobloque depende de la codificación DCT y la estructura de muestreo del color. La figura 14a muestra que en un sistema 4:2:0, el espaciamiento vertical de las muestras de croma es exactamente el doble que las muestras de luminancia. Un simple bloque 8x8 de muestras de crominancia se extiende sobre la misma área que 4 bloques 8x8 de luminancia. Por lo tanto, esta es la mínima área que puede ser desplazada por un vector. Un macrobloque 4:2:0 contiene cuatro bloques de luminancia, uno de croma Cr y una de croma Cb. En el perfil 4:2:2, el color es muestreado solo en la dirección horizontal. La figura 14b muestra que un bloque de crominancia se extiende sobre la misma área que dos bloques de luminancia. Un macrobloque 4:2:2 contiene 4 bloques de luminancia, 2 bloques de Cr y dos bloques de Cb. El estimador de movimiento trabaja comparando los macrobloques de luminancia de dos imágenes sucesivas. 39 Figura 14. Espaciamiento Vertical Un macrobloque en la primera imagen es usado como referencia. Cuando la entrada es entrelazada, los píxeles estarán en posiciones verticales diferentes en los dos campos, y por lo tanto, será necesario interpolar un campo antes de que sea comparado con el otro. La correlación entre la referencia y todos los posibles desplazamientos es medida con una resolución de medio píxel sobre el rango entero de la búsqueda. Cuando se encuentra la correlación más grande, esta es asumida como la correlación que representa al movimiento. Este vector de movimiento tiene una componente vertical y una horizontal. En material típico, el movimiento es continuo a través de las imágenes. Una mejora en la compresión se logra si estos vectores se transmiten diferencialmente. Consecuentemente, si un objeto se mueve a velocidad constante, los vectores diferenciales serán cero. Los vectores de movimiento están asociados a 40 macrobloques, no a objetos concretos. Puede haber ocasiones en que parte del macrobloque se movió y parte no. En este caso es imposible compensar apropiadamente. Si el movimiento de la parte móvil es compensado trasmitiendo un vector de desplazamiento, la parte estacionaria estará mal compensada y habrá la necesidad de corregir datos de diferencia. Si no se envía un vector, la parte estacionaria estará bien compensada pero habrá que corregir la parte móvil. Un compresor inteligente podría comparar ambas técnicas y quedarse con la que requiere menos datos diferenciales. 2.2.9 Codificación Bidireccional Cuando un objeto se mueve, va ocultando el fondo delante suyo y revelando el fondo que tiene detrás. El fondo revelado, requiere que sean trasmitidos nuevos datos ya que no hay información previa de ese fondo ahora revelado. Lo mismo ocurre cuando la cámara realiza un paneo, van apareciendo nuevas áreas de las cuales no se tenía información de ellas. MPEG ayuda a minimizar este problema introduciendo la codificación bidireccional, que permite que la imagen actual sea codificada teniendo en cuenta la información de imágenes antes y después de la actual. La figura 15 muestra el concepto de codificación bidireccional. Sobre una base de macrobloques individuales, una imagen codificada bidireccionalmente puede obtener compensación de movimiento de una imagen anterior o posterior, o aún de un promedio de ambas. La codificación 41 bidireccional reduce la cantidad de datos diferencia, mejorando el grado de predicción posible. Figura 15. Codificación Bidireccional 2.2.10 Imágenes I, P y B En MPEG, se necesitan tres tipos diferentes de imágenes para soportar codificación diferencial y bidireccional, mientras se minimiza la propagación del error. Las imágenes I, son codificadas Intra, y no requieren información adicional para la decodificación. Requieren un montón de datos más que las otras imágenes, y por lo tanto no se trasmiten más que la cantidad necesaria. 42 Consisten primariamente de coeficientes transformados y no tienen vectores. Estas imágenes permiten la conmutación de canales y detienen la propagación del error. Las imágenes P, son predichas hacia delante a partir de una imagen previa que puede ser una imagen I o una P. Los datos de estas imágenes contienen vectores que indican en que posición en la imagen anterior estaba cada macrobloque y la diferencia que debe ser sumada para reconstruir ese macrobloque. Las imágenes P requieren, más o menos, la mitad de datos que las imágenes I. Las imágenes B son predichas bidireccionalmente a partir de imágenes anteriores o posteriores I o P. Los datos en estas imágenes consisten de vectores que indican en que posición en la imagen anterior o posterior deberían ser tomados los datos. También contienen los coeficientes transformados de la diferencia que debe ser sumada para reconstruir el macrobloque. Estas imágenes son las que requieren menos datos para ser creadas. La figura 16 introduce el concepto de GOP o Group of Pictures. Cada GOP comienza con una imagen I y tiene imágenes P espaciadas regularmente. Las restantes son imágenes B. El GOP esta definido hasta la última imagen antes de la siguiente imagen I. Tienen largos variables, pero 12 o 15 son los valores más comunes. 43 Claramente, si los datos de las imágenes B van a ser tomados de imágenes futuras, esas imágenes deben estar disponibles tanto en el codificador como en el decodificador. Por lo tanto, la codificación bidireccional requiere el almacenamiento temporal de imágenes. La figura 16 también muestra que las imágenes P son enviadas antes que las B. Cabe notar además, que las últimas imágenes B no pueden ser enviadas sino hasta que la siguiente imagen I del siguiente GOP sea trasmitida, ya que se requiere de este dato para codificar bidireccionalmente dichas imágenes B. Con el fin de regresar las imágenes en su secuencia correcta, se introduce una referencia de tiempo en cada imagen. Las marcas de tiempo son analizadas en la sección 4.4.2. El almacenamiento temporal de imágenes requiere de cierta memoria adicional tanto en el codificador como en el decodificador, e introduce además cierto retardo. Se deberá controlar entonces la cantidad de imágenes B, para poder controlar dicho retardo. La figura 17 muestra el compromiso existente entre factor de compresión y retardo en la codificación. Para una calidad dada, enviar solo imágenes I, requiere de más del doble de bit rate que enviar IBBP. 44 Figura 16. Group of Pictures (GOP) Figura 17. Factor de Compresión y Retardo en la Codificación8 8http://www.fuac.edu.co/autonoma/pregrado/ingenieria/ingelec/proyectosgrado/compresvideo/MPEG1.htm 45 3. CODIFICACIÓN DE LA TRAMA DE AUDIO AC-3 3.1 Introducción Esta sección provee una guía en codificación de AC-3. Como AC-3 depende de la sintaxis y proceso de decodificación, El codificador no es especificado. La única norma requerida para el codificador es que la trama de salida cumpla con la sintaxis para AC-3. Algunos codificadores mas sofisticados pueden ofrecer mejor desempeño de audio, y pueden operar a menores tasas de bits. Estos codificadores se espera mejoren con el tiempo. Todos los decodificadores se beneficiarán con los avances en los codificadores. 46 3.2 Resumen del Proceso de Codificación 3.2.1 Entrada PCM (Modulación por Pulsos Codificados) 3.2.1.1 Tamaño de Datos de Entrada El codificador AC-3 acepta audio solo en formato PCM. El rango dinámico interno de AC-3 acepta un tamaño para estas entradas de hasta 24 bits para ser funcional. 3.2.1.2 Tasa de Muestreo para la Entrada La frecuencia de muestreo para la entrada debe estar sincronizada con la salida, de manera que cada cuadro contenga 1536 muestras de audio. Si la entrada de audio en formato PCM esta disponible en otra frecuencia que la requerida se debe realizar una conversión para lograr el sincronismo a esta tasa de muestreo. 47 3.2.1.3 Filtro de Entrada Los canales individuales a la entrada deben pasar por un filtro pasa altas, ya que al remover la componente DC de la señal, el proceso de codificación se vuelve mas eficiente. De igual manera, hay un riesgo que las señales que no alcancen el 100% del nivel PCM antes del filtro pasa altas, excedan el 100% del nivel después del filtrado, siendo recortadas durante este proceso. Un codificador típico utilizaría el filtro pasa altas con un solo polo de filtrado a 3 Hz. El canal LFE (Low Frecuency Effects) que transporta los bajos, debe ser sometido a un filtro pasa bajas a 120 Hz. Un codificador normal utilizaría un filtro elíptico de 8vo orden con una frecuencia de corte de 120 Hz9. 9 http://www.fuac.edu.co/autonoma/pregrado/ingenieria/ingelec/proyectosgrado/compresvideo/compresion_audio.htm 48 Input PCM blksw flags Transient Detect Forward Transform cplg strat Coupling Strategy Form Coupling Channel rematflgs Rematrixing Extract Exponents expstrats Exponent Strategy dithflgs Dither Strategy Encoded Spectral Envelope Encode Exponents Mantissas Normalize Mantissas bitalloc params baps Core Bit Allocation QuantizeMantissas Pack AC-3 Frame Side Information Main Information Output Frame Figura 18. Diagrama de Flujo del Proceso de Codificación 49 3.2.2 Detección de Transitorios Los transitorios son detectados en todo el ancho de banda del canal con el fin de decidir cuando cambiar los bloques de audio a longitud corta para mejorar el desempeño del Pre-Eco. Las versiones de las señales filtradas con filtros pasa altas son examinadas para incrementar la energía de un segmento de tiempo de un sub-bloque al siguiente. Los sub-bloques son examinados a diferentes escalas de tiempo. Si un transitorio es detectado en la segunda mitad de un bloque de audio de un canal, este canal se cambia a bloque corto. Los canales que utilizan cambio de bloques usan la estrategia de codificación D45. El detector de transitorios es usado para determinar cuando cambiar de bloque de transformada amplia (tamaño 512), a bloque corto (tamaño 256). Este opera a 512 muestras por cada bloque de audio. Esto es realizado en dos pasos, y en cada uno de estos pasos son procesadas 256 muestras. Esta detección de transitorios se lleva a cabo de 4 pasos: 1. Filtrado Pasa-Alta 2. Segmentación de bloques en sub-bloques 3. Detección de la amplitud pico para cada uno de los sub-bloques 4. Comparación del Umbral. 50 El detector de transitorios coloca una bandera en la salida (blksw[n]) para cada ancho de banda de los canales, la cual cuando esta en uno “1”, indica la presencia de transitorio de la segunda mitad de los 512 para la entrada del canal correspondiente. 1. Filtrado Pasa-Alta: Este filtro es implementado en cascada directa con filtros de segundo orden y frecuencia de corte en 8 Khz. 2. Segmentación de bloques: Las muestras de un bloque filtrado con pasa altas son segmentadas dentro de un árbol jerárquico compuesto por tres niveles; el primer nivel representa el bloque de 256, el segundo nivel son dos segmentos de 128, y el nivel 3 son 4 segmentos de 64. 3. Detección de Amplitud Pico: Identifica la muestra con la mayor amplitud para cada segmento en cada nivel del árbol jerárquico. Los picos para cada nivel son encontrados de la siguiente manera: 4. Comparación de Umbral: La primera etapa del comparador de umbral chuequea si hay un nivel significativo de señal en el bloque actual. Esto se lleva a cabo mediante una comparación entre el valor pico general y un umbral estándar denominado “umbral silencioso”. Si el valor pico general esta por debajo de este umbral silencioso entonces se elige un bloque de longitud larga. El valor de este umbral silencioso es 100/32768. 51 La siguiente etapa de este comparador chequea los niveles pico relativos de los segmentos adyacentes en cada nivel del árbol jerárquico. Si el pico de cualquier segmento adyacente en un nivel particular excede un umbral pre-definido para dicho nivel, entonces se le asigna una bandera para indicar la presencia de un transitorio en el bloque actual de 256. 3.2.3 Transformada en Adelanto 3.2.3.1 Ventaneo El bloque de audio es multiplicado por una función de ventana para reducir el efecto de los límites de transformada y para mejorar la selectividad de la frecuenta en el banco de filtros. Los valores de la ventana están incluidos en la siguiente tabla: 52 Tabla de Secuencia para la Transformada de Ventana addr = (10 * A) + B B=0 B=1 B=2 B=3 B=4 B=5 B=6 B=7 B=8 B=9 A=0 0.000 0.000 0.000 0.000 0.000 0.000 0.001 0.001 0.001 0.001 14 24 37 51 67 86 07 30 57 87 A=1 0.002 0.002 0.002 0.003 0.003 0.004 0.005 0.005 0.006 0.007 20 56 97 41 90 43 01 64 32 06 A=2 0.007 0.008 0.009 0.010 0.011 0.012 0.013 0.015 0.016 0.018 85 71 62 61 66 79 99 26 62 06 A=3 0.019 0.021 0.022 0.024 0.026 0.028 0.030 0.032 0.035 0.037 59 21 92 72 62 63 73 94 27 70 A=4 0.040 0.042 0.045 0.048 0.051 0.054 0.058 0.061 0.065 0.068 25 92 71 62 65 81 10 53 08 78 A=5 0.072 0.076 0.080 0.084 0.089 0.093 0.098 0.103 0.108 0.113 61 58 69 95 35 89 59 43 42 56 A=6 0.118 0.124 0.129 0.135 0.141 0.147 0.153 0.160 0.166 0.173 85 29 88 63 52 57 76 11 61 25 A=7 0.180 0.186 0.194 0.201 0.208 0.216 0.223 0.231 0.239 0.247 05 99 07 30 67 18 82 61 52 57 A=8 0.255 0.264 0.272 0.281 0.289 0.298 0.307 0.316 0.325 0.334 74 04 46 00 65 41 29 26 33 50 A=9 0.343 0.353 0.362 0.372 0.381 0.391 0.400 0.410 0.420 0.430 76 11 53 04 61 26 96 72 54 40 A=1 0.440 0.450 0.460 0.470 0.480 0.490 0.500 0.510 0.520 0.530 0 30 23 20 19 20 22 25 28 31 33 53 B=0 B=1 B=2 B=3 B=4 B=5 B=6 B=7 B=8 B=9 A=1 0.540 0.550 0.560 0.570 0.580 0.589 0.599 0.609 0.619 0.628 1 33 31 26 19 07 91 70 44 12 73 A=1 0.638 0.647 0.657 0.666 0.675 0.684 0.693 0.702 0.711 0.720 2 27 74 13 43 64 76 77 69 50 19 A=1 0.728 0.737 0.745 0.753 0.761 0.769 0.777 0.785 0.792 0.800 3 77 23 57 78 86 81 62 30 83 22 A=1 0.807 0.814 0.821 0.828 0.834 0.841 0.847 0.853 0.860 0.865 4 47 57 51 31 96 45 79 98 01 88 A=1 0.871 0.877 0.882 0.887 0.892 0.897 0.902 0.907 0.911 0.916 5 60 16 57 82 91 85 64 28 76 10 A=1 0.920 0.924 0.928 0.931 0.935 0.939 0.942 0.945 0.948 0.951 6 28 32 22 97 58 06 40 60 67 62 A=1 0.954 0.957 0.959 0.962 0.964 0.966 0.968 0.970 0.972 0.974 7 44 13 71 17 51 74 87 89 81 63 A=1 0.976 0.977 0.979 0.980 0.982 0.983 0.984 0.986 0.987 0.988 8 35 99 53 99 36 66 88 02 10 11 A=1 0.989 0.989 0.990 0.991 0.992 0.992 0.993 0.994 0.994 0.995 9 05 94 76 53 25 91 53 11 64 13 A=2 0.995 0.996 0.996 0.996 0.997 0.997 0.997 0.997 0.998 0.998 0 58 00 39 74 06 36 63 88 11 31 54 B=0 B=1 B=2 B=3 B=4 B=5 B=6 B=7 B=8 B=9 A=2 0.998 0.998 0.998 0.998 0.999 0.999 0.999 0.999 0.999 0.999 1 50 67 82 95 08 19 29 38 46 53 A=2 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 2 59 65 69 74 78 81 84 86 88 90 A=2 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 3 92 93 94 95 96 97 98 98 98 99 A=2 0.999 0.999 0.999 1.000 1.000 1.000 1.000 1.000 1.000 1.000 4 99 99 99 00 00 00 00 00 00 00 A=2 1.000 1.000 1.000 1.000 1.000 1.000 5 00 00 00 00 00 00 Nótese que los 256 coeficientes dados, son usados de ambos lados para formar una ventana simétrica de 512 puntos. 55 3.2.3.2 Transformada de Tiempo a Frecuencia Basada en la bandera de cambio de bloque, cada bloque de audio es transformado al dominio de la frecuencia mediante un transformada de longitud N=512, o dos transformadas pequeñas con N=256. Siendo x[n] la secuencia de tiempo ventaneada a la entrada. De esta manera la salida de frecuencia XD[k] se define por: -2 N −1X [k] = ∑ x[n] cos ⎛ 2π (2n π+1)(2k +1) + (2k +1)(1+α )⎞D ⎜N ⎝ ⎟⎠ n = 0 4N 4 Para 0 ≤ k < N/2 -1 para la primera transformada corta donde α = 0 para la transformada larga +1 para la segunda transformada corta 56 3.2.4 Estrategia de Acoplamiento 3.2.4.1 Codificador Avanzado Codificadores avanzados pueden usar una variación dinámica de parámetros de acople. Las frecuencias de acople deben ser hechas con capacidad variable dependiendo a la demanda de bits y a un modelo psicoacústico que compare la audibilidad de artefactos causados por la demanda de Bits contra aquellos causados por el proceso de acople. Los canales con rápida variación de nivel en el tiempo, deben ser removidos del acople. Canales con variación lenta de nivel en el tiempo se les debe enviar sus coordenadas a menudo. La estructura de la banda de acople debe ser fabricada con capacidad dinámica10. 3.2.5 Formación del Canal de Acople 3.2.5.1 Canal de Acoplamiento Los codificadores básicos pueden formar un canal de acoplamiento, sumando todos los coeficientes de los canales individuales y dividiendo por 8. La división por 8 previene que el canal de acoplamiento se exceda del valor uno “1”. 10 www.atsc.org/standards/a_52a.pdf 57 Los codificadores mas sofisticados pueden cambiar el signo de los canales individuales antes de sumarlos para así evitar la cancelación de fase. 3.2.5.2 Coordenadas de Acople Las coordenadas de acople se utilizan para preservar las altas frecuencias de las moduladoras de los canales originales. Son formadas tomando cocientes de energía dentro de cada banda de acople. La potencia en el canal original dentro de la banda de acople es dividida por la potencia en el canal de acople dentro de la banda de acople. Este cociente de energía se convierte en la coordenada de acople. Las coordenadas de acople son convertidas en puntos flotantes y cuantizadas. Los exponentes para cada canal son examinados para ver si ellos pueden ser escalados mas adelante por 3, 6 o 9. Esto genera la coordenada de acople maestra de 2-bits para dicho canal. (La coordenada de acople maestra permite el rango dinámico representado por la coordenada de acople para que se incremente.) 58 3.2.6 Reajustar Matriz Reajustar matriz en AC-3 es una técnica de combinación de canales en donde las sumas y diferencias de canales correlacionados son codificadas de una manera preferencial a la de los canales originales. Reajustar Matriz se activa solo en modo 2/0. Dentro de cada banda de reajuste de matriz, las medidas de potencia son hechas en señales L, R, L + R Y L – R. Si la máxima potencia se encuentra en los canales L o R, la bandera de reajustar matriz no se activa para esa banda. Si la máxima potencia se encuentra en las señales L + R o L – R, entonces se activa la bandera de reajustar matriz. Cuando la bandera esta activa, los códigos del codificador son L + R y L – R en vez de L y R. 3.2.7 Extraer Exponentes La representación binaria de cada coeficiente de frecuencia es examinada para determinar el número de ceros líderes. El número de ceros líderes (máximo 24) se vuelve el valor inicial del exponente. Estos exponentes son extraídos y toman un valor (uno para cada bloque por cada canal, incluyendo el canal de acople) que es utilizado para determinar una apropiada estrategia de exponente. 59 3.2.8 Estrategia de Exponente Para cada canal, la variación en exponentes sobre frecuencia y tiempo es examinada. Si los exponentes indican un espectro relativamente plano, una estrategia de exponente tal como D25 o D45 debe ser usada. Si el espectro es muy torneado, entonces una estrategia de exponente de alta resolución espectral como D15 o D25 se debería utilizar. Si el espectro cambia un poco en 6 bloques por cuadro, los exponentes se deben enviar para el bloque 0, y rechazar los bloques del 1 al 5. Si los exponentes están cambiando rápidamente durante un cuadro, los exponentes se deben enviar al bloque 0 y a esos bloques que tienen exponentes establecidos que se diferencien significativamente de los exponentes enviados anteriormente. Existe un intercambio entre una resolución fina de frecuencia y una resolución fina de tiempo, y el número de bits requeridos para enviar exponentes. En general, cuando se opera a una tasa muy baja de bits, es necesario un intercambio de tiempo contra resolución de frecuencia. En un codificador básico se debe utilizar un simple. Primero hay que ver la variación de exponentes en el tiempo. Cuando la variación excede un umbral, se enviaran nuevos exponentes. La estrategia de exponentes usada se hace dependiente en cuantos bloques va a utilizar el nuevo exponente. 60 Si los exponentes se utilizaran para un solo bloque, entonces la estrategia es D45. Si los nuevos exponentes utilizaran 2 o 3 bloques, entonces utilice la estrategia D25. Si los nuevos exponentes utilizaran 4,5 o 6 bloques, utilice estrategia D15. 3.2.9 Codificación de Exponentes Basados en la estrategia seleccionada, los valores de cada exponente son preprocesados. Las estrategias D25 y D45 requieren que un exponente sea compartido mucho más que una mantisa. Los exponentes serán codificados diferencialmente para la transmisión en la trama de bits. La diferencia con exponentes sucesivos no necesariamente produce códigos diferenciales reales (máximo valor de ±2) si el Slew Rate de los exponentes es mejor que lo permitido por la estrategia. El preprocesamiento ajusta los exponentes para que los coeficientes de la transformada que compartan un exponente tengan el mismo exponente y los diferenciales sean valores reales. El resultado de este procesamiento es que algunos exponentes reducirán sus valores y las mantisas correspondientes tendrán ceros líderes. Los exponentes son codificados diferencialmente para generar el espectro de la envolvente. Como parte del proceso de codificación, un grupo de exponentes es 61 generado lo cual es igual a un grupo de exponentes que el decodificador obtendrá cuando decodifique la envolvente espectral codificada. 3.2.10 Normalizar Mantisas Todos los coeficientes de transformada para cada canal, son normalizados mediante un corrimiento hacia la izquierda que se hace tantas veces como el numero del exponente lo indique para crear mantisas normalizadas. Los coeficientes de frecuencia de binaria, son corridos hacia la izquierda de acuerdo a los exponentes que el decodificador utilizará. Algunas de las mantisas normalizadas tendrán ceros líderes. Las mantisas normalizadas son cuantiadas11. 3.2.11 Empaquetación AC-3 Toda la información es empaquetada en la trama AC-3 codificada. Algunas de las mantisas cuantiadas son agrupadas y codificadas por un código. El formato de la salida depende de la aplicación. El cuadro debe ser puesto en una ráfaga o transmitido como una trama serial a una tasa constante. 11 http://ict.pue.udlap.mx/people/raulms/avances/codificacion.html 62 4. MODULACIÓN 8-VSB 8-VSB (8 niveles – Banda Lateral Única) es el formato de modulación utilizado por el estándar DTV (ATSC) de televisión digital para transmitir bits digitales a través de las ondas aéreas al consumidor en su hogar. Debido a que cualquier sistema de televisión de transmisión terrestre tiene que superar varios deterioros de canal, tales como fantasmas, disparos de ruido, desvanecimientos de señal e interferencias, para llegarle al televidente, la selección del formato de modulación apropiado es crítica. En el mundo alfabético de las comunicaciones digitales, hay dos siglas importantes a recordar en cuanto al sistema DTV completo: 8-VSB y MPEG-2. El 8-VSB es el formato de modulación de la DTV; el MPEG-2 es su formato de compresión de vídeo y empaquetezación de datos. Esto es, hay dos etapas distintas de procesamiento para convertir el vídeo de alta definición a una forma aceptable para su radiodifusión: la codificación MPEG y la modulación 8-VSB. De acuerdo con esto hay dos equipos principales al corazón del sistema de transmisión DTV: el codificador MPEG-2 y el excitador 8-VSB. 63 El codificador MPEG-2 toma el vídeo digital de banda base y realiza la compresión para reducir su taza de bits, utilizando las técnicas de “transformada discreta de coseno,” “codificación (de truncamiento) de duración,” y “predicción de movimiento bidireccional”. El codificador MPEG-2 luego mezcla la información de vídeo comprimida con el audio Dolby AC-3 precodificado y cualesquier datos auxiliares a ser transmitidos. El resultado es un flujo altamente comprimido de paquetes MPEG-2 con una frecuencia de datos de solo 19.39 Mbit/seg. Esta es de ninguna manera una tarea trivial, ya que el vídeo digital de alta resolución (o programas múltiples de vídeo de resolución estándar) fácilmente puede tener una taza de datos de 1 Gbit/seg o más. Este flujo de datos de 19.39 Mbit/seg a la salida del codificador MPEG-2 es conocido como el Nivel de Transporte DTV. Esta señal se transmite en forma serial desde el codificador al excitador 8-VSB vía un cable coaxial de 75-ohm, según el protocolo de interfaz SMPTE-310. Aunque las técnicas de compresión MPEG-2 pueden lograr reducciones asombrosas de la taza de bits, son necesarios aún más trucos para empacar los 19.39 Mbit/seg del Nivel de Transporte DTV dentro del estrecho canal de RF de 6 MHz para la transmisión al aire. Esta es función del excitador 8-VSB. 64 La Figura 19 es un diagrama de bloques de un excitador 8-VSB típico. Figura 19. Diagrama de Bloques, Excitador 8-VSB 4.1 Sincronización de Datos La primera cosa que hace el excitador 8-VSB al recibir los paquetes de datos MPEG-2 es sincronizar sus propios circuitos internos a la señal de entrada. Antes de hacer cualquier procesamiento, el excitador necesita identificar correctamente los puntos de comienzo y de fin del paquete de datos MPEG-2. Esto se hace por medio de los bytes de sincronismo MPEG-2. Los paquetes MPEG-2 son 188 bytes de largo con el primer byte en cada paquete siendo siempre el byte de sincronía. Una vez localizado, el byte de sincronía MPEG-2 es eliminado; el mismo será 65 reemplazado más tarde con la sincronía de segmento ATSC en otra etapa de procesamiento12. 4.2 Embrollador de Datos Con la excepción de las sincronías de segmento y de campo, es imperativo que el flujo de bits 8-VSB tenga una característica “casi” completamente aleatoria y parecida al ruido. Esto es porque la respuesta de frecuencia de la señal transmitida necesita tener un espectro plano (tal como ruido) para utilizar el canal RF limitado con la máxima eficiencia. Si el flujo de datos tuviera patrones repetitivos, el ritmo recurrente de dichos patrones causaría una aglomeración de la energía de RF en ciertos puntos discretos del espectro de RF, dejando así espacios subutilizados a otras frecuencias. Además, la fuerte concentración de la energía de RF a ciertas frecuencias de modulación tendría una mayor probabilidad de crear batidos discernibles en un receptor NTSC, en el caso de tener una interferencia DTV con NTSC. En el embrollador de datos, cada byte es modificado según un patrón conocido de generación de números pseudoaleatorios. Este proceso es invertido en el receptor para recuperar los valores de byte originales. 12 http://www.broadcast.net/~sbe1/8vsb/8vsb.htm 66 4.3 Codificación Reed-Solomon La codificación Reed-Solomon es una técnica de la corrección progresiva de errores (FEC) aplicada al flujo de datos entrante. La corrección progresiva de errores es un término general que se le aplica a una variedad de técnicas que son utilizadas para corregir los errores de bit que ocurren durante la transmisión. El ruido atmosférico, la propagación multi-trayectória, y las no-linealidades del transmisor pueden provocar errores en los bits recibidos. La corrección progresiva de errores puede detectar y corregir estos errores, dentro de un límite razonable. El codificador Reed-Solomon toma los 187 bytes del paquete MPEG-2 entrante después de haberle quitado el byte de sincronía al paquete y los manipula matemáticamente como un bloque para crear una especie de “etiqueta de identificación digital” del contenido del bloque. Esta “etiqueta” ocupa unos 20 bytes adicionales, que el codificador anexa a la cola del paquete original de 187 bytes. Estos 20 bytes son conocidos como los bytes Reed-Solomon de paridad. El receptor DTV compara los 187 bytes del bloque recibido con los 20 bytes de paridad para verificar la validez de los dados recuperados. Si se detectan errores, el receptor determina que la “etiqueta” no corresponde al paquete y busca uno 67 parecido (con unos pocos bits cambiados) que mejor corresponda a la etiqueta recibida. Desafortunadamente, este tipo de corrección de errores tiene su límite. Mientras mayor es la diferencia entre los bytes Reed-Solomon y el paquete a recibirse, mayor es la probabilidad de error al tratar de juntar la etiqueta correcta con el paquete correcto. El esquema de codificación Reed-Solomon utilizado en la DTV puede corregir hasta diez bytes erróneos por paquete. Si hay demasiados errores de byte en un cierto paquete dado, el receptor no puede encontrar una pareja para la etiqueta de paridad con un nivel suficiente de certeza. La validez de los datos no puede ser confirmada y se tiene que desechar el paquete MPEG-2 completo. 4.4 Interfoliador de Datos El interfoliador de datos embrolla el orden secuencial del flujo de datos y dispersa el paquete de datos MPEG en tiempo (sobre un rango de más o menos 4,5 msec, por medio de buffers de memoria) para minimizar la sensibilidad de la señal transmitida a las interferencias de disparo. El interfoliador de datos luego construye paquetes nuevos, incorporando los fragmentos pequeños de muchos 68 paquetes MPEG-2 diferentes (pre-interfoliados). Estos paquetes reconstituidos tienen la misma duración que los paquetes MPEG-2 originales: 207 bytes (después de la codificación Reed-Solomon). Si la pérdida se limita a unos pocos bytes por paquete, el decodificador Reed- Solomon puede corregir los errores y recuperar los datos perdidos. La interfoliación de datos se hace de acuerdo con un patrón conocido. El proceso se invierte en el receptor para recuperar el orden correcto de los datos. 4.5 Codificador Trellis La codificación trellis (o de celosía) es otra forma más de la corrección progresiva de errores. A diferencia de la codificación Reed-Solomon, que procesa simultáneamente el paquete completo MPEG-2 como un bloque, la codificación trellis es un código evolucional que rastrea el flujo de bits a medida que transcurre el tiempo. Consecuentemente, la codificación Reed-Solomon es conocida como un código bloque, mientras que la codificación trellis es una forma de código convolucional. Para la codificación trellis, cada byte de ocho bits se divide para formar un flujo de cuatro palabras de dos bits cada una. En el codificador trellis, cada palabra de 2-bits a la entrada es comparada con la historia de las palabras de 2-bits anteriores1. Se genera matemáticamente un 69 código binario de tres bits para describir la transición de la última palabra de 2-bits a la actual. Estos códigos de 3-bits reemplazan las palabras de 2-bits originales y son transmitidos al aire como los símbolos de ocho niveles del 8-VSB. (3 bits = 23 = 8 13combinaciones o niveles). Por cada dos bits que entran al codificador trellis, salen tres. Por esta razón, se dice que el codificador trellis del sistema 8-VSB es un codificador de relación-2/3. El decodificador trellis del receptor utiliza los códigos de transición de 3-bits para reconstruir la evolución del flujo de datos de una palabra de 2-bits a la siguiente. De esta manera, el decodificador trellis sigue la “pista” (o trayectoria) del flujo de datos mientras pasa de palabra a palabra. El poder de la codificación trellis reside en su capacidad de rastrear la historia de la señal y descartar una información potencialmente falsa (errónea) a base del comportamiento pasado y futuro de la misma. 4.6 Inserción de la Piloto y Los Sincronismos El próximo paso en la cadena de procesamiento de la señal es la inserción de las varias señales “auxiliadoras” que ayudan al receptor DTV a localizar y demodular correctamente la señal de RF transmitida. Estas son la piloto ATSC, las sincronías 13 1En realidad, el codificador trellis del sistema DTV salta adelante doce símbolos a la vez para determinar la próxima transición de símbolo. Hay entonces doce codificadores trellis operando en paralelo. Esta es otra forma más de interfoliación y ofrece una protección adicional contra los disparos de ruido. Este esquema fue diseñado para operar en conjunto con un filtro de rechazo de interferencia NTSC en el receptor que hace uso de una línea de retardo de doce símbolos. 70 de segmento y de campo. Se insertan la piloto y las sincronías después de las etapas de embrollamiento y codificación FEC para no destruir las relaciones fijas en amplitud y tiempo que estas señales necesitan para que sean eficaces. El recuperar una señal de reloj para poder decodificar una forma de onda recibida siempre ha sido un propósito difícil en el mundo de las comunicaciones digitales. Los datos tienen que ser muestreados por el reloj del receptor para ser recuperados correctamente. El reloj del receptor, por sí mismo, tiene que ser generado desde los datos recuperados. El sistema de reloj resultante falla fácilmente cuando el nivel de ruido o de interferencia sube a tal punto que se reciba una cantidad significativa de errores de datos. Cuando el NTSC fue inventado, se previó la necesidad de tener un pulso de sincronía fuerte que estuviera por encima del resto la envolvente de modulación. De esta manera, los circuitos de sincronización del receptor podrían enganchar los pulsos de sincronía y mantener el tramaje correcto, aun cuando el contenido de imagen estuviera un poco nevoso. El 8-VSB utiliza una estrategia parecida de pulsos de sincronía y de portadora residual que ayuda al receptor DTV a engancharse a la señal entrante y comenzar 71 la decodificación, aun con la presencia de fantasmas fuertes o altos niveles de ruido. La primera señal “ayudante” es la piloto ATSC. Justo antes de la modulación, se le agrega a la señal de ocho niveles de banda base un pequeño offset de CD. (La señal de banda base era simétrica alrededor de cero voltios anteriormente). Esto hace que aparezca una pequeña portadora residual al punto de frecuencia cero (esto es, de la portadora no modulada) del espectro modulado resultante. Esta es la piloto ATSC. La piloto le da a los circuitos PLL del receptor algo sobre el cual engancharse que sea independiente de los datos transmitidos. Aunque similar en naturaleza, la piloto ATSC es mucho más pequeña que la portadora de vídeo en el NTSC, consumiendo solo 0.3 dB o el siete por ciento de la potencia transmitida. Las otras señales “ayudantes” son las sincronías de segmento y de campo ATSC. El segmento de datos ATSC contiene los 207 bytes del paquete de datos interfoliado. Después de la codificación trellis, el segmento de 207 bytes se ha alargado a un flujo de 828 símbolos de ocho niveles. La sincronía de segmento ATSC es un pulso de cuatro símbolos que se le agrega al comienzo de cada segmento de datos y que reemplaza el ausente byte inicial del paquete MPEG-2 original (byte de sincronía de paquete). La sincronía de segmento aparece una vez 72 cada 832 símbolos y siempre toma la forma de un pulso positivo-negativo-positivo que brinca entre los niveles +5 y -5 (Véase en la Figura 20)214. Los circuitos de correlación en el receptor se enganchan en el comportamiento repetitivo de la sincronía de segmento, que contrasta fácilmente contra el fondo de datos psuedoaleatorios. El receptor utiliza la sincronía de segmento recuperada para regenerar el reloj del sistema y muestrear la señal recibida. Debido a su alta frecuencia de repetición, su gran excursión de nivel y duración extendida, las sincronías de segmento son fáciles de encontrar por el receptor. Consecuentemente, la recuperación correcta del reloj es posible a niveles de interferencia muy arriba de las cuales en que la recuperación de datos es imposible. (Hasta 0 dB de S/R – la recuperación de los datos exige por lo menos 15 dB de S/R). Este sistema robusto de sincronización, junto con la piloto, le permite al receptor encontrar enganche rápidamente durante los cambios de canal y otras condiciones transitorias. La Figura 20 muestra el contenido del segmento de datos ATSC y la posición de la sincronía de segmento ATSC. 14 2Se usan los numerales { -7, -5, -3, -1, 1, 3, 5, 7} para representar los ocho niveles de símbolo. Estos son los ocho valores integrales menores que sean tanto equidistantes entre sí como centrados alrededor de cero. Cuando se hace la modulación, estos números son proporcionales a ocho niveles de voltaje de señal. Eso es, estos no representan poder, sino voltaje 73 Figura 20. Segmento de Datos de Banda Base Un segmento de datos ATSC corresponde más o menos a una línea NTSC; la sincronía de segmento ATSC es algo así como la sincronía horizontal en el NTSC. Por supuesto, las duraciones y frecuencias de repetición de cada señal son completamente diferentes. Cada sincronía de segmento ATSC dura 0,37useg; la sincronía NTSC dura 4.7 useg. Un segmento de datos ATSC dura 77.3 useg. ; una línea NTSC dura 63.6 useg. Una inspección cuidadosa de los valores citados revela que la sincronía de segmento ATSC es algo más “estrecho” que su equivalente NTSC. Esto se hizo para maximizar la carga de datos activos y minimiza el tiempo dedicado a la “carga auxiliar” de sincronía. Trescientos trece segmentos de datos consecutivos forman un campo de datos. La Figura 21 muestra la composición de un campo de datos ATSC. La sincronía de campo ATSC es un segmento entero que se repite una vez por campo 74 (24.2 mseg) y que corresponde más o menos al intervalo vertical en el NTSC315 . La sincronía de campo ATSC tiene un patrón conocido de símbolos en la forma de pulsos postivosnegativos repetitivos y es usada por el receptor para eliminar los fantasmas causados por la recepción deficiente. Esto se hace comparando la sincronía de campo recibida con errores contra la secuencia conocida de la sincronía de campo antes de la transmisión. Los vectores de error resultantes son utilizados para ajustar los taps (controles) de un ecualizador anti-fantasma en el receptor. Como en el caso de la sincronía de segmento, su gran excursión de nivel y su naturaleza repetitiva hace que la sincronía de campo pueda recuperarse a niveles muy altos de ruido e interferencia (hasta 0 dB de S/R). Figura 21. Campo de Datos de Banda Base ATSC 15 3Nótese, sin embargo, que a diferencia del NTSC, las sincronías ATSC no desempeñan ningún papel en el tramaje de la imagen proyectada en la pantalla del receptor. Esa información se codifica digitalmente como parte de la información de dirección en los paquetes MPEG. De segmento, su gran excursión de nivel y su naturaleza repetitiva hace que la sincronía de campo pueda recuperarse a niveles muy altos de ruido e interferencia (hasta 0 dB de S/R). 75 Al final de cada segmento de sincronía de campo, se repitan los últimos doce símbolos del último segmento activo para reiniciar el decodificador trellis en el receptor. La robustez de las sincronías de segmento y de campo hace posible la recuperación del reloj y la cancelación de fantasmas en el receptor 8-VSB, aun cuando la carga de datos activos es completamente corrompida por condiciones pobres de recepción. Esto le deja al ecualizador adaptivo anti-fantasmas para encontrar una señal útil antes de que se logre la decodificación exitosa de la carga de datos. 4.7 Modulación de Amplitud La señal DTV de banda base con ocho niveles, con las sincronías y el offset de CD de la piloto ya agregados, es luego modulada sobre una portadora de frecuencia intermedia (FI). Esto produce un amplio espectro de FI de doble banda lateral alrededor de la frecuencia portadora, como se muestra en la Figura 22. El ancho de banda de esta señal de FI es demasiado grande para que se pueda transmitir dentro del canal de RF asignado de seis megahertz. 76 Afortunadamente, hay trucos que se pueden emplear para eliminar por filtraje una gran parte de este espectro, sin que se destruya nada de la información vital digital. Una breve inspección de la Figura 22 revela el alto grado de redundancia en el espectro de FI de doble banda lateral. Los diversos lóbulos laterales son simplemente unas copias a escala del espectro central, y la banda lateral inferior es una copia invertida de la banda lateral superior. Esto hecho hace posible la casi completa eliminación de la banda lateral inferior y todos los lóbulos laterales de la banda lateral superior, sin que se pierda información. La parte restante de la señal (la mitad superior del espectro central) puede ser dividida en dos, gracias al teorema de Nyquist, que dice que para transmitir una señal digital con una cierta taza en bits/segundo, es preciso tener solo la mitad de ese valor en ancho de banda en Hertz.416 La tarea de cortar el espectro de FI de doble banda lateral a un tamaño reducido cae en la próxima etapa de procesamiento, el filtro Nyquist.517 16 4Invierta el orden de esta frase y tendrá el principio por atrás de la taza de muestreo de (al mínimo) “2x respuesta de frecuencia” en los lectores de CD y otros equipos de sonido digital. 17 5Hay varias maneras de implementar las etapas de modulación AM, filtraje VSB (BLU), e inserción de la piloto en un excitador 8-VSB; algunas de las cuales siendo completamente digitales e involucrando la síntesis directa en formato digital de las formas de ondas requeridas. Todas obtienen los mismos resultados a la salida del excitador. Nótese: La serie CD de excitadores 8-VSB de la Harris utiliza la síntesis directa de la señal, completamente en formato digital. 77 Figura 22. Señal de Base de 8 Niveles se Modulo en Amplitud sobre la portadora de FI Arriba: La señal de banda base al final de un segmento de sincronía de campo. Los trazados de color gris claro muestran la historia de la señal. Abajo: Otro segmento de sincronía de campo después de la modulación AM de la portadora de FI. Nótese como la envolvente modulada no es simétrica sobre el punto de portadora cero. Por ejemplo: Los símbolos alternantes de +5 y –5 a la izquierda no tienen la misma amplitud absoluta de envolvente de RF después de la modulación. Se le agrega un pequeño offset de CD a la señal de banda base antes de la modulación. Esto hace que una pequeña piloto residual aparezca a la frecuencia de la portadora no modulada. 78 Figura 23. Espectro de Doble Banda Lateral Creado por Modulación AM El espectro de RF de doble banda lateral creado por la modulación en amplitud de la señal de banda base en la portadora de FI es demasiado ancho para caber en el canal de RF de seis MHz. Como resultado de la adición de los datos auxiliares de la codificación FEC y las sincronías, la taza total de datos sube desde 19.39 Mbit/seg a la entrada del excitador a 32.28 Mbit/seg a la salida del codificador trellis. Ya que tres bits son transmitidos en cada símbolo de ocho niveles, la taza de símbolos resultante es de 32.28 Mb / 3 = 10.76 Millones de símbolos/seg. Gracias al teorema Nyquist, se pueden transmitir 10.76 M símbolos/seg en una señal de banda lateral única (VSB)618con un ancho de banda mínimo de ½ * 10.76 MHz = 5.38 MHz. En vista de que el canal otorgado tiene un ancho de banda de 6 MHz, es posible reducir la 18 6Nota: 8-VSB = 8 niveles – Banda Lateral Única (VSB en inglés) 79 brusquedad de la pendiente del filtro VSB y todavía caer dentro del canal de 6 MHz. El exceso de ancho de banda permitido (representado por α, la letra griega alpha) es de 11.5% para el sistema 8-VSB ATSC. Esto es, 5.38 MHz (ancho de banda mínimo por Nyquist) + 620 Khz. (11.5% exceso de ancho de banda) = 6.00 MHz (ancho de banda usado por el canal). Mientras mayor sea el factor de alpha utilizado, más fácil será la realización de los equipos, tanto desde el punto de vista del diseño del filtro como de la precisión necesaria del reloj para el muestreo. En la Figura 24 se muestra la respuesta de frecuencia después del filtro Nyquist. Nótese como el formato 8-VSB, tal como el NTSC tradicional, utiliza una técnica de banda lateral única para conservar el espacio de espectro. A diferencia del NTSC, el 8-VSB lleva este concepto más al extremo: la banda lateral inferior está casi completamente ausente. Figura 24. Espectro de Frecuencia RF del 8-VSB 80 Nótese la presencia de la piloto al borde inferior del canal. Se ha eliminado casi por completo la banda lateral inferior (el área por debajo de la frecuencia piloto). La eliminación casi total de la banda lateral inferior, combinada con el filtraje a banda estrecha de la banda lateral superior, provoca cambios significativos en la forma de onda de RF transmitida. La envolvente de FI 8-VSB experimenta una transformación y pierde la apariencia nítida de “escalera de ocho niveles” que tenía antes del filtro. El tren de pulsos de símbolo cuadrados que formaba la señal de FI de doble banda lateral es modificado por la respuesta de impulso del filtro Nyquist de banda estrecha. Esto se muestra en la Figura 25. Figura 25. Espectro del Filtro de Nyquist sobre la envolvente de FI del 8-VSB 81 Arriba: La envolvente de FI de doble banda lateral antes del filtro Nyquist. Abajo: La misma señal después del filtro Nyquist. Se han perdido las transiciones cuadradas y la envolvente adquiere una apariencia parecida al ruido. Cuando se filtra un pulso cuadrado para limitar su banda de frecuencias, se ablandan los bordes cuadrados del mismo y el pulso se pone a oscilar en tiempo tanto antes como después del pulso inicial. Para la señal 8-VSB, esto sería un desastre, ya que la pre y post-oscilación de un símbolo les causará problemas a los otros símbolos anteriores y siguientes, distorsionando así sus niveles y trastornando su contenido de información. Afortunadamente, todavía hay una manera de transmitir los pulsos de símbolo 8- VSB, si notamos que la información de ocho niveles es únicamente reconocida en el instante preciso de muestreo en el receptor. El resto del tiempo, la amplitud del pulso de símbolo no es importante y puede modificarse de cualquier modo que nos guste, siempre que la amplitud en el instante preciso de muestreo alcance uno de los ocho niveles requeridos. Si se hace el filtraje de banda estrecha correctamente, según el teorema de Nyquist, el tren resultante de pulsos de símbolo será ortogonal. Esto significa que a cada instante preciso de muestreo, únicamente un pulso de símbolo contribuirá a la forma de onda de RF final; todos los pulsos de símbolo anteriores y subsecuentes experimentarán un cruce de cero en sus amplitudes en aquel punto de tiempo. Esto se muestra en la Figura 26. 82 De esta forma, cada vez que el reloj del receptor muestrea la forma de onda de RF, el voltaje recuperado representará únicamente la amplitud del símbolo actual (uno de los ocho niveles posibles).719 Figura 26. Suma de Pulsos de símbolos ortogonales de banda estrecha A cualquier instante dado de muestreo (línea vertical), únicamente un solo pulso de símbolo contribuye la amplitud total de la señal. Todos los demás pulsos experimentan un cruce cero. La envolvente resultante de RF corresponde a los ocho niveles digitales sólo en los instantes exactos de muestreo. Nótese: Los 19 7Una aclaración: En realidad, el sistema 8-VSB tiene un par de filtros Nyquist emparejados – uno en el excitador (para reducir el ancho de banda transmitido) y el otro en el receptor (para eliminar la interferencia de canal adyacente). Cada filtro Nyquist proporciona solo la mitad de la respuesta de impulso ortogonal descrito antes. Esto es, la caída de la pendiente de cada filtro es de “media fuerza.” El efecto mostrado en la Figura 8, por ende, no existe completamente en la señal transmitida, sino solamente después del segundo filtro Nyquist en el receptor. 83 pulsos de símbolos están reflejados (tienen dos lados) porque estamos hablando de una envolvente de RF modulada. A todo instante entre los de muestreo, la forma de onda total de la envolvente de RF es la suma de la oscilación de docenas de símbolos anteriores y futuros (ya que todos los símbolos tienen una amplitud no-cero entre los instantes de muestreo). Note que, por motivos de simplificación, la Figura 26 muestra pulsos de símbolo de banda estrecha que oscilan por solo diez intervalos de muestreo, cuando en realidad estos oscilan por un tiempo mucho mayor. La suma de estos valores no-ceros (entre los instantes de muestreo) de docenas de símbolos puede alcanzar voltajes muy altos de señal. El resultado es una señal “picada” que se parece al ruido blanco. La relación pico-promedio de esta señal puede alcanzar los 8 – 10 dB, aunque el recorte de los picos de RF en el transmisor puede limitar este valor a los 6 – 7 dB sin consecuencias graves. Figura 27. Forma de Onda de RF del 8-VSB a la salida del excitador 84 Las regiones negras representan el trazo actual del osciloscopio; las regiones de color gris son los valores almacenados de todos los trazos anteriores. 4.8 Diagrama de Ojo del 8-VSB Una representación popular de la señal 8-VSB que pone énfasis en los principios que acaban de exponerse es el diagrama de ojo 8-VSB. El diagrama de ojo es la superposición de muchos trazos del voltaje de la señal de RF recibida al instante de muestreo. Ya que la señal RF tiene que alcanzar uno de los ocho niveles posibles a cada instante de muestreo (un poco como encontrar una silla en el juego de las sillas), la convergencia de los múltiples trazos de señal forma siete “ojos” que coinciden en tiempo con los pulsos de reloj en el receptor. Esto se muestra en la Figura 28. Figura 28. Diagrama de Ojo del 8-VSB 85 A cada instante de muestreo, la amplitud de la RF demodulada tiene uno de los ocho niveles posibles. La gráfica resultante se parece a siete “ojos” verticales. Si la señal 8-VSB se corrompe durante la transmisión, estos ojos se cierran y desaparecen, ya que la señal no tiene la amplitud correcta en el instante preciso 4.9 Constelación de Señal del 8-VSB Otra representación popular de la señal 8-VSB que es común a muchos de los equipos de prueba es la constelación de la señal 8-VSB. Esta es una representación gráfica bidimensional de la amplitud y fase de la portadora RF del 8-VSB a cada instante de muestreo. En el 8-VSB, la información digital se transmite exclusivamente en la amplitud de la envolvente de RF y no la fase. Esto no es como en los otros formatos de modulación, tales como QAM, donde cada punto en la constelación de señal es una cierta combinación vectorial de la amplitud y fase instantánea de la portadora. Una configuración de tipo QAM no es posible en un formato de banda lateral única como el 8-VSB, ya que la fase instantánea de la portadora no es una variable independiente bajo nuestro control, sino es utilizada para suprimir la banda lateral inferior. 86 Una comparación de la constelación de señal del 8-VSB contra la del 64-QAM se muestra en la Figura 29. Se recuperan los ocho niveles de símbolo al muestrear el voltaje a la salida de un detector en fase con la portadora (eje del canal I).820La constelación de señal del 8-VSB es por lo tanto una serie de ocho líneas verticales que corresponden a los ocho niveles transmitidos. Figura 29. Constelación de la señal 8-VSB contra la de 64-QAM La constelación de la señal 8-VSB es una serie de ocho líneas verticales sobre el eje I (en fase). No se usa el eje Q (cuadratura) para transportar información útil. Cuando la señal 8-VSB es corrompida, se borran las ocho líneas verticales y se reciben errores. 20 8El detector sincrónico está enganchado a la fase de la piloto ATSC. Siendo un pequeño residuo de la portadora original de RF no modulada, la piloto retiene en sí la información en cuanto a la referencia de fase (de la portadora no modulada). La piloto también le permite al receptor determinar la polaridad de los símbolos recuperados desde sus fases de portadora instantáneas. Por ejemplo: “en fase” con la piloto significa un símbolo positivo (por ejemplo +7), “opuesta en fase“ a la piloto significa un símbolo negativo (por ejemplo -7) 87 Los trazos de color gris claro agregados a la constelación 8-VSB muestran que la amplitud y fase instantáneas de la portador RF están en un estado de cambio constante; el muestreo en el receptor es como una lámpara estroboscopica que capta la señal al instante de pasar uno de los ocho niveles de amplitud. 4.10 Conversión Analógica y el Resto de la Cadena 8-VSB Después del filtro Nyquist, la señal 8-VSB en frecuencia intermedia (FI) se convierte mediante circuitos tradicionales de oscilador-mezclador-filtro a la frecuencia del canal asignado en la banda UHF (Ultra High Frequency) o VHF (Very High Frequency). La salida de RF del excitador 8-VSB se entrega luego al transmisor DTV. El transmisor es esencialmente un amplificador RF tradicional – sea de estado sólido o de tubo de vacío. La señal a la salida del transmisor es filtrada por un sistema RF de alta potencia para suprimir cualquier señal espuria fuera de la banda causada por las no-linealidades del transmisor. El último eslabón en la cadena de transmisión es la antena que transmite la señal RF 8-VSB de alta potencia. En el receptor, se demodula la señal transmitida, aplicándose el orden inverso de los conceptos ya explicados. La señal RF es recibida, se convierte a banda base, se filtra y detecta. Se recuperan las sincronías de segmento y de campo. La sincronía de segmento facilita la recuperación del reloj por el receptor y se utiliza 88 la sincronía de campo para ajustar el ecualizador anti-fanstasma adaptivo. Una vez recuperado el flujo correcto de datos, se le aplican técnicas de decodificación: decodificación trellis, de-interfoliación, decodificación Reed-Solomon, y de- embrollación; dando como resultado la restauración de los paquetes originales de datos MPEG-2. Los circuitos de decodificación MPEG-2 reconstruyen la imagen vídeo para su proyección en la pantalla del receptor. El consumidor recibe su DTV y la cadena es completa. 89 5. APLICACIONES DE SERVICIO DE DTV 5.1 VOD (VIDEO EN DEMANDA) El video por demanda es un servicio de contenido multimedia capaz de distribuir a un monitor de TV individual o computador, en el momento que es solicitado por el usuario, una película o cualquier programa de video localizado en una gran base de datos alojada en un servidor central, permitiendo su control interactivo. Los servicios de video por demanda se clasifican de acuerdo a su nivel de interactividad con el usuario, esto también implica en cómo es el despliegue de la información en el monitor del usuario y que tanto depende de los tiempos de programación preestablecidos por el proveedor del servicio; los tipos de servicio son los siguientes: Pague-Por-Ver (Pay-per-View, PPV), Casi Video-por-Demanda (Quasi-Video-on-Demand, Q-VoD), Video-por-Demanda Aproximado (Near- Video- on-Demand, N-VoD) y finalmente Video-por-Demanda Verdadero (True- Video-on- Demand , T-VoD). 90 En niveles de complejidad, los servicios PPV son los más fáciles de implementar y los servicios T-VoD los más difíciles, puesto que en este último caso el usuario tiene el control total sobre la sesión activa y puede solicitar un contenido multimedia en cualquier momento sin estar sujeto a programaciones preestablecidas del operador; el usuario escoge el contenido entre una lista almacenada en un servidor central y mientras establece la conexión efectiva en tiempo real y visualiza el video seleccionado, cuenta con las capacidades completas de un control remoto virtual (Virtual Control Remote, VCR), para lo que requiere una señal bidireccional desde el usuario al proveedor del servicio, una para recibir las tramas de video y otra para el envío de los comandos de señalización de usuario al servidor de la red21. 5.1.1 Arquitectura de un Sistema VOD Un sistema de Video por Demanda está compuesto de muchos elementos que son esenciales para ofrecer un servicio completo. Desde el lado del usuario, la localización de cada uno de los elementos involucrados es la siguiente: Unidades de almacenamiento temporal (Set-top Box, STB), Redes (Red de distribución local, Red Regional y Red principal o backbone), Oficina de Conmutación, Servidores locales de almacenamiento temporal (spooling) y Servidores de video y/o audio. 21 http://mediacat.upc.es/mediacat/vod.htm http://www.tdx.cesca.es/TESIS_UAB/AVAILABLE/TDX-1124104-162550/fcp2de4.pdf 91 5.1.1.1 Unidad Set-top Box El set-top box constituye una interfaz entre las unidades que los usuarios tienen en sus hogares (televisor), con la red del proveedor del servicio VoD; Permite que el usuario se conecte con el servidor de video y escoja a través de un menú de selección una película o un contenido de acuerdo a su gusto. Básicamente, los STB son computadores que sirven de interfaz usuario - red local de distribución y tienen funciones especiales; en su orden de ejecución son: • Recibir la señal de entrada MPEG para decodificar el video comprimido. • Sincronizar las tramas de audio y video resultantes. • Crear una señal compuesta NTSC (National Televisión Standards Committee), PAL (Phase Alternation Line), o SECAM (Sequential Couleur Avec Memoire) apropiada para el televisor. • Operar la interfaz de usuario. • Recibir las señales del control remoto, procesarlas y enviarlas al servidor de video • Proveer interfaz con otros dispositivos tales como equipos de sonido, teléfonos o teleputer (telephone/televisión/computer)22. 22 http://www.ldc.usb.ve/~redes/Temas/Tema47/set-top.htm 92 5.1.1.2 Oficina de Conmutación Es el lugar desde donde se distribuyen los servicios de VoD hacia los subscriptores. Ahí se encuentran los terminadores de cabecera (head-end) de las compañías telefónicas y de cable que contienen cuatro partes principales: Head- end, Gateway de tono de marcación de video (Video Dial Tone, VDT), Switch, Servidor local o de spooling. 5.1.1.3 Servidores Servidor Principal: El servidor de video es un dispositivo de entrada/salida (E/S) masivo en tiempo real, por lo cual necesita una arquitectura de software y hardware mucho más robusta que un simple PC o una estación de trabajo UNIX. Por lo tanto los servidores de video son el núcleo del sistema VoD y el componente que más requiere horas de ingeniería y consideraciones para su diseño. Servidor Local o de Spooling: Dispositivo encargado de pre-posicionar los videos más recientes y populares cerca de los usuarios, con el fin de ahorrar ancho de banda durante las horas de mayor tráfico en la red. 93 5.1.1.4 Redes En la figura 30 se pueden observar varias redes involucradas en la prestación del servicio VoD, una red de área amplia (Wide Area Network, WAN), que puede ser nacional o internacional y tiene capacidades de gran ancho de banda, es la columna vertebral del sistema; conectadas a ella están miles de redes de distribución regional, tal como TV por cable o sistemas de distribución de compañías telefónicas, y por último las redes distribución local que llegan hasta las casas de los usuarios, en donde terminan en un set-top box. 94 Servidor de Base de Video Datos Servidor de Audio Base de Datos Fibra Óptica Red Principal ATM/ SDH/SONET Oficina de Conmutación Fibra Óptica Red Regional Base de Datos Servidor Local de Spooling Par de Set Top Cobre Box Red Local de Distribución Par de cobre Hogar del usuario Oficina de Conmutación Servidor Gateway Switch para Terminación Tono de de Cabecera Marcación Servidor de Video Figura 30. Arquitectura Servicio VoD 95 5.1.2 Tecnologías de Acceso para VOD Las redes de acceso, o de último kilómetro, para la prestación de servicios de contenido multimedia como VoD pueden clasificarse en tres grupos dependiendo del medio físico sobre el cual se transmite la información así: • Cable de cobre: aquí se encuentran las tecnologías de línea de suscriptor digital (Digital Suscriber Line, xDSL). • Vía radio: donde se destacan Servicio de Distribución Punto Multipunto (Local Multipoint Distribution Service, LMDS) y Servicio de Distribución de Video Multipunto Multicanal por Ondas Milimétricas (Millimetre-wave Multichannel Multipoint Video Distribution Service, MMDS). • Cable coaxial y fibra óptica: se tienen las Redes Clásicas de Televisión por Cable (Community Antenna Televisión, CATV), Redes Híbridas Fibra/Coaxial (Hybrid Fiber/Coaxial, HFC), Red Óptica Pasiva (Pasive Optic Network, PON) y Fibra (Fiber to the x, FTTx). Para prestar el servicio de VoD con redes híbridas fibra/coaxial como CATV o HFC los proveedores de servicio de TPBC (Telefonía Pública Básica Conmutada) necesitan instalar nuevo cableado hasta los hogares de los usuarios y dispositivos 96 adicionales en los extremos, esto implica prácticamente construir toda la red de último kilómetro en cable coaxial, lo que acrecienta los costos; esta opción es viable para empresas de distribución de TV por cable que ya tienen una parte de infraestructura física instalada, pero no para empresas de TPBC. Por otro lado en redes HFC se utiliza un medio compartido sin llevar a cabo conmutación y enrutamiento por lo que cualquier suscriptor podría remover la información puesta en el cable sin ser descubierto y esto es un esquema inseguro en la prestación de este nuevo servicio. La cantidad de nueva infraestructura que deberían instalar los proveedores de TPBC para prestar el servicio con redes HFC, es comparable a la que se necesitaría para utilizar tecnologías FTTx, donde el proveedor de la red local debe instalar fibra en las áreas residenciales, algunas veces hasta el usuario y adicionalmente convertidores opto/eléctricos y electro/ópticos. Aunque en la tecnología Fibra hasta el Vecindario (Fiber to the Curb, FTTC), el segmento final es un enlace local punto-a-punto usando par trenzado y es conmutado por completo evitando problemas de remoción de información del medio, tampoco es un método viable para empresas de TPBC. Reduciendo las opciones, para las empresas de TPBC quedarían dos métodos posibles, acceso inalámbrico o utilización de tecnologías xDSL sobre par trenzado de cobre. Pero ya se han descartado otras tecnologías por los altos costos que estas agregan, en el caso de soluciones inalámbricas como LMDS y MMDS, 97 también se tendrían que invertir grandes cantidades de dinero, no en cableado, pero si en la infraestructura de antenas y licencias para el uso del espectro radioeléctrico en el cual trabajan estas tecnologías. Aunque una desventaja aparente de las redes cableadas para la prestación de servicios de VoD es la vulnerabilidad a daños físicos de los cables por el paso del tiempo, y esto no deja de ser un alto porcentaje de las fallas de la red, la solución de la red de acceso en cableado de cobre usando tecnología Línea de Suscriptor Digital Asimétrica (Asymmetric Digital Suscriber Line, ADSL) es la mejor propuesta que se tiene en la actualidad para la implementación del servicio VoD en una Empresa de TPBC por las siguientes razones: • Divide el ancho de banda total de forma asimétrica, dándole mayor prioridad al flujo de bajada que al flujo de subida, necesaria para el envío de tramas de video por demanda; esta distribución se observa en la Figura 31. Figura 31. Ancho de Banda ADSL 98 • Comparte el espectro con la telefonía o la transmisión de la Red Digital de Servicios Integrados (RDSI) sobre la misma línea, lo que permite el empleo simultáneo del par de cobre para la conversación telefónica y la transmisión de datos, gracias a esto una empresa de TPBC podría utilizar toda su infraestructura instalada existente de cables de cobre y además dispondría de una alta rata de transmisión hacia el usuario. • La proliferación de servicios de VoD en el mundo ha ocasionado que los costos de los dispositivos de modulación y demodulación (necesarios para la tecnología ADSL), tanto para las centrales de conmutación como para los usuarios, estén bajando y hace más accesible a los proveedores la prestación del servicio usando esta tecnología. 5.1.3 Arquitectura Con el fin de que las empresas de TPBC aprovechen el potencial de sus instalaciones para la prestación de servicios como VoD sobre clientes DSL, la infraestructura de los Multiplexores de Acceso a DSL (DSL Access Multiplexer, DSLAM), debe estar habilitada para soportar un alto tráfico, debido a la demanda de video streaming. Hoy en día las telcos que ofrecen video sobre DSL a sus clientes, experimentan un serio cuello de botella con los datos: mientras que un servidor puede entregar desde 200 hasta varios miles de tramas de video 99 simultáneas a líneas DSL (cada línea con un ancho de banda de 1.5 a 6 Mbps), el ancho de banda entre la central de conmutación y el DSLAM puede ser menor de 45 Mbps, aproximado a la capacidad de la portadora de señal digital nivel 3 (Digital Signal 3, DS-3) y estos compartidos con otros flujos como voz y datos. Desde que el ancho de banda entre la central de conmutación y el DSLAM limite la entrega de las tramas de video streaming, la oportunidad de prestar servicios de contenido multimedia sobre líneas DSL se ve severamente disminuida por este cuello de botella. 5.1.3.1 Lado del Proveedor Hacia el lado del proveedor del servicio, se tienen varios componentes por interconectar, los servidores de video, los DSLAM y la central de conmutación. Los DSLAM deben ir localizados en la central telefónica, aunque debe tenerse en cuenta que los usuarios que se sirvan con líneas DSL deben estar localizados en un rango de 5.5 Km para evitar la degradación de la señal con la distancia. Cada DSLAM soporta aproximadamente entre 200 y 2000 líneas DSL, por tal razón, en una central telefónica deben tenerse varios DSLAM. La arquitectura de interconexión propuesta para una empresa de TPBC, se basó en una solución de StreamboxTV patentada en diciembre del 2001 [STR 01], con 100 la cual se garantiza la entrega de un número ilimitado de tramas desde un servidor de video a usuarios con líneas DSL, sin causar congestión en la central de conmutación. Con esta arquitectura, los DSLAM se conectan con la central de conmutación a través de un switche del Modo de Transferencia Asíncrona (Asynchronous Transfer Mode, ATM) a velocidades de enlaces de portadores ópticos (Optical Carrier, OC) OC-3/OC-12 a 155-622 Mbps respectivamente. Los servidores se conectan con los DSLAM a través del mismo switche ATM a velocidades de enlaces OC-3/OC-12 (155-622 Mbps) y finalmente la central telefónica se conecta al switche ATM pero a sus velocidades de enlace (45 Mbps), de tal forma, que el ancho de banda de salida de la central de conmutación nunca va a limitar las velocidades de entrega de las tramas de video. El esquema propuesto se observa en la figura 32. CENTRAL DE CX Servidor de Video Voz y Datos ATM a 45 Mbps OC-3 OC-12 Switche ATM Video OC-3 / OC-12 Video, voz y datos DSLAM DSLAM DSLAM Video, voz y datos Líneas DSL a los usuarios Figura 32. Arquitectura interconexión lado proveedor 101 5.1.3.2 Lado del Usuario Hacia el lado del usuario, el esquema de interconexión es más sencillo ya que los flujos combinados de video y voz se modulan en los DSLAM de cada nodo y se envían al hogar del suscriptor sobre par trenzado de cobre; en la casa del usuario debe haber un módem ADSL encargado de separar nuevamente las tramas de video y voz que son repartidas al STB y al aparato telefónico respectivamente23. El esquema de interconexión se visualiza en la figura 33. Figura 33. Arquitectura interconexión lado usuario 23 http://www.tvdi.net/cgi-bin/trad/html/adsl/principal_adsl.html 102 5.2 MHP (Multimedia Home Plataform) Nota: Esta aplicación corresponde al estándar Europeo DVB, pero en vista que es un claro ejemplo y nos muestra la convergencia de tecnologías de redes multimedia con TELEVISIÓN DIGITAL, la anexamos a nuestro trabajo. Dada la reciente aparición del estándar MHP, durante su especificación se ha tenido en cuenta su posible evolución, por lo que se ha especificado un conjunto de perfiles que definen sus características y que vienen marcados por distintas áreas de actuación y niveles. Las áreas de actuación corresponden a lo que se ha denominado application profile, y los niveles a los profiles. Las áreas de actuación clasifican a las plataformas en función de las características de las aplicaciones que pueden ejecutar. En primer lugar, se define el área denominada Enhanced Broadcasting, que combina la transmisión digital de los servicios de vídeo y audio del operador con las aplicaciones que pueden ser descargadas para ser ejecutadas en el decodificador ofreciendo interactividad local; es decir, estas plataformas no poseen canal de retorno y la única interactividad que ofrecen se desarrolla en el propio decodificador del usuario. En segundo lugar, se sitúa el área correspondiente a Interactive Broadcasting, en la que se pueden proporcionar servicios interactivos que pueden o no estar asociados a los servicios de vídeo y audio ofrecidos por el operador, y que permiten una interactividad completa. En este caso, la plataforma está dotada de 103 un canal de retorno, con objeto de realizar la comunicación entre los descodificadores y la cabecera. Finalmente se define el área llamada Internet Access, cuyo objetivo es permitir proveer a los usuarios de servicios Internet. 5.2.1 Modelos de aplicaciones En MHP se definen dos modelos de aplicaciones que están claramente diferenciados. Por un lado, se presentan las aplicaciones DVB-J, basadas en tecnologías Java y por otro, las aplicaciones DVB - HTML, que se basan en el uso de HTML (lenguaje de marcación de hipertexto) y JavaScript. Aunque entre ambos modelos existen algunas diferencias, se presentan algunas características comunes a todas ellas. En primer lugar, como ya se ha mencionado, las aplicaciones presentan un ciclo de vida muy definido, evitando el paso por estados incontrolados que podrían llevar a la plataforma a inestabilizarse. Aún así, para mayor seguridad, 24se proveen mecanismos que permiten que el operador pueda controlar el estado de las aplicaciones mediante la señalización desde la cabecera. En segundo lugar, MHP permite la concurrencia, es decir, un mismo terminal puede estar ejecutando varias aplicaciones al mismo tiempo. Esto implica un control de acceso a los recursos, que se realiza teniendo en cuenta la capacidad del Application 24http://www.mhp.org 104 Manager. Finalmente, las aplicaciones están asociadas a un servicio, es decir, a un canal. En el momento en el que el usuario cambia de canal, la plataforma consulta qué aplicaciones debe ejecutar y procede en consecuencia. Por ello, MHP especifica un mecanismo para la señalización de aplicaciones permitiendo llevar a cabo esta operativa. Simplemente se deben utilizar el API disponibles. En el caso de aplicaciones DVB- J, estas son interfaces Java, recogidas de múltiples fuentes, como DAVIC, HAVi, JavaTV, y algunos de nuevo desarrollo como el paquete org.dvb.si. Para las aplicaciones DVB-HTML, se utiliza tecnología HTML y ECMAScript, haciendo visible la API Java a este último para poder llevar a cabo el acceso a la plataforma. Como conclusión, DVB-MHP ha especificado una plataforma estándar basándose en el conocimiento acumulado de experiencias anteriores y tratando de proveer mecanismos que faciliten su adopción en el mercado de la forma menos traumática posible. Para ello, sus principios de funcionamiento se basan en la definición de unos profiles que marcan la evolución de la plataforma, junto una arquitectura pensada para facilitar la portabilidad e interoperatividad de aplicaciones, que están sometidas a un ciclo de vida muy definido. En definitiva, la plataforma MHP es prometedora, debido principalmente a sus fundamentos y a las grandes implicaciones que puede traer al mundo de la Televisión Digital. 105 5.2.2 Señalización de Aplicaciones MHP En una plataforma MHP las aplicaciones están asociadas a un servicio. Se debe suministrar, por tanto, un mecanismo que permita llevar a cabo está asociación, y que a su vez el decodificador pueda interpretar. Este mecanismo es la Señalización de Aplicaciones, que tiene como objetivos la identificación y localización de las aplicaciones asociadas a un servicio, el control de su ciclo de vida desde la cabecera y la identificación de las fuentes de datos requeridas por las aplicaciones de un servicio. El flujo de transporte de un sistema de TV Digital contiene unas tablas denominadas PSI (Program Specific Information) que permiten realizar la decodificación del vídeo y audio emitidos. Una de estas tablas es la PAT (Program Associaton Table), que contiene los identificadores de otras tablas descriptoras de cada uno de los programas que son transportados, las tablas PMT (Program Map Table). Ésta realiza la descripción de cada uno de los programas que son transportados indicando sus componentes de audio, vídeo y datos, permitiendo de esta forma realizar su decodificación. Para poder identificar las aplicaciones que están asociadas a un servicio, se introduce un nuevo descriptor en la PMT, denominado Application signaling 106 descriptor, que contiene el identificador (PID) que permite localizar una nueva tabla, la AIT (Application Information Table). Por tanto, existe una AIT para cada programa o servicio que es emitido en un transport stream. Esta tabla contiene la lista de aplicaciones que están asociadas al servicio al que hacen referencia. Para poder realizar el control del ciclo de vida para cada una de las aplicaciones incluidas en la tabla se definen unos códigos de control (application control code), cuyo valor hace que la aplicación realice una transición al estado indicado. Finalmente, y con el objetivo de identificar las fuentes de datos que las aplicaciones necesitan, se incluye el (transport protocol descriptor), que hace referencia al protocolo de transporte utilizado, y el (dvb html application boundary), que permite definir los límites de una aplicación DVB-HTML. En el caso de las aplicaciones DVB-J estos límites quedan definidos a través de la señalización de extensiones para la variable de entorno CLASSPATH (Indica al compilador Java en qué rutas se encuentran los ficheros de clase). 5.2.3 Plug-ins La arquitectura de las plataformas MHP se completa con la capacidad de admitir plug-ins, que aportan una gran flexibilidad a la misma. Un plug-in se define como un conjunto de funcionalidades que pueden ser añadidas a la plataforma, de tal forma que sea capaz de interpretar aplicaciones y formatos de datos que no han sido definidos en la especificación. 107 Mediante el concepto de plug-in se resuelven dos problemas simultáneamente. Por un lado, se consigue que un amplio espectro de aplicaciones que han sido desarrolladas hasta la fecha sobre otras plataformas puedan llegar a funcionar en una plataforma MHP, facilitando en cierta medida la adopción del estándar a través de una transición suave hacia el mismo. Por otro lado, si se forzase la situación obligando a que todas las plataformas MHP funcionen de la misma forma y con las mismas características, se estarían eliminando elementos diferenciadores que al fin y al cabo son los que permiten competir a los proveedores de plataforma. Utilizando los plug-ins, éstos, pueden incluir en su plataforma ciertas funcionalidades que otros proveedores no ofrecen, presentando de esta forma un elemento diferenciador con el cual competir. La selección de plug-ins se debe dejar a elección de los usuarios, para que estos sean libres a la hora de escoger la fuente de servicios que utilizan. Esto se puede conseguir a través de diversos mecanismos. El usuario podría adquirir un equipo MHP en el que el plug-in venga suministrado de fábrica, de tal forma que su plataforma dispone de unas características particulares. Otra opción sería posibilitar la descarga de un determinado plug-in a través de una petición del usuario cuando éste necesita ejecutar una aplicación o interpretar un formato de datos que la plataforma no soporta. Y finalmente este proceso podría ser automatizado, siempre en función de los recursos disponibles en la plataforma. Sin embargo, quizás la mejor solución consista en una combinación de las tres posibilidades expuestas. 108 Para poder llevar a cabo su función, estos plug-ins deben encajar de alguna forma en la arquitectura de la plataforma, y efectivamente lo hacen situándose en alguna de las capas de software que se definen, clasificándose de este modo. Por un lado, se tienen los denominados Plug-ins Interoperables, que son desarrollados utilizando la API (Interfaz de programa de aplicación) Java de la plataforma y que, por tanto, se sitúan en la capa de aplicaciones. Por otro, se definen los Plug-ins de Implementación Específica, que se realizan en código nativo, y que pueden implementar una API Java no especificada que pueden utilizar las aplicaciones que se desarrollan sobre éstos.25 25 http://www.idg.es/comunicaciones/impart.asp?id=134360 109 6. CONCLUSIONES Actualmente en Colombia, no se encuentra aplicada esta tecnología, hablando de televisión radiodifundida y cableada. Después de estudiar los principios de Televisión Digital, notamos que la posibilidad de implementación de dicha tecnología en nuestro país se puede llevar a cabo utilizando las redes actuales e infraestructuras locales de nuestros municipios y departamentos. Esto para los más altos estratos. En Colombia encuestas recientes dicen que por cada hogar existen de 2 a 3 televisores, desafortunadamente estos no están en capacidad técnica para operar en DTV y el 90% de las personas no están en capacidad económica para adquirir los equipos necesarios para una buena operación de este nuevo servicio. El costo para esta implementación sería más que todo en la parte de mantenimiento de redes y adecuación, y equipos de cabecera para la recepción de canales como lo son receptores, codificadores en este caso, moduladores y combinadores. 110 La televisión digital es tecnología de punta y es fundamental la migración hacia ella ya que estamos obligados a conservar y a utilizar de manera óptima y eficiente nuestros recursos innatos como el espectro radioeléctrico. Los operadores de cable tienen una posibilidad de distribución de estas señales utilizando las redes actuales de telefonía, lógicamente las que estén en buen estado, no siendo tan costoso ya que los usuarios del servicio digital no necesitarían televisores adicionales sino decodificadores y Modems que son mas económicos. Las tecnologías xDSL han marcado una evolución sustancial en la transmisión de servicios de banda ancha al interior de empresas prestadoras de servicios básicos de telecomunicaciones como son la telefonía y transmisión de datos; es importante que las empresas de telecomunicaciones del país enfoquen sus esfuerzos hacia la consolidación de sus redes usando estas tecnologías, lo que no solo beneficiará al usuario, sino que proveerá a las empresas de TPBC de recursos tecnológicos para la prestación de servicios de contenido multimedia En la actualidad, se encuentran a escala mundial diversidad de proveedores de servicios de contenido multimedia con esquemas e interfaces diferentes y poco estandarizadas. Los organismos reguladores deben plantear soluciones para favorecer la interconectividad entre diferentes empresas proveedoras de estos servicios. 111 La filosofía que deben manejar las empresas debe estar orientada al cliente, él define si un servicio de DTV debe ser implementado o no, antes de que se diseñe e instale la infraestructura para estos fines; lo anterior garantiza que las inversiones realizadas por las empresas proveedoras se van a recuperar a mediano plazo. 112 7. BIBLIOGRAFÍA 1. RON TOTTY, ROBERT DAVIS AND ROBERT WEIRATHER. "The Fundamentals of Digital ATV Transmission". ATV Seminar in Print. Harris Corporation Broadcast Division, 1995. 2. RICHARD CITTA AND GARY SGRIGNOLI. "ATSC Transmission System: 8-VSB Tutorial". ITVS Montreux Symposium, June 12 – 17 1997. 3. ROBERT DAVIS AND EDWIN TWITCHELL. "The Harris VSB Exciter for Digital ATV". NAB 1996 Engineering Conference. April 15 - 18, 1996. 4. VICTOR PALADINO. Introducción a la Compresión de Video bajo el Estándar MPEG-2. (2002). 5. DAVID SOPRANO. “What is Exactly 8-VSB Anyway?”. Artículo. 6. ATSC Standard: Digital Audio Compression (AC-3), Revision A. Doc. A/52A. 20 August 2001. 113 7. PATRICIA HELENA FIERRO VITOLA Y BIBIANA SUAREZ OTERO. Video por Demanda (VOD). Articulo. Julio 2003. 8. Páginas WEB: www.atsc.org (Página Oficial de la ATSC) www.dvb.org (Página Oficial de la DVB) www.tektronix.com A Guide to MPEG Fundamentals and Protocol Analysis (Including DVB and ATSC), Tektronix. 114 GLOSARIO DE ACRÓNIMOS Y TÉRMINOS AC-3: Dolby Digital AC-3 es un sistema denominado de 5,1 canales debido a que proporciona 5 canales independientes (izquierdo, derecho, central, surround izquierdo y surround derecho); todos ellos reproducen una gama de 20 a 20.000 Hz. Además, el sistema puede proporcionar un canal subwoofer opcional independiente. A pesar de que los cinco canales proporciona un ancho total de banda que abarca todo el espectro audible, se añade un canal para los efectos sonoros de Baja Frecuencia para aquellos aficionados que exigen sonidos graves particularmente poderosos. Además, el sistema Dolby Digital AC-3 mejora la separación entre canales y la capacidad de que sonidos individualizados lleguen desde múltiples direcciones al oyente. Ancho de Banda: La cantidad de información que puede transmitirse en un momento dado. Se necesita un gran ancho de banda para mostrar imágenes con detalles nítidos. ATM: Asynchronous Transfer Mode (Modo de Transferencia Asíncrona). ATSC: Comité de Sistemas de Televisión Avanzada (ATSC, por sus siglas en inglés). Esta norma, conocida como la Norma ATSC, (Norma Americana). 115 Campo (field): Un campo corresponde a la mitad de las líneas de una imagen completa. El campo impar de una imagen esta constituido por las líneas 1, 3, 5, 7....y el par por las líneas 2, 4, 6, 8.....Si la imagen es entrelazada, esta se forma escaneando primero el campo impar y luego el par y entrelazando ambos campos. Cuadro (frame): Imagen completa. Si esta fue adquirida en forma entrelazada, un cuadro se refiere al conjunto de ambos campos. DCT: transformada discreta del coseno, Método muy extendido de compresión de datos de imágenes de video digital que consiste básicamente en analizar bloques de la imagen (normalmente de 8x8 píxeles) según frecuencias, amplitud y color. Entrelazado: Procedimiento que mezcla dos campos de un cuadro para formar el cuadro completo. Las líneas de cada campo se alternan en el mezclado. Gateway (pasarela): Dispositivo empleado para conectar redes que usan diferentes protocolos de comunicación de forma que la información puede pasar de una a otra. HDTV: Televisión de alta definición (High Definition Televisión). Formato de televisión que se caracteriza por una nueva pantalla con relación de aspecto de 16:9 (la actual es de 4:3) y capaz de reproducir con mucho más detalle (de 5 a 6 veces más) que los sistemas de broadcast existentes. 116 Imagen (Picture): Se refiere ya sea a un solo campo de un cuadro o al cuadro completo. Depende del contexto en que nos encontremos. ISO: Internacional Standars Organization (Organización Internacional de Normas). ISO/IEC 13818: Estándar MPEG-2, compuesto de 9 partes, con el numeral ISO/IEC 13818. El nombre completo es “Information Technology - Generic Coding of Moving Pictures and Associated Audio” ISO/IEC 13818. Las primeras 5 partes están organizadas como en MPEG-1, Las 4 partes adicionales son: La parte 6, Digital Storage Medium Command and Control (DSM-CC), provee la sintaxis para controlar el estilo de reproducción y acceso aleatorio de los bitstreams codificados y almacenados en medios digitales tales como el DVD. La parte 7, Non-Backward Compatible Audio (NBC), define una nueva sintaxis para audio surround en una forma que no es compatible con MPEG-1, por ejemplo el AC-3. La parte 8 es una extensión a la parte de video de MPEG-2 (13818-2) y define la sintaxis y semántica para la representación de video codificado con una precisión de 10 bits por muestra y La parte 9, Real Time Interface (RTI), define una sintaxis para señales de control de video bajo demanda. MPEG: Grupo de Expertos de Imágenes en Movimiento (Moving Picture Experts Group), ISO/CCITT. MPEG se ocupa de definir las normas para la compresión de datos de imágenes en movimiento. Su trabajo continúa el de JPEG, añadiendo la 117 compresión inter-campo, compresión extra potencialmente disponible en base a las similitudes entre cuadros sucesivos de imágenes en movimiento. En un principio se planificaron cuatro normas MPEG, pero la inclusión de HDTV en MPEG-2 ha hecho que MPEG-3 sea ahora redundante. MPEG-4 se emplea para diversas aplicaciones inconexas; el principal interés de la industria de la televisión se centra en MPEG-1 y MPEG-2. MPEG-1: Se diseñó para funcionar a 1,2 Mbits/seg., la velocidad de datos del CDROM, de modo que se pudiera reproducir vídeo mediante lectores de CD. Sin embargo la calidad no es suficiente para broadcast. MPEG-2: Se ha diseñado para cubrir un serie muy amplia de necesidades, desde "calidad VHS" hasta HDTV, mediante diferentes "perfiles" de algoritmos y "niveles" de resolución de imágenes. Con velocidades de transferencia de datos entre 1,2 y 15 Mbits/seg., hay un interés muy grande en el uso de MPEG-2 para la transmisión digital de señales de televisión, incluyendo HDTV, aplicación para la que se concibió el sistema. Nivel: Conjunto de parámetros de codificación, tales como bit y frame rate o picture format, que junto con el perfil definen el comportamiento de un codificador y decodificador, adecuado para determinada aplicación. NTSC: Comisión Nacional de Sistemas de Televisión (Estados Unidos). 118 Perfil: Indicador del grado de complejidad de un codificador. Cuanto mayor es el perfil en que opera un codificador, mejor es la calidad de la secuencia de video que produce para un determinado bit rate. Junto con el nivel, se establece el punto de operación de un codificador. RLC (Run Length Coding): codificación por longitud de carrera. Algoritmo de codificación que hace uso de largas cadenas de símbolos iguales para una codificación eficiente. SDTV (Imagen Definition TV): Televisión de definición estándar. TBPC: Telefonía Pública Básica Conmutada VLC (Variable Length Coding): Codificación de longitud variable. Algoritmo de codificación que hace uso de la estadística de los símbolos para codificar de forma más eficiente. Los símbolos más probables se codifican con palabras mas cortas. XDSL: Cualquiera de las tecnologías de Líneas de Suscripción Digital (por ejemplo, ADSL). 119 Y, Cr, Cb: Señal digitales de luminancia y diferencia de color en una codificación ITU-R 601. La señal de luminancia Y se muestra a 13.5 Mhz y las dos señales diferencia de color se muestrean a 6.75 Mhz simultáneamente con una de las muestras de luminancia. Cr es la versión digitalizada del componente analógico (R-Y), al igual que Cb es la versión digitalizada de (B-Y) 8-VSB: 8 niveles – Banda Lateral Única (VSB en inglés). 120 ANEXOS 1. La norma CCIR 601 de Televisión Digital o norma 4:2:2. Esta norma define los parámetros básicos del sistema de televisión digital que aseguran la mayor compatibilidad mundial. Se basa en una señal Y, Cr, Cb en el formato llamado 4:2:2 (4 muestreos Y por 2 muestreos Cr y 2 muestreos Cb), con una digitalización sobre 8 bits, con posibilidad de ampliarla a 10 bits para aplicaciones más exigentes. Cualquiera que sea el estándar de barrido, la frecuencia de muestreo es de 13.5 MHz para la luminancia Y. Para las señales de crominancia Cr y Cb, dado su ancho de banda más limitado se muestrean a la mitad de la frecuencia de la luminancia, es decir, 6.75 MHz. Lo que se corresponde con una definición de 720 muestreos por línea en luminancia y de 360 muestreos por línea de crominancia, cuya posición coincide con la de los muestreos impares de luminancia. Ver la Figura 1 121 Figura 1. Posición de los muestreos en el formato 4:2:2 Para esta frecuencia de muestreo, el número de muestras por línea es de 864 y 858 para la luminancia y de 432 y 429 para las diferencias de color (sistema de 625 y 525 líneas respectivamente). La estructura de muestreo es ortogonal, consecuencia de que la frecuencia de muestreo es un múltiplo entero de la frecuencia de líneas. Las muestras de las señales diferencias de color se hacen coincidir con las muestras impares de la luminancia, o sea 1ª, 3ª, 5ª, etc. El número de bits/muestra es de 8, tanto para la luminancia como para las señales diferencias de color, lo que corresponde a 28 niveles = 256 niveles de cuantificación. La luminancia utiliza 220 niveles a partir del 16 que corresponde al nivel de negro, hasta el 235 correspondiente al nivel de blanco. Se acepta una pequeña reserva del 10% para la eventualidad de que ocurran sobre modulaciones. Ver la Figura 2. 122 Figura 2. Cuantificación de la señal de luminancia Para las señales diferencias de color se utilizan 224 niveles, que se reparten a ambos lados del cero análogo, que se hace corresponder con el número digital 128. Así pues, la señal variará entre los valores extremos 128 + 112 = 240 y 128 - 112 = 16, con una reserva de 16 niveles a ambos lados. Ver la Figura 3. Figura 3. Cuantificación de la señal de crominancia Dado que las señales Cr y Cb están disponibles simultáneamente en cada línea, la definición vertical es idéntica tanto para luminancia como para crominancia, y se 123 corresponde con el número de líneas útiles del estándar de exploración de partida (480 para los estándar de 525 líneas, 576 para los de 625 líneas). El flujo bruto resultante es: (13.5 x 8)+(2 x 6.75 x 8) = 216 Mbit/s (270 Mbit/s con 10 bits) Además, la digitalización de la parte útil de la señal de video solo requiere 166 Mbit/s, si se tiene en cuenta la inutilidad de digitalizar los intervalos de supresión del haz (también llamados "blanking") de línea y campo. Por tanto, estos tiempos libres pueden aprovecharse para transportar los canales de sonido digital, así como datos de servicio u otros. A continuación se reproduce la norma 4:2:2 CCIR 601 en el Cuadro 1. Cuadro 1. Parámetros de la norma 4:2:2 Sistemas Parámetros NTSC PAL/SECAM 525 líneas 625 líneas 60 campos 50 campos 1. Señales codificadas Y, Cr, Cb 124 2. Número de muestras por línea completa • Luminancia 858 864 • Crominancia 429 432 3. Estructura de muestreo Ortogonal, estructura idéntica de todos los campos y cuadros. Las señales Cr y Cb se muestran simultáneamente con las muestras impares de la luminancia (1, 3, 5, etc.) 4. Frecuencia de muestreo • Luminancia 13.5 MHz • Crominancia 6.75 MHz 5. Codificación Cuantificación lineal. Codificación con 8 bits por muestra para la luminancia y cada señal de crominancia. 6. Número de muestras activas por líneas digital: • Luminancia 125 • Crominancia 720 360 7. Correspondencia entre los niveles de video y de cuantificación: 220 niveles de cuantificación. El nivel • Luminancia negro corresponde al número digital 16; el nivel nominal de blanco al número 235. 224 niveles de cuantificación en la parte central del margen de cuantificación. El • Crominancia nivel de video cero corresponde al número 128. 126 127