Sistemas y Aplicaciones SAI · Representación de Datos

Tema 10. Representación interna de los datos

🎁 Muestra Gratuita 🎧 35 audios incluidos

Tema 10. Representación interna de los datos

1. Índice

2. Vinculación curricular

El contenido de este tema se vincula directamente con los siguientes currículos de la familia profesional de Informática y Comunicaciones:

En Grado Superior de Desarrollo de Aplicaciones Multiplataforma (DAM), dentro del módulo DAW / Programación, se exige seleccionar y utilizar tipos de datos adecuados para optimizar el uso de la memoria en las aplicaciones.
En Grado Superior de Administración de Sistemas Informáticos en Red (ASIR), dentro del módulo Fundamentos de hardware, se exige distingue los formatos de representación de la información en el nivel físico y lógico del procesador.
En Grado Medio de Sistemas Microinformáticos y Redes (SMR), dentro del módulo Sistemas operativos monopuesto, se exige identificar la estructura de los sistemas de archivos y cómo almacenan internamente los datos el sistema operativo.

3. Introducción

Los sistemas informáticos utilizan el sistema binario para almacenar y procesar cualquier tipo de información. La unidad elemental de esta representación es el bit (dígito binario), que adopta valores de o para reflejar estados de voltaje en los circuitos físicos. El hardware agrupa estos bits en unidades modulares, como el byte (conjunto de ocho bits), para organizar la memoria y operar con bloques de datos de mayor tamaño.

Una cadena binaria almacenada en memoria carece de significado propio. La interpretación de una secuencia de bits depende del tipo de dato y del formato de representación asignado por el software o hardware. El procesador trata la misma cadena como un número entero, un valor de color para un píxel o una instrucción de máquina, siempre en función de las instrucciones que el programa ejecuta en ese momento.

El manejo de números con decimales provocaba incompatibilidades entre las distintas arquitecturas de procesadores. El estándar IEEE 754 unificó el cálculo con números reales entre distintos fabricantes de hardware. Este modelo utiliza una notación científica binaria que divide el espacio de almacenamiento en tres campos: signo, exponente y mantisa. Esta estructura garantiza que las operaciones matemáticas ofrezcan idéntico resultado sin importar la plataforma física subyacente.

Conocer la disposición en memoria previene errores de precisión, truncamiento y vulnerabilidades por desbordamiento de búfer. Esta falla de programación ocurre cuando el sistema escribe información más allá del límite de la variable originalmente asignada. Los datos excedentes sobrescriben zonas de memoria adyacentes, lo que permite alterar el registro de retorno de las funciones activas e inyectar instrucciones externas.

El almacenamiento de texto enfrentó retos similares durante la expansión internacional de la informática. El formato ASCII original empleaba siete bits y representaba exclusivamente caracteres del idioma inglés.

La adopción progresiva de Unicode resolvió los problemas de incompatibilidad de páginas de códigos regionales. Este formato universal asocia un número único a cada símbolo de escritura global y emplea codificaciones de longitud variable para representar la información de forma unificada.

💡 Historia Curiosa: Hasta finales de los años setenta, cada fabricante de ordenadores implementaba su propio método interno para representar números fraccionarios. En 1976, Intel contrató al matemático William Kahan para diseñar la lógica aritmética del coprocesador 8087. El diseño resultante definió reglas de precisión tan exactas que la industria lo utilizó como base directa para publicar el estándar IEEE 754 universal en 1985.

4. Desarrollo

4.1. Representación de datos numéricos enteros

4.1.1. Enteros sin signo

Los enteros sin signo abarcan exclusivamente valores numéricos positivos y el cero. Los sistemas informáticos utilizan la codificación binaria pura para representar estos datos en memoria. Esta codificación establece una correspondencia directa entre un número decimal y su equivalente en base dos.

El formato asigna a cada bit un peso posicional correspondiente a una potencia de dos. La posición más a la derecha representa el peso , e incrementa su valor progresivamente hacia la izquierda. El valor numérico total se obtiene sumando los pesos de las posiciones que albergan un bit con valor uno.

Podemos definir matemáticamente un número binario sin signo de bits mediante un polinomio. Cada bit multiplica a su base posicional correspondiente, estructurando la ecuación de conversión.

La capacidad de representación resulta directamente proporcional a la longitud de la palabra del procesador. Las arquitecturas de hardware manejan bloques de almacenamiento con longitudes fijas de 8, 16, 32 o 64 bits. Un incremento en esta longitud expande el límite superior de representación.

El rango operativo abarca desde el valor hasta el valor . El hardware alcanza este límite superior cuando asigna un valor lógico de uno a todos los bits disponibles en el registro.

Longitud de palabra	Valor mínimo	Valor máximo
8 bits	0	255
16 bits	0	65.535
32 bits	0	4.294.967.295
64 bits	0	18.446.744.073.709.551.615

Tabla: Límites de representación para enteros sin signo según la longitud de palabra.

El procesador opera estos números mediante circuitos sumadores y multiplicadores simples. La aritmética para enteros sin signo obedece a las leyes de la aritmética modular. Cuando un cálculo excede el valor máximo representable, el sistema descarta los bits sobrantes por la izquierda.

Este comportamiento provoca un desbordamiento que devuelve el resultado al inicio del rango. La ausencia de valores negativos simplifica la circuitería, limitando el uso de este formato a direcciones de memoria, contadores e índices de matrices.

4.1.2. Representación en signo y magnitud

Las aplicaciones informáticas requieren operar habitualmente con valores negativos. El formato de signo y magnitud soluciona esta necesidad dividiendo el registro de datos en dos campos de información independientes. El sistema destina el bit más significativo exclusivamente para almacenar el signo del número.

El convenio estándar establece que un valor de 0 en esta posición izquierda representa un número positivo. Un valor de 1 indica que el número es negativo. El hardware interpreta los bits restantes del registro para codificar el valor absoluto del número en binario puro.

El cálculo del valor decimal asume la siguiente expresión matemática, donde actúa como el bit de signo que determina el multiplicador inicial de la ecuación.

El rango de valores representables en una palabra de bits distribuye su capacidad simétricamente. El intervalo abarca desde hasta . Un registro de 8 bits puede contener valores comprendidos entre -127 y +127 bajo este formato estructural.

Diagrama: Estructura de distribución de campos en la codificación de signo y magnitud.

Esta representación presenta una anomalía matemática conocida como el doble cero. El sistema codifica el valor nulo mediante dos patrones binarios diferentes: un cero de signo positivo (00000000) y un cero de signo negativo (10000000).

⚠️ ¡Cuidado!: La existencia del doble cero dificulta la programación de bajo nivel y el diseño de los circuitos lógicos. La unidad de control del procesador debe incorporar comparadores adicionales para evaluar ambas representaciones de forma simultánea.

Las operaciones aritméticas padecen ineficiencias de procesamiento bajo este modelo. La circuitería debe comparar el signo y la magnitud de ambos operandos antes de ejecutar la instrucción. El sistema decide si suma o resta las magnitudes dependiendo de la coincidencia o diferencia de los signos iniciales.

4.1.3. Representación en complemento a 1

El modelo de complemento a 1 propone una técnica matemática para codificar números con signo sin separar la magnitud en un campo aislado. Los valores positivos conservan la misma representación binaria que en el sistema de signo y magnitud. El bit más significativo permanece en cero.

Para codificar un número negativo, el procesador invierte la totalidad de los bits de su versión positiva. El hardware aplica una puerta lógica NOT a cada posición, sustituyendo los ceros por unos y los unos por ceros. Esta inversión genera la representación negativa del valor original.

El rango de representación no experimenta cambios respecto al método de signo y magnitud. Los valores oscilan entre y . Matemáticamente, la obtención del complemento a 1 de un número se define mediante la sustracción de su valor al máximo representable.

El número +25 se codifica en 8 bits como 00011001. La versión negativa de esta misma cantidad se genera invirtiendo la cadena bit a bit. El procesador almacena el valor -25 en la memoria como el patrón 11100110.

❌ Error Común: Un fallo habitual de diseño consiste en pensar que esta inversión elimina la redundancia del valor nulo. El complemento a 1 mantiene el problema del doble cero, representando el +0 como 00000000 y el -0 como 11111111.

La adición aritmética en complemento a 1 requiere un mecanismo de retroalimentación de acarreo. Si la suma de dos operandos produce un bit de acarreo que desborda la posición más significativa, el circuito dirige ese bit hacia la posición menos significativa. Este ciclo suma una unidad extra al resultado final.

4.1.4. Representación en complemento a 2

La codificación en complemento a 2 constituye el formato estándar implementado en los procesadores contemporáneos. Los números enteros positivos inician su patrón con un cero y mantienen la notación binaria pura. El modelo transforma el cálculo de los valores negativos para optimizar el rendimiento del hardware.

El procesador genera un número negativo invirtiendo todos los bits de su variante positiva y sumando un uno al resultado obtenido. Esta operación asume una relación algebraica donde el complemento se define como la diferencia entre la base elevada a y el número original.

El proceso convierte el +25 (00011001) en -25 operando en dos fases de reloj. La circuitería invierte el patrón para obtener 11100110. Seguidamente, el sumador añade la unidad al bit menos significativo, produciendo el patrón definitivo 11100111.

Este diseño elimina por completo el estado del doble cero. El valor +0 (00000000) se invierte a 11111111. El circuito añade el valor uno al patrón invertido, provocando un desbordamiento que se descarta. El registro recupera el estado 00000000, dejando una representación única para la nulidad.

El intervalo de valores presenta una asimetría estructural, disponiendo de un número negativo adicional. Para bits, el rango abarca desde hasta . Un formato de 8 bits representa desde el -128 hasta el +127. El patrón 10000000 corresponde al -128, que no posee contraparte positiva.

El avance arquitectónico reside en la optimización de la unidad aritmético-lógica (ALU). El sistema ejecuta la suma y la resta mediante el mismo hardware sumador. El procesador convierte la resta en la suma , eliminando la necesidad de incorporar circuitería sustractora dedicada.

Diagrama: Flujo de ejecución de la sustracción en la ALU implementando el complemento a 2.

El procesador descarta directamente cualquier acarreo generado por el bit más significativo. El hardware delega la detección de errores a un indicador de desbordamiento. El estado de desbordamiento ocurre cuando dos operandos del mismo signo producen un resultado con el bit de signo contrario.

La conversión entre longitudes de bits diferentes exige aplicar la regla de extensión de signo. Si un sistema transfiere un valor de 16 a 32 bits, el hardware copia el bit de signo hacia todas las posiciones izquierdas vacantes. El proceso preserva el valor numérico rellenando con ceros para números positivos y con unos para los negativos.

4.1.5. Decimal codificado en binario (BCD) empaquetado

El BCD empaquetado suministra un puente de comunicación entre la base decimal y el procesamiento digital interno. El modelo prescinde de convertir las cifras completas en bloques binarios largos. El método traduce cada dígito decimal individual a un código binario delimitado por cuatro posiciones.

El procesador necesita cuatro bits para dar soporte a los caracteres decimales del 0 al 9. Las representaciones abarcan desde el patrón 0000 hasta el 1001. Las seis combinaciones binarias restantes (1010 a 1111) constituyen estados ilegales que los decodificadores ignoran sistemáticamente.

El adjetivo empaquetado significa que el hardware consolida dos dígitos decimales dentro de un solo byte de memoria. El sistema aloja la decena en los cuatro bits superiores y la unidad en el cuarteto inferior. Un byte de capacidad almacena el rango completo desde el valor 00 hasta el 99.

Valor Decimal	Formato Binario Puro (8 bits)	Formato BCD Empaquetado (8 bits)
45	00101101	0100 0101
82	01010010	1000 0010
99	01100011	1001 1001

Tabla: Comparativa estructural entre binario puro y codificación BCD empaquetado.

Los desarrolladores implementan este formato para garantizar la exactitud financiera en los aplicativos empresariales. El estándar de coma flotante introduce errores de aproximación al intentar fraccionar en base dos operaciones como multiplicaciones de capital. El BCD elude el error manteniendo el escalado exacto de los céntimos.

🧩 Analogía: La arquitectura BCD funciona como un cuentakilómetros analógico en un vehículo. Cada rueda numérica posee posiciones mecánicas del cero al nueve. Cuando una rueda supera la cifra máxima, retorna al cero y provoca un salto de unidad en la rueda situada inmediatamente a su izquierda.

La suma en codificación BCD exige un reajuste aritmético específico tras procesar los bits. Si el sumador detecta que un cuarteto arroja un valor superior a nueve, o genera un acarreo hacia el siguiente cuarteto, interviene el hardware de corrección. El procesador suma el patrón binario 0110 (el número seis) para forzar el salto correcto a la siguiente posición decimal válida.

El diseño impone una penalización en el uso del almacenamiento físico y la memoria principal. El descarte constante de las combinaciones superiores al nueve provoca que la notación ocupe más volumen de bytes para el mismo dígito frente al binario puro. No obstante, los entornos de cálculo contable y programación mainframe justifican este consumo a cambio de una precisión estricta.

4.2. Representación de datos numéricos reales

4.2.1. Representación en coma fija

La representación en coma fija asume una posición estática para el punto binario dentro de la palabra de datos. El sistema reserva un número fijo de bits para la parte entera y otro para la fraccionaria, limitando el rango representable. Esta distribución se define durante el diseño del sistema o de la aplicación.

Si consideramos una palabra de datos de bits, el programador asigna bits para representar el valor entero y bits para el valor fraccionario. El formato total cumple la relación matemática .

El hardware procesa estos números utilizando los mismos circuitos aritméticos diseñados para los números enteros. La unidad aritmético-lógica realiza sumas y restas sin requerir circuitería adicional para alinear el punto decimal.

El valor decimal de un número binario sin signo en coma fija se calcula mediante una suma ponderada de potencias de base dos. Los bits a la izquierda del punto binario tienen exponentes positivos, y los bits a la derecha tienen exponentes negativos.

La coma fija sufre un problema de escala. Un diseño que reserva muchos bits para la parte entera carece de la precisión necesaria para representar fracciones pequeñas. Un diseño que favorece la parte fraccionaria agota rápidamente su capacidad para representar números grandes.

Esta rigidez provoca errores de desbordamiento en cálculos que producen resultados inesperadamente altos. Los ingenieros de software recurren a esta técnica únicamente en procesadores de señales digitales o microcontroladores pequeños que carecen de hardware dedicado para operaciones más complejas.

4.2.2. Fundamentos de la representación en coma flotante

La representación en coma flotante representa números mediante un signo, una mantisa (parte significativa) y un exponente con sesgo. Esta técnica se inspira en la notación científica y ajusta dinámicamente la posición del punto binario según la magnitud del valor.

El hardware divide la palabra de datos en tres campos independientes. El valor del número real se reconstruye matemáticamente multiplicando la mantisa por una base elevada al exponente.

El signo ocupa un único bit en la posición más a la izquierda de la palabra. El procesador asigna el valor cero para los números positivos y el valor uno para los números negativos. El cero matemático tiene representaciones tanto positivas como negativas.

La mantisa almacena los dígitos significativos del número. El sistema guarda la mantisa en formato normalizado para maximizar la precisión de los datos. Un número normalizado sitúa un único dígito distinto de cero a la izquierda del punto binario.

Dado que la base empleada por los sistemas informáticos es dos, el único dígito distinto de cero posible es el uno. El formato aprovecha este hecho matemático asumiendo la existencia del uno implícito y almacena únicamente los bits fraccionarios a su derecha.

El exponente con sesgo define la magnitud del número. El formato suma una constante positiva predefinida, denominada sesgo, al valor real del exponente. El sistema almacena este resultado positivo en el campo del exponente.

El uso del sesgo evita el empleo de la notación en complemento a dos para el campo del exponente. Esta decisión permite que el hardware compare dos números en coma flotante utilizando instrucciones de comparación de enteros estándar, facilitando la ordenación de datos en memoria.

Diagrama: Componentes lógicos de un número en coma flotante.

4.2.3. Estándar IEEE 754 de precisión simple

El estándar IEEE 754 precisión simple utiliza 32 bits (1 signo, 8 exponente, 23 mantisa) para aplicaciones de uso general. Los diseñadores de microprocesadores implementan este formato directamente en el hardware para acelerar el cálculo de gráficos tridimensionales y señales de audio.

El campo del exponente de 8 bits abarca valores desde 0 hasta 255. El sesgo establecido para la precisión simple es 127. El procesador calcula el exponente real restando 127 al valor numérico almacenado en este campo de 8 bits.

Los 23 bits de la mantisa almacenan la parte fraccionaria del número normalizado. Al considerar el bit implícito que el hardware añade durante las operaciones, la precisión efectiva del formato asciende a 24 bits.

Podemos ilustrar el funcionamiento del estándar convirtiendo el valor decimal -0.75 a binario. El número es negativo, por lo que el procesador asigna un 1 al bit de signo.

El valor absoluto 0.75 se traduce a binario como 0.11. El algoritmo normaliza el valor desplazando el punto binario una posición a la derecha, obteniendo . El exponente real resultante es -1.

El hardware aplica el sesgo sumando 127 al exponente real (-1). El exponente almacenado es 126, que en binario corresponde a 01111110.

La mantisa conserva los dígitos a la derecha del punto binario del número normalizado. El único dígito fraccionario es 1, y el sistema rellena los 22 bits restantes con ceros. El patrón final de 32 bits ensambla los tres componentes calculados.

🧩 Analogía: La coma flotante funciona como la lente de un microscopio de laboratorio. El exponente ajusta el nivel de aumento general, acercando el enfoque a dimensiones astronómicas o subatómicas. La mantisa representa los detalles finos de la imagen que observamos a través de ese nivel de aumento específico.

4.2.4. Estándar IEEE 754 de precisión doble

El estándar IEEE 754 precisión doble utiliza 64 bits (1 signo, 11 exponente, 52 mantisa) cuando se requiere mayor precisión de cálculo. Los programas de simulación física, modelado meteorológico y análisis financiero utilizan este formato de manera predeterminada.

El sesgo aplicado al exponente en este formato es 1023. La combinación de 11 bits para el exponente amplía el rango de valores representables desde aproximadamente hasta .

La representación finita de números reales infinitos genera un error de cuantificación. Ciertas fracciones exactas en base diez, como 0.1, se convierten en secuencias periódicas infinitas en base dos y deben truncarse para caber en los bits disponibles de la mantisa.

El estándar define políticas exactas para el descarte de los bits sobrantes. La técnica predeterminada se denomina redondeo al par más cercano. Si el valor se encuentra exactamente en el punto medio entre dos representaciones posibles, el hardware selecciona aquella que termina en un bit cero.

La precisión doble minimiza la acumulación de estos errores en algoritmos que ejecutan millones de operaciones iterativas. Los 52 bits de mantisa proporcionan una resolución equivalente a 15 o 17 dígitos decimales significativos.

Formato	Tamaño total	Bit de signo	Bits de exponente	Bits de mantisa	Valor del sesgo
Precisión simple	32 bits	1	8	23	127
Precisión doble	64 bits	1	11	52	1023

Tabla: Comparativa de tamaños y distribución de bits en los formatos IEEE 754.

❌ Error Común: Comparar la igualdad estricta de dos variables de coma flotante en el código fuente. Las acumulaciones de errores de redondeo provocan que valores matemáticamente idénticos difieran en sus bits menos significativos. El programador debe restar ambos valores y comprobar si el valor absoluto de la diferencia es menor que un pequeño umbral de tolerancia.

4.2.5. Valores especiales en el estándar IEEE 754

El estándar IEEE 754 reserva combinaciones de exponente y mantisa para representar el cero, infinitos y valores NaN (Not a Number). Estas codificaciones garantizan que los programas manejen condiciones excepcionales sin colgar el procesador inmediatamente.

El hardware interpreta un número como cero cuando el exponente y la mantisa contienen exclusivamente bits a cero. El bit de signo permanece activo, generando representaciones separadas para el cero positivo y el cero negativo.

El valor de infinito se codifica saturando todos los bits del exponente a uno y manteniendo la mantisa a ceros. Este valor aparece cuando el resultado aritmético supera el límite máximo representable del formato, un evento conocido como desbordamiento.

La aritmética del infinito respeta las normas matemáticas direccionales. Sumar un número finito a un infinito devuelve infinito, y dividir un número finito entre infinito genera un cero.

El valor NaN se identifica cuando el exponente tiene todos sus bits a uno y la mantisa posee al menos un bit distinto de cero. La unidad aritmético-lógica produce este valor tras ejecutar operaciones matemáticamente indefinidas, como dividir cero entre cero o calcular la raíz cuadrada de un número negativo.

Existen dos categorías de este valor especial. El NaN silencioso fluye a través de cálculos posteriores propagando su estado sin generar alertas de hardware. El NaN señalizador dispara una excepción a nivel de sistema operativo en cuanto un cálculo intenta procesarlo.

Finalmente, los números denormalizados ocurren cuando el exponente almacena todos sus bits a cero, pero la mantisa contiene algún bit a uno. En este estado, el hardware asume que el bit implícito de la mantisa es cero en lugar de uno.

Los valores denormalizados permiten representar cifras extremadamente cercanas a cero. Cubren el espacio numérico vacío que existe entre el cero absoluto y el número normalizado más pequeño posible, gestionando la pérdida de precisión de manera gradual frente al desbordamiento negativo.

4.3. Representación de datos alfanuméricos y lógicos

4.3.1. Representación de caracteres mediante el código ASCII

El código ASCII (American Standard Code for Information Interchange) asigna patrones numéricos a los caracteres de texto. Este estándar utiliza 7 bits para representar un total de combinaciones diferentes del alfabeto inglés. La tabla de códigos se divide operativamente en dos grandes categorías: caracteres de control y caracteres imprimibles.

Los caracteres de control ocupan los valores numéricos del 0 al 31, además del valor 127. El procesador utiliza estos valores para gobernar el comportamiento de los periféricos o dar formato al texto. Los ejemplos más habituales incluyen el retorno de carro, el salto de línea, la tabulación horizontal o el carácter nulo de terminación.

Los caracteres imprimibles abarcan los valores del 32 al 126 de la tabla. Agrupan las letras mayúsculas, las letras minúsculas, los diez dígitos decimales y los distintos signos de puntuación. El carácter correspondiente al espacio en blanco ocupa la primera posición imprimible con el valor decimal 32.

La representación binaria de los caracteres facilita las operaciones de conversión léxica en la unidad aritmético-lógica. Una letra mayúscula y su equivalente en minúscula difieren únicamente en el valor del sexto bit. El sistema transforma mayúsculas en minúsculas modificando este bit sin necesidad de estructuras de control complejas.

🎯 Tip: Para alternar la capitalización de una letra en código ASCII, el procesador ejecuta una operación lógica a nivel de bit XOR con la constante numérica 32 sobre la variable de texto.

El estándar también alinea los dígitos del 0 al 9 con los valores hexadecimales del 0x30 al 0x39. Los cuatro bits de menor peso del código ASCII coinciden exactamente con el valor binario del dígito representado. Esta decisión de diseño simplifica las conversiones hacia formatos de cálculo matemático como el decimal codificado en binario.

Valor Decimal	Valor Hexadecimal	Binario (7 bits)	Carácter	Tipo
0	0x00	`0000000`	NUL	Control
32	0x20	`0100000`	Espacio	Imprimible
48	0x30	`0110000`	0	Imprimible
65	0x41	`1000001`	A	Imprimible
97	0x61	`1100001`	a	Imprimible

Tabla: Muestra representativa de la asignación de valores en el estándar ASCII de 7 bits.

4.3.2. Formatos extendidos de 8 bits y código EBCDIC

La limitación a 7 bits impide codificar caracteres específicos de idiomas europeos, como las vocales acentuadas, las diéresis o la letra eñe. La arquitectura de los computadores adopta el byte (8 bits) como la unidad de direccionamiento en la memoria principal. Esta alineación física permite utilizar el octavo bit sobrante del código ASCII para ampliar la tabla de asignación original.

Los formatos extendidos de 8 bits duplican la capacidad de representación hasta alcanzar caracteres posibles. Los primeros 128 valores mantienen la codificación estricta de ASCII para garantizar la compatibilidad con el software existente. Los 128 valores superiores asumen grafías locales o símbolos matemáticos, dependiendo de la región geográfica para la que se diseñe el mapa de caracteres.

La estandarización de estas extensiones se formaliza en familias de códigos conocidas como páginas de códigos. El estándar ISO 8859-1 (Latin-1) incorpora los símbolos ortográficos de los idiomas de Europa occidental. El hardware y los sistemas operativos utilizan otras variantes de la misma familia, como ISO 8859-5 o ISO 8859-7, para cubrir alfabetos cirílicos o griegos.

En paralelo, los entornos de mainframes desarrollan el código EBCDIC (Extended Binary Coded Decimal Interchange Code). Este formato también utiliza 8 bits de amplitud, pero emplea un mapeo numérico totalmente distinto. Los códigos EBCDIC añaden caracteres específicos de idiomas europeos, pero no garantizan la retrocompatibilidad con las tablas ASCII.

❌ Error Común: El ordenamiento de listas alfanuméricas produce resultados diferentes si se ejecuta sobre EBCDIC o sobre ASCII extendido.

La principal diferencia operativa entre ambos formatos reside en el ordenamiento léxico de los caracteres. El formato EBCDIC sitúa las letras antes que los números en la tabla de valores decimales. El formato ASCII extendido codifica los números con valores inferiores a las letras mayúsculas, modificando el resultado final de las rutinas de ordenación de datos.

4.3.3. Estandarización universal con Unicode y codificación UTF-8

La proliferación de páginas de códigos regionales genera problemas de representación al intercambiar bases de datos entre sistemas internacionales. El estándar Unicode proporciona un catálogo universal diseñado para englobar todos los alfabetos, logogramas y símbolos de la escritura humana en una única especificación.

El sistema asigna un número entero único, denominado punto de código, a cada carácter tipográfico documentado. Unicode define a continuación múltiples esquemas de codificación, llamados mapeos, para transformar estos puntos de código matemáticos en secuencias de bits que el hardware pueda transmitir y almacenar.

El esquema UTF-8 emplea una longitud variable de 1 a 4 bytes para representar los caracteres de todos los idiomas. Los caracteres del código ASCII original se codifican en UTF-8 utilizando un solo byte. El valor de este byte coincide exactamente con el valor tradicional, lo que hace al formato retrocompatible con ASCII.

Los caracteres de otros idiomas aumentan su tamaño a 2, 3 o 4 bytes según la magnitud de su punto de código. En las secuencias multibyte, los bits iniciales del primer byte dictan la longitud total de la representación. La estructura asegura que ningún byte dentro de una secuencia multibyte coincida con los valores ASCII de un solo byte.

Podemos ver la fórmula de distribución de bytes en función del punto de código almacenado:

El estándar también especifica el formato UTF-16, que codifica los caracteres en unidades base de 16 bits (2 bytes). Cuando el punto de código excede la capacidad de representación de 16 bits, UTF-16 recurre a un mecanismo denominado par de suplentes. El par de suplentes combina dos unidades consecutivas para codificar el carácter empleando 4 bytes en total.

Diagrama: Flujo de decisión lógico para la codificación de un punto de código Unicode hacia sus representaciones en bytes.

4.3.4. Cadenas de caracteres y métodos de delimitación en memoria

El software agrupa los caracteres individuales secuencialmente en la memoria para conformar cadenas de caracteres. El procesador accede a estas secuencias leyendo direcciones contiguas a partir de una dirección de memoria base. La arquitectura de datos requiere un método estandarizado para identificar dónde finaliza la secuencia almacenada.

La representación de cadena terminada en nulo inserta un carácter de control al final del texto. El sistema utiliza el valor NUL del estándar ASCII, cuyo equivalente binario es un byte conformado íntegramente por ceros (0x00). La cadena solo consume la memoria estricta de sus caracteres más un byte adicional de cierre.

Este diseño obliga al procesador a recorrer toda la cadena en la memoria para calcular su tamaño total. La CPU ejecuta una iteración byte a byte, incrementando un contador hasta detectar el delimitador nulo. El lenguaje C y sus librerías estándar aplican este enfoque para la gestión interna de texto.

La representación de cadena con prefijo de longitud almacena el tamaño de la cadena en un bloque de memoria que precede a los caracteres. El sistema utiliza números enteros de 8, 16 o 32 bits, dependiendo de los límites de capacidad del lenguaje, para alojar el conteo exacto de los bytes que conforman el texto.

El procesador extrae la longitud ejecutando una sola lectura en la dirección inicial del prefijo. Esta técnica anula la necesidad de recorrer toda la memoria para operaciones de medición, mejorando el rendimiento en secuencias largas. Entornos de ejecución como la Máquina Virtual de Java organizan sus objetos de texto aplicando esta estrategia.

4.3.5. Representación de datos lógicos y alineación en memoria

Los datos lógicos o booleanos registran un estado de verdad sustentado en los postulados del álgebra de Boole. El diseño informático mapea el estado verdadero con el valor binario 1 y el estado falso con el valor binario 0. El procesamiento de estas variables condiciona las bifurcaciones y decisiones de los algoritmos.

Conceptualmente, los datos lógicos o booleanos requieren 1 bit de capacidad física. La CPU extrae los operandos de la memoria a través del bus de datos utilizando palabras o bloques completos. La arquitectura condiciona estas lecturas mediante la alineación en memoria, estableciendo el byte (8 bits) como la unidad mínima direccionable.

El procesador alinea los datos en memoria utilizando al menos un byte completo por eficiencia de lectura. El bit de menor peso almacena el valor booleano objetivo, y el sistema rellena los 7 bits restantes del byte con valores cero. El compilador reserva un byte entero por cada variable booleana declarada en el código fuente.

🧩 Analogía: Almacenar un dato lógico de 1 bit en una celda de memoria de 8 bits funciona como guardar un solo folio dentro de una carpeta de anillas completa. El espacio restante de la carpeta queda bloqueado para otros documentos.

Esta alineación produce un desperdicio de memoria cuando el software procesa vectores con miles de estados lógicos. Los programadores solucionan el incremento de consumo mediante el empaquetado de bits (bit packing). Esta técnica comprime hasta ocho valores booleanos independientes dentro de un solo byte físico.

Para manipular un booleano empaquetado, el procesador ejecuta instrucciones aritméticas utilizando una máscara de bits. El aislamiento de un bit individual exige aplicar la función lógica AND. La modificación del estado lógico implica aplicar la función OR o XOR, garantizando que los bits adyacentes conserven su estado inalterado.

// Ejemplo de empaquetado de datos lógicos en C usando campos de bits
struct BooleansEmpaquetados {
    unsigned int flag_a : 1; // Ocupa 1 bit
    unsigned int flag_b : 1; // Ocupa 1 bit
    unsigned int flag_c : 1; // Ocupa 1 bit
    // El compilador agrupa los flags en el mismo byte
};

Código: Estructura de lenguaje C que fuerza el empaquetado de tres variables lógicas en los bits de un mismo byte direccionable, anulando el relleno automático de la alineación en memoria.

4.4. Alineación y ordenación en memoria (Endianness)

4.4.1. Conceptos básicos de organización en memoria

La memoria de un ordenador funciona como una secuencia lineal de celdas. El hardware asigna a cada celda una dirección física única. El sistema direcciona la memoria utilizando el byte como unidad básica de información. Todo byte almacenado posee una posición numérica correlativa.

Los procesadores actuales manipulan agrupaciones de bytes denominadas palabras. El tamaño de una palabra depende de la arquitectura del procesador y suele medir 16, 32 o 64 bits. Un procesador de 32 bits lee o escribe bloques de cuatro bytes en una sola operación.

El concepto de alineación en memoria determina las direcciones en las que el procesador puede acceder a estas palabras. Un objeto de tamaño bytes ubicado en la dirección respeta la alineación si cumple una regla divisoria exacta.

Fórmula: Condición matemática de alineación de memoria.

Las arquitecturas exigen o prefieren datos alineados. El procesador transfiere la información de forma óptima cuando la dirección de inicio de una palabra múltiple de cuatro bytes termina en 0, 4, 8 o C en notación hexadecimal. Leer palabras no alineadas obliga al procesador a ejecutar múltiples accesos a memoria y realizar desplazamientos de bits.

Los compiladores añaden bytes vacíos entre las variables para forzar esta alineación. A esta técnica de ajuste se le denomina relleno (padding). El relleno garantiza que las variables complejas caigan siempre en direcciones divisibles por su tamaño.

Cuando un procesador almacena una palabra de 32 o 64 bits, la organización en memoria define en qué orden se almacenan los bytes que la forman. El hardware distribuye los múltiples bytes de la palabra en direcciones de memoria consecutivas. Existen dos convenciones para establecer este orden de almacenamiento.

4.4.2. El formato big-endian

La convención big-endian almacena el byte más significativo en la dirección de memoria más baja. El término byte más significativo (MSB, por sus siglas en inglés) hace referencia a los ocho bits que representan el mayor valor posicional dentro de una cifra numérica.

El procesador divide el número completo y coloca el bloque de mayor peso en la primera celda disponible. Los bytes restantes ocupan las direcciones consecutivas en orden descendente de importancia. Este sistema ubica el byte menos significativo en la dirección más alta de la secuencia.

Podemos ver el funcionamiento del formato big-endian mediante el almacenamiento de un entero de 32 bits. Si usamos el valor hexadecimal y la dirección de memoria base , el byte se ubica primero.

Dirección de memoria	Valor almacenado (Big-endian)
`0x100`	`1A` (Byte más significativo)
`0x101`	`2B`
`0x102`	`3C`
`0x103`	`4D` (Byte menos significativo)

Tabla: Representación en memoria de la ordenación big-endian.

El formato big-endian coincide con la lectura humana de los números occidentales, de izquierda a derecha. El programador visualiza un volcado de memoria y lee el número exactamente como lo escribe en el código. Esta legibilidad facilita la depuración de programas a bajo nivel.

Múltiples arquitecturas históricas y actuales emplean este formato por defecto. Los sistemas mainframe de IBM, como el System/360, operan en modo big-endian. Las familias de procesadores Motorola 68000 y SPARC de Sun Microsystems también utilizan esta ordenación de memoria de manera nativa.

4.4.3. El formato little-endian

El sistema little-endian almacena el byte menos significativo (LSB) en la dirección de memoria más baja. El procesador guarda primero la porción numérica de menor peso y posiciona el byte más significativo en la dirección más alta.

La convención little-endian domina el mercado de los ordenadores personales. Las arquitecturas x86 y x86-64 de Intel y AMD implementan este formato directamente en su diseño de silicio. Si almacenamos el mismo valor en la dirección , el hardware coloca el byte en la primera celda.

Dirección	Big-Endian (MSB primero)	Little-Endian (LSB primero)
`0x100`	`1A` ← byte más significativo	`4D` ← byte menos significativo
`0x101`	`2B`	`3C`
`0x102`	`3C`	`2B`
`0x103`	`4D` ← byte menos significativo	`1A` ← byte más significativo

Tabla: Comparativa de distribución de bytes del valor 0x1A2B3C4D entre las arquitecturas big-endian y little-endian.

Este sistema aporta una ventaja a nivel de arquitectura en las conversiones de tamaño de datos. El procesador puede leer un entero de 8 bits, 16 bits o 32 bits desde la misma dirección base exacta. El puntero de memoria siempre señala al valor de menor peso, lo que evita que la CPU sume desplazamientos a la dirección original al truncar números.

Existen procesadores que soportan ambos formatos de almacenamiento simultáneamente. A estos sistemas se les denomina arquitecturas bi-endian. El hardware permite que el sistema operativo configure el modo de lectura mediante un bit en los registros de control durante la secuencia de arranque.

Los procesadores ARM e Itanium poseen esta capacidad bi-endian. Sin embargo, los sistemas operativos que ejecutan determinan el modo final. Android e iOS, aunque corren sobre procesadores ARM, operan en modo little-endian para mantener la compatibilidad con el ecosistema de software existente.

💡 Historia Curiosa: Los términos "big-endian" y "little-endian" proceden de la novela Los viajes de Gulliver (Jonathan Swift, 1726). El texto satiriza una guerra entre dos reinos causada por una disputa sobre cómo cascar los huevos pasados por agua: por el extremo ancho (big) o por el estrecho (little). El informático Danny Cohen introdujo esta terminología en 1981.

4.4.4. Impacto del endianness en la programación

Los lenguajes de alto nivel aíslan al programador del formato de ordenación de memoria. El compilador o el intérprete traducen las operaciones numéricas al formato nativo del procesador. El endianness permanece invisible hasta que el código manipula la memoria a nivel de bytes individuales.

Los lenguajes como C y C++ exponen directamente la memoria física mediante punteros. El programador genera dependencias de hardware cuando utiliza punteros de tipo carácter para recorrer enteros de mayor tamaño. El comportamiento del programa cambia según la máquina donde se compile y ejecute.

#include <stdio.h>

int main() {
    unsigned int valor = 0x01020304;
    unsigned char *puntero = (unsigned char *)&valor;
    
    if (*puntero == 0x04) {
        printf("El procesador opera en Little-endian.\n");
    } else {
        printf("El procesador opera en Big-endian.\n");
    }
    return 0;
}

Código: Detección programática de la ordenación de bytes en lenguaje C.

El código declara un entero de 32 bits. El sistema define un puntero a carácter que inspecciona únicamente la dirección más baja del entero. Si el valor en esa primera dirección contiene el byte menos significativo (0x04), el programa concluye que el sistema obedece a la convención little-endian.

El endianness también impacta en el almacenamiento persistente. Cuando un programa escribe estructuras de datos binarias directamente a un archivo, los bytes se copian en el orden nativo de la máquina local. Si una máquina con endianness inverso lee ese archivo, interpretará valores numéricos completamente distintos.

Los formatos de archivo estandarizan un orden de bytes concreto para asegurar la portabilidad. El software lee el archivo y reorganiza los bytes en memoria si el endianness nativo difiere del formato establecido por el archivo.

❌ Error Común: Asumir que la ordenación little-endian invierte la posición de los bits individuales (0 y 1) dentro de un mismo byte. El endianness altera exclusivamente el orden de los bytes completos que conforman una palabra; la estructura interna de los 8 bits de cada byte permanece intacta.

4.4.5. Ordenación en redes y protocolos de comunicaciones

La interconexión de redes requiere el intercambio de datos entre ordenadores con arquitecturas heterogéneas. La comunicación falla si una máquina big-endian envía una dirección de red binaria a una máquina little-endian sin un acuerdo previo sobre la disposición de los bytes.

Los protocolos de red (TCP/IP) utilizan big-endian como estándar para la transmisión. Este formato unificado recibe el nombre de orden de red (network byte order). Todos los campos numéricos dentro de las cabeceras de los paquetes circulan por la red respetando esta convención de izquierda a derecha.

El protocolo IP transmite las direcciones de origen y destino en orden big-endian. El protocolo TCP formatea los números de puerto, el tamaño de ventana y los números de secuencia utilizando esta misma disposición. Los routers y conmutadores leen estas cabeceras rápidamente sin necesidad de verificar la arquitectura del emisor original.

El estándar obliga a los sistemas operativos locales a realizar adaptaciones. El formato nativo de un ordenador se denomina orden de host (host byte order). Los equipos little-endian ejecutan conversiones obligatorias antes de enviar las cabeceras a la tarjeta de red y repiten el proceso inverso al recibir paquetes.

La interfaz de programación de sockets POSIX proporciona funciones de sistema para gestionar estas conversiones. Las rutinas intercambian la posición de los bytes si el orden de host y el de red difieren, y no realizan ninguna operación si ambos coinciden.

htons(): Convierte enteros de 16 bits de host a red (Host TO Network Short).
htonl(): Convierte enteros de 32 bits de host a red (Host TO Network Long).
ntohs(): Convierte enteros de 16 bits de red a host (Network TO Host Short).
ntohl(): Convierte enteros de 32 bits de red a host (Network TO Host Long).

Estas funciones afectan exclusivamente a las cabeceras de los protocolos. El conjunto de protocolos TCP/IP transporta el contenido útil del paquete (la carga útil) como una secuencia de bytes opaca. La conversión del endianness de los datos internos del programa recae enteramente en los protocolos de la capa de aplicación.

4.5. Representación de datos estructurados

4.5.1. Organización física de los datos compuestos

La memoria de un computador moderno consiste en una secuencia lineal de bytes direccionables individualmente. Los tipos de datos primitivos ocupan una cantidad fija de bytes en posiciones específicas. Para modelar la información abstracta, el sistema operativo y el hardware soportan tipos de datos compuestos. Estas estructuras agrupan valores primitivos bajo un identificador común, creando un esquema lógico unificado.

La transición de la estructura lógica a la representación física exige un mapeo matemático preciso. El compilador traduce la definición abstracta de la estructura en instrucciones de lenguaje máquina. Estas instrucciones gestionan los accesos a la memoria principal mediante un esquema de direcciones base y desplazamientos relativos. El hardware ejecuta directamente estas operaciones de lectura y escritura en los circuitos físicos.

El diseño de estas estructuras de datos determina el rendimiento del software. El procesador traslada información entre la memoria principal y la memoria caché en bloques de tamaño fijo. Una organización física que favorezca el acceso secuencial maximiza la tasa de aciertos en caché. Esto reduce los ciclos de reloj que la unidad de control desperdicia en estados de espera.

Para procesar grandes volúmenes de información, los lenguajes de programación definen reglas estrictas sobre cómo empaquetar los datos. El sistema aplica estas normas de forma transparente al programador. Estudiamos a continuación las tres construcciones primarias que el hardware procesa de manera nativa: los arrays, los registros y los punteros.

4.5.2. Arrays y almacenamiento contiguo en memoria

El array o vector constituye la agrupación de información más elemental en cualquier arquitectura. Como norma general de diseño, los arrays almacenan elementos del mismo tipo de forma contigua en la memoria, calculando el acceso mediante un índice base y desplazamientos. El sistema operativo asigna un bloque ininterrumpido cuyo tamaño exacto equivale al número de elementos multiplicado por la ocupación en bytes del tipo de dato.

El compilador asocia a la estructura una dirección base. Esta dirección marca exactamente el primer byte del bloque físico reservado. El procesador accede a cualquier elemento del array de forma directa mediante aritmética interna, sin necesidad de recorrer la colección desde el principio.

Para localizar un componente específico, el sistema evalúa su índice, que indica la posición lógica del dato dentro de la secuencia. El hardware multiplica este índice por el tamaño en bytes de cada elemento y suma el valor resultante a la dirección base.

La función matemática que la arquitectura implementa para calcular esta ubicación en el mapa de memoria se define de la siguiente forma:

🧩 Analogía: Podemos visualizar un array como un tren de mercancías donde cada vagón mide exactamente diez metros. Si conocemos la ubicación de la locomotora (dirección base), localizar el quinto vagón requiere multiplicar cinco por diez y sumar cincuenta metros, evitando recorrer físicamente los vagones intermedios.

Esta disposición asegura un tiempo de acceso constante e independiente de la posición del elemento. El almacenamiento contiguo beneficia enormemente a la localidad espacial. Cuando el procesador solicita un elemento, el controlador de memoria transfiere el bloque completo a la memoria caché, acelerando exponencialmente las lecturas de los elementos colindantes.

Diagrama: Mapeo de memoria lineal para un array de cinco enteros de 32 bits, con desplazamientos exactos de 4 bytes por cada iteración del índice.

4.5.3. Registros, alineación y restricciones de hardware

Los registros (structs) agrupan elementos de tipos distintos; el compilador inserta bytes de relleno (padding) para alinear los datos con la arquitectura del procesador. Cada componente interno recibe el nombre de campo o miembro. El registro relaciona lógicamente datos heterogéneos, gestionándolos en la memoria como una entidad conjunta.

El compilador distribuye los campos en el almacenamiento físico siguiendo el orden estricto de su declaración en el código. Sin embargo, las unidades centrales de procesamiento no acceden a la memoria byte a byte de forma arbitraria. Leen y escriben información en porciones fijas denominadas palabras de máquina, habitualmente de 32 o 64 bits.

Si una variable cruza el límite natural de una palabra de máquina, el procesador debe ejecutar dos transferencias de bus para leer un solo dato. El hardware necesita recomponer los fragmentos del dato en sus registros internos. Este fenómeno de acceso desalineado penaliza severamente la velocidad de procesamiento de las instrucciones.

Para prevenir esta pérdida de eficiencia, el compilador aplica una técnica técnica denominada alineación en memoria. El sistema desplaza la dirección de inicio de los campos para que encajen con las fronteras físicas de la memoria. Como consecuencia directa, el compilador introduce bytes de relleno vacíos en los huecos generados.

⚠️ ¡Cuidado!: El programador modifica el tamaño total de un registro si altera el orden de declaración de sus campos. Agrupar los campos consecutivamente de mayor a menor tamaño reduce al mínimo la cantidad de bytes de relleno que el compilador necesita generar internamente.

Observamos un ejemplo en lenguaje C para ilustrar este mecanismo de alineación. Definimos una estructura que intercala tipos de datos de diferentes dimensiones físicas.

struct PaqueteRed {
    char identificador;
    double marca_tiempo;
    short puerto_origen;
};

Código: Declaración de un registro heterogéneo en lenguaje C, susceptible a la inserción de bytes de relleno por parte del compilador.

El sistema no empaqueta los componentes en once bytes contiguos. Inserta siete bytes de relleno tras el primer carácter para alinear el valor de doble precisión en una frontera de ocho bytes. Añade otros seis bytes finales para asegurar la correcta alineación si instanciamos un array de estos registros.

Campo	Tipo de dato	Ocupación real	Bytes de relleno	Posición en memoria
`identificador`	`char`	1 byte	7 bytes	Offset 0 - 7
`marca_tiempo`	`double`	8 bytes	0 bytes	Offset 8 - 15
`puerto_origen`	`short`	2 bytes	6 bytes	Offset 16 - 23

Tabla: Mapa de memoria detallado del registro PaqueteRed, mostrando la ubicación exacta y el impacto espacial de los bytes de relleno.

4.5.4. Punteros y la capa de direccionamiento físico

Los punteros son tipos de datos estructurales que no guardan información del dominio de la aplicación. Los punteros almacenan direcciones de memoria, ocupando 32 o 64 bits dependiendo de la arquitectura física del equipo subyacente. Funcionan como un mecanismo de enlace directo entre las variables del software y los transistores de memoria RAM.

Un procesador que opera con registros de 32 bits utiliza punteros de 4 bytes, lo que limita el espacio de direccionamiento a cuatro gigabytes. Una máquina con arquitectura de 64 bits emplea punteros de 8 bytes, ampliando drásticamente el mapa de memoria accesible. El tamaño del puntero permanece inalterable sin importar si apunta a un carácter pequeño o a una estructura masiva.

El proceso de lectura o escritura a través de una de estas variables se denomina desreferenciación o indirección. La unidad de control carga la dirección contenida en el puntero y envía una petición al controlador de memoria para leer la celda señalada. Esta técnica permite pasar registros grandes a las funciones transfiriendo únicamente la dirección de 8 bytes, ahorrando ancho de banda.

El sistema también permite aplicar operaciones matemáticas sobre estas direcciones mediante la aritmética de punteros. Al sumar un valor entero a un puntero, el hardware multiplica internamente ese dígito por el tamaño en bytes del dato referenciado. Incrementar el puntero en una unidad desplaza la dirección de memoria hacia el siguiente elemento válido.

❌ Error Común: Intentar desreferenciar un puntero inicializado a cero o un puntero que señala a un bloque de memoria ya liberado interrumpe la ejecución. El hardware de protección de memoria intercepta el acceso indebido y levanta un fallo de segmentación (segmentation fault).

Las bases de datos estructuradas implementan este concepto en sus índices físicos. Los registros de datos dispersos en el disco utilizan punteros internos para mantener relaciones jerárquicas o lógicas entre las diferentes tuplas de información, agilizando enormemente los procesos de búsqueda y ordenación.

4.5.5. Organización de matrices y estructuras compuestas

Las aplicaciones de software solucionan la necesidad de representar datos multidimensionales anidando de forma recursiva las estructuras elementales. Una matriz bidimensional se implementa en la práctica como un array cuyos elementos individuales son a su vez otros arrays. Debido a la naturaleza estrictamente lineal de la memoria RAM, el sistema convierte la cuadrícula en un vector continuo.

El compilador aplica una estrategia de linealización geométrica para aplanar la estructura. El orden principal por filas (row-major order) ubica todos los elementos de una fila en posiciones físicas consecutivas, seguidos inmediatamente por los elementos de la fila inferior. Lenguajes como C y C++ aplican este estándar de distribución.

La expresión algebraica para localizar un punto específico en una matriz bidimensional bajo almacenamiento por filas evalúa la dimensión transversal completa:

El software combina libremente arrays, registros y punteros para crear topologías complejas. Un array de registros concentra múltiples instancias secuenciales, replicando internamente el patrón de relleno en cada posición. En contraste, un array de punteros reúne únicamente las direcciones de memoria, permitiendo que cada registro resida en una página física separada.

Diagrama: Flujo temporal de operaciones de la CPU calculando los desplazamientos matemáticos para leer un valor de una matriz multidimensional en la memoria RAM.

El sistema gestor evalúa las ventajas de cada arquitectura según el patrón de uso. El array de registros proporciona un acceso secuencial muy rápido y minimiza los fallos de caché, pero exige trasladar mucha información durante una reordenación. El array de punteros agiliza el ordenamiento de los elementos, ya que la CPU intercambia únicamente las direcciones de 8 bytes, dejando intacta la información pesada.

5. Conclusiones

El esquema de representación interna (el método estructurado para codificar información en formato binario) define los límites de precisión, el tamaño en memoria y el rango de valores posibles en el desarrollo de software. Si un programa emplea un entero de 32 bits con signo, el límite superior del valor ronda los . Superar este límite provoca un desbordamiento que altera el cálculo matemático y el comportamiento del sistema.

La gestión estandarizada de los datos permite el intercambio de información entre plataformas heterogéneas. El estándar IEEE 754 (la norma universal para representar números en coma flotante o valores fraccionarios) unifica la forma en que los procesadores operan con decimales. Un servidor ARM y un cliente x86 obtienen exactamente el mismo resultado al procesar un algoritmo gracias a esta convención.

El uso de Unicode (el estándar de codificación que asigna un valor numérico único a los caracteres de múltiples idiomas) asegura la interoperabilidad en la transmisión de texto. Enviar un documento con caracteres especiales desde una base de datos hacia una aplicación web requiere una codificación común. Esto evita que los programas muestren símbolos ilegibles al procesar la información de origen.

La comprensión de la arquitectura física asegura la eficiencia computacional al operar equipos cliente-servidor o sistemas embebidos (dispositivos de propósito específico integrados en maquinaria física). Respetar la alineación de memoria (la práctica de guardar datos en direcciones que son múltiplos de su tamaño) reduce los ciclos de procesamiento. Un dato mal alineado obliga al procesador a realizar lecturas de memoria adicionales.

Controlar el endianness (el orden secuencial en que los bytes de un dato múltiple se alojan en la memoria) garantiza la correcta transmisión de la información por red. El formato big-endian guarda el byte más significativo primero, mientras que little-endian hace lo contrario. Los equipos traducen el formato interno al estándar de red para que el receptor reconstruya el valor original.

En la Formación Profesional, asimilar estos principios prepara al alumnado para aplicar las tendencias tecnológicas actuales. El Big Data (el procesamiento de volúmenes masivos de información) demanda formatos de almacenamiento numérico eficientes para minimizar los tiempos de acceso. La programación para el Internet de las Cosas o IoT (dispositivos interconectados) exige ajustar el uso de variables en microcontroladores con recursos limitados.

6. Bibliografía

Stallings, W. (2006). Organización y arquitectura de computadores. Pearson. — Detalla las operaciones de la ALU, representación de enteros, IEEE 754 y endianness. Tanenbaum, A. S. (2000). Organización de computadoras: un enfoque estructurado. Prentice Hall. — Explica la arquitectura hardware y el almacenamiento de los datos a nivel máquina. Ercegovac, M. D. & Lang, T. (2004). Digital arithmetic. Morgan Kaufmann. — Aborda implementaciones a nivel de circuito para cálculo en coma flotante y fija. IEEE. (2008). IEEE Standard for Floating-Point Arithmetic (IEEE 754-2008). IEEE Press. — Documento oficial que estandariza la representación binaria de los números reales. Kernighan, B. W. & Ritchie, D. M. (1988). El lenguaje de programación C. Prentice Hall. — Muestra cómo un lenguaje de nivel medio mapea punteros, arrays y tipos nativos. ISO/IEC. (2020). ISO/IEC 10646:2020 Information technology — Universal Coded Character Set (UCS). ISO. — Estándar internacional para la codificación unificada de caracteres (Unicode).

🎧 Audio de Repaso — Tema 10

35 secciones de audio

Tema 10. Representación interna de los datos

Tema 10. Representación interna de los datos

1. Índice

2. Vinculación curricular

3. Introducción

4. Desarrollo

4.1. Representación de datos numéricos enteros

4.1.1. Enteros sin signo

4.1.2. Representación en signo y magnitud

4.1.3. Representación en complemento a 1

4.1.4. Representación en complemento a 2

4.1.5. Decimal codificado en binario (BCD) empaquetado

4.2. Representación de datos numéricos reales

4.2.1. Representación en coma fija

4.2.2. Fundamentos de la representación en coma flotante

4.2.3. Estándar IEEE 754 de precisión simple

4.2.4. Estándar IEEE 754 de precisión doble

4.2.5. Valores especiales en el estándar IEEE 754

4.3. Representación de datos alfanuméricos y lógicos

4.3.1. Representación de caracteres mediante el código ASCII

4.3.2. Formatos extendidos de 8 bits y código EBCDIC

4.3.3. Estandarización universal con Unicode y codificación UTF-8

4.3.4. Cadenas de caracteres y métodos de delimitación en memoria

4.3.5. Representación de datos lógicos y alineación en memoria

4.4. Alineación y ordenación en memoria (Endianness)

4.4.1. Conceptos básicos de organización en memoria

4.4.2. El formato big-endian

4.4.3. El formato little-endian

4.4.4. Impacto del endianness en la programación

4.4.5. Ordenación en redes y protocolos de comunicaciones

4.5. Representación de datos estructurados

4.5.1. Organización física de los datos compuestos

4.5.2. Arrays y almacenamiento contiguo en memoria

4.5.3. Registros, alineación y restricciones de hardware

4.5.4. Punteros y la capa de direccionamiento físico

4.5.5. Organización de matrices y estructuras compuestas

5. Conclusiones

6. Bibliografía

¿Te ha gustado este tema de muestra?