Programación: Cómo detectar y leer los caracteres UTF-8 en cadenas de texto... (1 / 16 paso)

Paso 1: Recordatorio opcional sobre archivos de texto y conjuntos de caracteres:

(Si ya sabes cómo se codifican los caracteres ASCII en archivos de texto, puede omitir este paso).

Archivos binarios de la computadora (fotos, música, ejecutables, etc.) y archivos de texto de computadora (archivos .txt) son la misma cosa: son todos los archivos de computadora.

Un archivo de la computadora es lista de bytes.
Un byte está formado por 8 bits.
Un bit es un elemento binario fundamental (estado 2). Puede ser fijado (contiene 1) o (contiene 0).

Cambiando los Estados de los 8 bits de un byte, es posible hacer 256 combinaciones diferentes.
Cada combinación forma un número binario.
Es posible convertir a números binarios en números decimales.
Por lo tanto, es posible contar en binario:

00000000 (0)
00000001 (1)
00000010 (2)
00000011 (3)
00000100 (4)
00000101 (5)
...
11111100 (252)
11111101 (253)
11111110 (254)
11111111 (255)

Así, cada byte de un archivo de computadora contiene un valor numérico de 00000000 a 11111111 en binario (de 0 a 255 en decimal).

Luego podemos utilizar para almacenar cualquier número entero de 0 a 255 bytes.
Si queremos almacenar valores matemáticos como 1.41421 o fechas históricas como 1783, nos vemos obligados a "codificar" a través de varios bytes.
Con dos bytes, es posible almacenar números enteros entre 0 y 65.535.
Con 4 bytes, es posible codificar (con algún eventual aproximación) cualquier número real.

Lo mismo ocurre con el texto: cada carácter de una cadena está codificada en un valor de 0 a 255, dando, así, un máximo de 256 caracteres diferentes.

Al principio, como computadoras eran principalmente una tecnología occidental, 256 caracteres posibles era más que suficiente: 26 minúsculas, 26 letras mayúsculas, 10 números, algunos símbolos de puntuación...
Los estadounidenses crearon el estándar ASCII (código estándar americano para el intercambio de información).
Fue ampliamente usado (y adaptado) en Europa también. Incluso se ha ampliado para contener la mayoría de los caracteres acentuados, ampliamente utilizados en Europa.

Así, cada byte de un archivo ASCII (o texto) contiene 1 carácter.

Sin embargo, no todos los países del mundo utilizan el alfabeto latino.
Por ejemplo, los rusos crearon su propio estándar, que era incompatible con el estándar ASCII. Griega creó su propio estándar, que era incompatible con el estándar, etc. de ASCII.

Por largo tiempo, en internet, era muy difícil Mostrar varios alfabeto diferentes juntos en la misma página porque cada alfabeto necesita otra "charset encoding", y sólo un "juego de caracteres codificación" por página era fácilmente posible.

Sitios internacionales como Wikipedia habría sido muy difíciles de hacer.
El truco más común para Mostrar fórmulas matemáticas o caracteres chinos en una página en inglés, fue mostrar como cuadros...

Pasaron rápidamente a la conclusión de que 256 caracteres no era suficiente, y que todos los diferentes y posibles caracteres y símbolos del mundo debían agruparse en un conjunto único y universal de caracteres: Unicode.
.

Artículos Relacionados

Cómo leer los códigos de su motor luz del cheque (para coches más viejos)

Cómo leer los códigos de su motor luz del cheque (para coches más viejos)

usted puede pagar a un mecánico de un montón de dinero para leer códigos de error de su coche cuando se enciende la luz del motor del cheque, o puede tomar un clip de papel y leer los códigos usted mismo.Después de 1996 todos los coches fueron hechos
Cómo leer los códigos de fecha en chips de ICs

Cómo leer los códigos de fecha en chips de ICs

Preguntado: ¿en qué año fue eso viruta viejo de que tienes tendido alrededor? ¿Es simplemente curioso? Aquí es cómo leer los códigos de fecha en chips de ICs más comunes.Todo lo que tengo aquí se basa de la (sorprendentemente poca) información que en
Como leer los IBooks con Samsung Galaxy Tab

Como leer los IBooks con Samsung Galaxy Tab

Q: Cuando tuve un ipad yo había pagado para algunos ibooks. Ya no tengo el ipad y ahora tengo una tablet galaxy de samsung y quisiera los libros que compré para el ipad para ser traslado a mi tablet. ¿Cómo lo hago? -De askmefast.comEn realidad, Tunes
¿Cómo leer los datos de temperatura en su sitio web?

¿Cómo leer los datos de temperatura en su sitio web?

Hoy, voy a mostrarle cómo leer datos de temperatura de humedad DHT11 y sensor de temperatura está conectado a Arduino UNO que utiliza shield ethernet para enviar datos de temperatura a su sitio web personal! Esto suena perfecto! Me deja medir el esta
Cómo conectar una escala o balanza electrónica con una PC y leer los valores del peso directamente en Excel

Cómo conectar una escala o balanza electrónica con una PC y leer los valores del peso directamente en Excel

mayoría de balanzas electrónicas y Balanzas de laboratorio tienen un RS232 (Serial) o USB de puerto sin embargo ningunas instrucciones normalmente se proporcionan para mostrarle cómo conectarse correctamente a su PC o ingresar valores de peso directa
¿Puede leer los gatos?

¿Puede leer los gatos?

Mi gato a menudo se sienta en mi regazo cuando leo. A menudo se ve en el libro. ¿Pero puede él entender lo que está sucediendo?Paso 1: prueba Mi gato siempre me mira cuando digo su nombre. Encontré un libro con la palabra Louie en it.when estaba sent
Como leer los QR los códigos del ordenador

Como leer los QR los códigos del ordenador

Este instructable le mostrará un sitio web fresco para leer códigos QR desde tu ordenador y por cierto la web es realmente en el código QR.Paso 1: ¿Qué son los códigos QR?Código QR está parado para:QuickReacciónCódigoBásicamente es un código de barra
Leer los valores de condensador

Leer los valores de condensador

en esto instructible, voy a intentar explicar las marcas de capacitores y cómo determinar los valores.  En primer lugar, hay algunos estilos diferentes de paquetes de condensador.  La poder del estilo, disco plano y estilos de grano.  Los estilos pue
Cómo leer los códigos de color de resistores.

Cómo leer los códigos de color de resistores.

El valor de la resistencia está marcado en el cuerpo con colores. Cada color es diferente número y pueden recordar estos números o se puede usar la tabla en el siguiente paso. O hay muchas calculadoras de resistencia que se pueden utilizar. Es para l
Regulador casero elegante con Sensorflare y base de partículas de chispa: leer los valores del sensor en Sensorflare

Regulador casero elegante con Sensorflare y base de partículas de chispa: leer los valores del sensor en Sensorflare

Hola todo el mundo! Este instructable muestra cómo puede controlar su smartdispositivos usando Sensorflare y partículas. Las posibilidades son muchas... Puede usar core de la partícula - una pequeña Junta de desarrollo de Wi-Fi para conectar el hardw
Deck the Halls con papel! Los copos de nieve 3D, cadenas de papel, calendario de Adviento y mucho más!

Deck the Halls con papel! Los copos de nieve 3D, cadenas de papel, calendario de Adviento y mucho más!

Deck los pasillos con resmas de papel!Se trata de decorar barato de vacaciones. Ha habido un montón de años que hemos tenido que ir barato en decoración.Me inspiré por elfos, me encantan todos los copos de nieve tontos y cadenas de papel que Buddy po
Cómo hacer que los caracteres genéricos de arcilla

Cómo hacer que los caracteres genéricos de arcilla

este es una video que muestra como hacer personajes de arcilla genérico, ver de cerca
Cómo hacer una épica de los años 80 Metal efecto de texto | Photoshop CC 2015 | Graphix TV

Cómo hacer una épica de los años 80 Metal efecto de texto | Photoshop CC 2015 | Graphix TV

Créditos: Spoon Graphics--Decido hacer este tutorial ya que algunos de ustedes mis suscriptores y amigos me preguntan cómo hacer este fantástico diseño. Espero que todos ustedes chicos y chicas tengan éxito trabajando en este tutorial sencillo y fáci
Como leer archivos .aiff con C

Como leer archivos .aiff con C

el propósito de estas instrucciones es mostrar cómo leer un archivo de sonido .aiff. Como cualquier otros archivos binarios, archivos .aiff es también consiste en trozos de memoria diferente. Este tutorial va a leer a través de la parte común del arc