Diferencia entre revisiones de «Unicode»
m Revertidos los cambios de 200.69.137.190 a la última edición de PoLuX124 |
|||
Línea 17: | Línea 17: | ||
El Unicode Consortium mantiene una fuerte relación con ISO/IEC.<ref name="UNICODE">{{cita libro |autor= The Unicode Consortium |editor= Julie D. Allen, Joe Becker (et al.) |título= Unicode 5.0 standard |url=http://www.unicode.org/versions/Unicode5.0.0/bookmarks.html |fecha= [[octubre de 2006]] |año= [[2006]] |mes= [[octubre]] |editorial= Addisson-Wesley |idioma= Inglés |isbn= 0-321-48091-0}}</ref> Ambas organizaciones mantienen un acuerdo desde 1991 con el objetivo de mantener la sincronización entre sus estándares que contienen los mismos caracteres y puntos de código. |
El Unicode Consortium mantiene una fuerte relación con ISO/IEC.<ref name="UNICODE">{{cita libro |autor= The Unicode Consortium |editor= Julie D. Allen, Joe Becker (et al.) |título= Unicode 5.0 standard |url=http://www.unicode.org/versions/Unicode5.0.0/bookmarks.html |fecha= [[octubre de 2006]] |año= [[2006]] |mes= [[octubre]] |editorial= Addisson-Wesley |idioma= Inglés |isbn= 0-321-48091-0}}</ref> Ambas organizaciones mantienen un acuerdo desde 1991 con el objetivo de mantener la sincronización entre sus estándares que contienen los mismos caracteres y puntos de código. |
||
== |
== Origen y desarrollo == |
||
Unicode tiene el propósito explícito de trascender las limitaciones de los códigos de caracteres tradicionales, como los definidos por el estándar [[ISO 8859]], utilizado en numerosos países del mundo, pero que sigue siendo incompatible entre ellos en gran parte. Buena parte de los codificadores de caracteres tradicionales comparten un problema: permiten procesamientos informáticos [[bilingüe]]s (generalmente usando [[alfabeto latino|caracteres latinos]] y del idioma local), pero no multilingües (procesamiento informático de idiomas arbitrarios mezclados entre ellos). |
|||
El estándar Unicode codifica los [[carácter|caracteres]] esenciales —[[grafema]]s— más que las representaciones variantes para dichos caracteres, definiéndolos de forma abstracta, y deja la representación visual (tamaño, dimensión, fuente o estilo) a otro software, como un [[navegador web]] o un [[procesador de texto]]. Los caracteres se definen mediante un número o punto de código, su nombre o descripción, y propiedades como capitalización, dirección de escritura, reglas de combinación, etc. |
El estándar Unicode codifica los [[carácter|caracteres]] esenciales —[[grafema]]s— más que las representaciones variantes para dichos caracteres, definiéndolos de forma abstracta, y deja la representación visual (tamaño, dimensión, fuente o estilo) a otro software, como un [[navegador web]] o un [[procesador de texto]]. Los caracteres se definen mediante un número o punto de código, su nombre o descripción, y propiedades como capitalización, dirección de escritura, reglas de combinación, etc. |
Revisión del 01:35 18 jun 2009
El Estándar Unicode (acrónimo formado del idioma inglés por «Universal» Universal y «Code» Código) es un estándar de codificación de caracteres diseñado para facilitar el tratamiento informático, transmision y visualización de textos de múltiples lenguajes y disciplinas técnicas además de textos clásicos de lenguas muertas.
Unicode especifica un nombre e identificador numérico único para cada caracter o símbolo, el code point o punto de código, además de otras informaciones necesarias para su uso correcto: direccionalidad, capitalización y otros atributos. Unicode trata los caracteres alfabéticos, ideográficos y símbolos de forma equivalente, lo que significa que se pueden mezclar en un mismo texto sin la introducción de marcas o caracteres de control.[1]
Este estándar es mantenido por el Unicode Technical Committee (UTC), integrado en el Unicode Consortium, del que forman parte, con distinto grado de implicación empresas como Microsoft, Apple, Adobe, IBM, Oracle, SAP, Google, instituciones como la Universidad de Berkeley, y profesionales y académicos a título individual.[2]
El establecimiento de Unicode ha sido un ambicioso proyecto para reemplazar los esquemas de codificación de caracteres existentes, muchos de los cuales están muy limitados en tamaño y son incompatibles con entornos plurilingües. Unicode se ha vuelto el más extenso y completo esquema de codificación de caracteres, siendo el más dominante en la internacionalización y adaptación local del software informático. El estándar ha sido implementado en un número considerable de tecnologías recientes, que incluyen XML, Java y sistemas operativos modernos.
El Unicode Consortium mantiene una fuerte relación con ISO/IEC.[3] Ambas organizaciones mantienen un acuerdo desde 1991 con el objetivo de mantener la sincronización entre sus estándares que contienen los mismos caracteres y puntos de código.
Origen y desarrollo
Unicode tiene el propósito explícito de trascender las limitaciones de los códigos de caracteres tradicionales, como los definidos por el estándar ISO 8859, utilizado en numerosos países del mundo, pero que sigue siendo incompatible entre ellos en gran parte. Buena parte de los codificadores de caracteres tradicionales comparten un problema: permiten procesamientos informáticos bilingües (generalmente usando caracteres latinos y del idioma local), pero no multilingües (procesamiento informático de idiomas arbitrarios mezclados entre ellos).
El estándar Unicode codifica los caracteres esenciales —grafemas— más que las representaciones variantes para dichos caracteres, definiéndolos de forma abstracta, y deja la representación visual (tamaño, dimensión, fuente o estilo) a otro software, como un navegador web o un procesador de texto. Los caracteres se definen mediante un número o punto de código, su nombre o descripción, y propiedades como capitalización, dirección de escritura, reglas de combinación, etc.
Unicode ha incluido otras codificaciones previas muy extendidas, por ejemplo, los primeros 256 puntos de código son idénticos a los especificados en ISO 8859-1, para facilitar la conversión del texto ya existente escrito en lenguajes europeos occidentales. Muchos de los caracteres esenciales se codificaron varias veces en distintos puntos de código para preservar distinciones utilizadas por codificaciones heredadas y permitir conversiones de aquellas codificaciones a Unicode. Por ejemplo, la sección de formas anchas de los puntos de código abarca un alfabeto latino completo, separado de la sección de alfabeto latino principal. En fuentes CJK (fuentes para chino, japonés y coreano), estos caracteres fueron representados tanto en su forma ancha como en la estándar, más angosta.
Además de que Unicode permite combinaciones de caracteres, también dispone de versiones precompuestas de la mayoría de combinaciones de letras diacríticas en uso.
Cobertura
Unicode incluye todos los caracteres de uso común en la actualidad. La versión 5.1 contiene 100.713 caracteres provenientes de alfabetos, sistemas ideográficos y colecciones de símbolos (símbolos matemáticos, técnicos, músicales, iconos...). Esta es una cifra que crece en cada versión. Desde un punto de vista técnico, Unicode incluye los estándares nacionales ANSI Z39.64, KS X 1001, JIS X 0208, JIS X 0212, JIS X 0213, GB 2312, GB 18030, HKSCS, y CNS 11643, codificaciones particulares de fabricantes de software Apple, Adobe, Microsoft, IBM, etc. Y además Unicode reserva espacio para usos privado por fabricantes de software.
Unicode cumple con el estándar ISO/IEC 10646:2003, conocido como UCS o juego de caracteres universal.
A continuación se cita una muestra de los sistemas de escritura actuales incluidos en Unicode: Árabe, Braille, Copto, Cirílico, Griego, Han (Kanji, Hanja y Hanzi), Japonés (Kanji, Hiragana y Katakana), Hebreo y Latino.
También se incluyen escrituras históricas menos utilizadas, incluso aquellas extinguidas, para propósitos académicos, como por ejemplo: Cuneiforme, Griego antiguo, Lineal B micénico, Fenicio y Rúnico.
Entre los símbolos no que no forman parte de alfabetos se encuentran símbolos musicales y matemáticos, fichas de juegos como el dominó, flechas, iconos, etc.
Actualmente se está trabajando en la inclusión de nuevos grupos de símbolos como los gerogríficos egipcios o mayas.[4] Otros alfabetos propuestos han sido descartados por distintas razones,[4][5] como por ejemplo el alfabeto Klingon.
Elementos del estándar Unicode
Caracteres, puntos de código y espacio de códigos
El elemento básico es el carácter. Se considera un caracter al elemento más pequeño de un lenguaje escrito con significado. Esto incluye letras, signos diacríticos, caracteres de puntuacion y otros símbolos. Los caracteres se agrupan en alfabetos. Se consideran diferentes los caracteres de alfabetos distintos aunque compartan forma y significación.
A cada caracter se le asigna un número que lo identifica, denominado punto de código o code point. Cuando se ha asignado un código a un caracter se dice que dicho caracter está codificado. El espacio para códigos tiene 1.114.112 posiciones posibles (0x10FFFF). Los puntos de codigo se expresan utilizando utilizando valores hexadecimales agregando el prefijo U+. El valor hexadecimal se completa con ceros hasta 4 dígitos hexadecimales cuando es necesario; si es de longitud mayor que 4 dígitos no se agregan ceros.
Base de datos de caracteres
El conjunto de caracteres codificados por Unicode, es la Base de Datos Unicode o UCD (Unicode Character Database) que incluye mas información sobre dichos caracteres: alfabeto al que pertenece, nombre, clasificación, capitalización, orientación y otras formas de uso, variantes estandarizadas, etc.
Organización del espacio de códigos
Con excepciones, los caracteres codificados sea agrupan en el espacio de códigos siguiendo categorías como alfabeto o sistema de escritura, de forma que caracteres relacionados se encuentren cerca en tablas de codificación.
Planos
Por conveniencia se ha dividido el espacio de codigos en grandes grupos denominados planos. Cada plano contiene un máximo de 65.535 caracteres. Dado un punto de código expresado en hexadecimal, los 4 útimos dígitos determinan la posición del caracter en el plano.
- Plano básico multilingüe: BMP o plano 0. Contiene la mayor parte de los alfabetos modernos, incluyendo los caracteres más comunes del sistema CJK, otros caracteres históricos o poco habituales y 6.400 posiciones reservadas para uso privado.
- Plano suplementario multilingüe: SMP o plano 1. Alfabetos históricos de menor uso y sistemas de uso técnico u otros usos.
- Plano suplementario ideográfico: SIP o plano 2. Contiene los caracteres del sistema CJK que no se incluyen en el plano 0. La mayoría son caracteres muy raros o de interés histórico.
- Plano de propósito especial: SSP o plano 14. Área para caracteres de control que no se han introducido en el plano 0.
- Planos de uso privado: Planos 15 y 16. Reservados para uso privado por fabricantes de software.
Áreas y Bloques
Los distintos planos se dividen en áreas de direccionamiento en función de los tipos generales que incluyen. Esta división es convencional, no reglada y puede variar con el tiempo. Las áreas se dividen, a su vez, en bloques. Los bloques están definidos normativamente y son rangos consecutivos del espacio de códigos. Los bloques se utilizan para formar las tablas impresas de caracteres pero no deben tomarse como definiciones de grupos significativos de caracteres.
Repertorio de caracteres
Tipos de caracteres
Los bloques del espacio de códigos contienen puntos con la siguiente información.[6]
Caracteres gráficos: Letras, signos diacríticos, números, caracteres de puntuación, símbolos y espacios.
Caracteres de formato: Caracteres invisibles que afectan al proceso del texto próximo. . Ejemplos: U+2028 salto de línea, U+2029 salto de párrafo, U+00A0 no break space, etc.
Códigos de control: 65 códigos definidos por compatibilidad con ISO/IEC 2022. Son los caracteres entre en los rangos [U+0000,U+001F], U+007F y [U+0080..U+009F]. Interpretarlos es responsabilidad de protocolos superiores.
Caracteres privados: Reservados para el uso fuera del estándar por fabricantes de software.
Caracteres reservados: Códigos reservados para su uso por Unicode. Son posiciones no asignadas.
Puntos de código subrogados: Unicode reserva los puntos de código de U+D800 a U+DFFF para su uso como códigos subrogados en UTF-16, en la representación de caracteres suplementarios.
No-caracteres: Son códigos reservados permanentemente para uso interno por Unicode. Los dos últimos puntos de cada plano U+FFFE y U+FFFF.
Caracteres descartados: Son caracteres que se retienen el estándar por compatibilidad conversiones anteriores, pero se debe evitar su uso.
Repertorio unificado chino, coreano y japonés
Los ideogramas de Asia oriental (comunmente llamados caracteres chinos) se denominan ideogramas Han en el Estándar Unicode. Estos ideogramas se desarrollaron en China y fueron adaptados por culturas próximas para su propio uso.[7][8] Japón, Corea y Vietnam desarrollaron sus propios sistemas alfabéticos o silábicos para usar en combinación con los símbolos chinos: hiragana y katakana en Japón, hangul en Corea y Yi en Vietnam.
La evolución natural de los sistemas de escritura y los distintos momentos de entrada de los caracteres en las distintas culturas han marcado diferencias en los ideogramas utilizados. Unicode considera las distintas versiones de los ideogramas como variantes de un mismo caracter abstracto, es decir, como resultado de la aplicación de un tipo de letra diferente en cada caso y considera las variantes nacionales como pertenecientes a un mismo sistema de escritura. La versión original del estándar se desarrolló a partir de los estándares industriales existentes en los paises afectados.
El organismo encargado de desarrollar el repertorio de caracteres es el Ideographic Rapporteur Group (IRG). IRG es un grupo de trabajo integrado en ISO/IEC JTC1/SC2/WG2, incluyendo a China, Hong Kong, Macao, Taipei Computer Association, Singapur, Japón, Corea del Sur, Corea del Norte , Vietnam y Estados Unidos de América.[7]
A continuación se muestran los bloques que describen este repertorio. El grupo de trabajo IRG define los caracteres de los tres grupos unificados. Los siguientes dos grupos contienen caracteres para compatibilidad con estándares anteriores.
Bloque | Rango de códigos | Comentarios |
Ideogramas unificados CJK | 4E00-9FFF | Ideogramas de uso común. Tamaño de código 2 bytes. |
Ideogramas unificados CJK - Extensión A | 3400-4DFF | Ideogramas de uso poco habitual. Tamaño de código 2 bytes. |
Ideogramas unificados CJK - Extensión B | 20000-2A6DF | Ideogramas de uso poco habitual e históricos. |
Ideogramas de compatibilidad | F900-FAFF | Duplicados, variantes unificables y caracteres corporativos. Tamaño de código 2 bytes. |
Suplemento de ideogramas de compatibilidad | 2F800-2FA1F | Variantes unificables. |
Composición de caracteres
Unicode incluye un mecanismo para formar caracteres y así extender el repertorio de compatibilidad con los símbolos preestablecidos. Un caracter base se complementa con marcas: signos diacríticos, de puntuación o marcos. El tipo de cada caracter y sus atributos definen el papel que pueden jugar en una combinación. De esta manera, los usuarios en muchas ocasiones tienen muchas maneras de codificar el mismo carácter. Para poder manejar esto, Unicode también provee el mecanismo de equivalencia canónica.
Secuencias de descripción ideográfica
Se admite que nunca se podrá finalizar la tarea de incluir ideogramas en el estándar debido, principalmente, a que la creación de nuevos ideogramas continúa. A fin de suplir eventuales carencias, Unicode ofrece un mecanismo que permite la representación de los símbolos que faltan denominado Secuencias de descripción ideográfica. Se basa en que la práctica totalidad de los ideogramas puede descomponerse en piezas más pequeñas que, a su vez, son ideogramas. Aunque sea posible la representación de un símbolo mediante una secuencia el estándar especifica que siempre que exista una versión codificada su uso debe ser preferente.
Tratamiento de la información
Formas de codificación
Los puntos de codigo de Unicode se identifican por un número entero. Según su arquitectura, un ordenador utilizará unidades de 8, 16 o 32 bits para representar dichos enteros. Las formas de codificación de Unicode reglamentan la forma en que los puntos de código se transformará en unidates tratables por el computador.
Unicode define tres formas de codificación[9] bajo el nombre UTF o Formato de Transformación Unicode (Unicode Transformation Format):
- UTF-8 — codificación orientada a byte con símbolos de longitud variable.
- UTF-16 — codificación de 16 bits de longitud variable optimizada para la representación del plano básico multilingüe (BMP).[9]
- UTF-32 — codificación de 32 bits de longitud fija, y la más sencilla de las tres.
Las formas de codificación se limitan a describir el modo en que se representan los puntos de código en formato inteligible por la máquina. A partir de las 3 formas identificadas se definen 7 esquemas de codificación.
Esquemas de codificación
Los esquemas de codificación[9] tratan de la forma en que se serializa la información codificada. La seguridad en los intercambios de información entre sistemas heterogéneos requiere la implementación de sistemas que permitan determinar el orden correcto de los bits y bytes y garantizar que la reconstrucción de la información es correcta. Una diferencia fundamental entre procesadores es el orden de disposición de los bytes en palabras de 16 y 32 bits, lo que se denomina endianness. Los esquemas de codificación deben garantizar que es posible que los extremos de una comunicación saben cómo interpretar la información recibida. A partir de las 3 formas de codificación se definen 7 esquemas. A pesar de que comparten nombre no deben confundirse esquemas y formas de codificación.
Esquema de codificación | Endianness | Acepta BOM |
UTF-8 | No aplicable | Sí |
UTF-16 | Big-endian o Little-endian | Sí |
UTF-16BE | Big-endian | No |
UTF-16LE | Little-endian | No |
UTF-32 | Big-endian o Little-endian | Sí |
UTF-32BE | Big-endian | No |
UTF-32LE | Little-endian | No |
Unicode define una marca especial, Byte order mark o BOM al inicio de un fichero o una comunicación para hacer explícita la ordenación de bytes. Cuando un protocolo superior especifica el orden de bytes, la marca no es nesaria y puede omitirse dando lugar a los esquemas de la lista anterior con sufijo BE o LE.
La unidad de codificacion en UTF-8 es el byte por lo que no necesita una indicación de orden de byte. El estándar ni requiere ni recomienda la utilización de BOM, pero lo admite como marca de que el texto es Unicode o como resultado de la conversión de otros esquemas.
Discusiones
Algunas personas, principalmente en Japón, se opone al Unicode en general [cita requerida], quejándose de las limitaciones técnicas y problemas políticos involucrados. Las personas que trabajan en el proyecto ven esas críticas como malentendidos del estándar Unicode y del proceso por el cual ha evolucionado[cita requerida]. El error más común, desde este punto de vista, tiene que ver con la confusión entre caracteres abstractos y sus formas visuales altamente variables. Por otro lado mientras que la población china puede leer fácilmente la mayoría de los símbolos utilizados por los japoneses o los coreanos, los japoneses muy a menudo reconocen sólo una variante en particular [cita requerida] (lo cual es un dato curioso, pues el japonés y el coreano son considerados como lenguas aisladas) [cita requerida].
El incluir el Lenguaje Thai también ha sido criticado por su orden ilógico de caracteres [cita requerida]. Esta complicación es debido a que el Unicode ha heredado el Estándar Industrial Thai 620, el cual funcionaba de la misma manera. Este problema de orden complica el proceso de comparación de Unicode.
Unicode en uso
Sistemas operativos
Unicode se ha convertido en el esquema dominante para el procesamiento y en ocasiones para el almacenamiento de texto (aunque mucho del texto aún es almacenado en codificaciones heredadas). Los adaptadores iniciales utilizaban UCS-2 y después cambiaron a UTF-16 (debido a que esta era la única manera de agregar compatibilidad para caracteres que no eran bmp). El mejor ejemplo conocido de este sistema es Windows NT (y obviamente sus descendientes Windows 2000 y Windows XP). Aunque también los códigos de bytes de los ambientes Java y .NET lo utilizan.
Por otro lado UTF-8 (desarrollado para Plan 9) se ha convertido en la codificación principal de la mayoría de los sistemas operativos similares o basados en Unix (aunque otros también son usados por algunas bibliotecas) debido a que es relativamente fácil hacer el reemplazo por caracteres de los juegos de caracteres extendidos ASCII.
Historia
El proyecto unicode se inició a finales de 1987, tras conversaciones entre los ingenieros de Apple y Xerox: Joe Becker, Lee Collins y Mark Davis.[10] Como resultado de su colaboración, en Agosto de 1988 se publicó el primer borrador de Unicode bajo el nombre de Unicode88.[11] Esta primera versión, con códigos de 16 bits, se publicó asumiendo que solo se codificarían los caracteres necesarios para el uso moderno.
Durante el año 1989 el trabajo continuó con la adición de colaboradores de otras compañías como Microsoft o Sun. El Consorcio Unicode se formó el 3 de febrero de 1991 y en octubre de 1991 se publicó la primera versión del estándar. La segunda versión, incluyendo escritura ideográfica Han se publicó en Junio de 1992. A continuación se muestra una tabla con las distintas versiones del Estándar Unicode con sus adiciones o modificaciones más importantes.
Version | Fecha | Publicación | Edición ISO/IEC 10646 asociada | Scripts | Caracteres | |
---|---|---|---|---|---|---|
# | Adiciones notables | |||||
1.0.0 | Octubre 1991 | ISBN 0-201-56788-1 (Vol.1) | 24 | 7.161 | El repertorio inicial cubre los alfabetos: Árabe, Armenio, Bengali, Bopomofo, Cirílico, Devanagari, Georgiano, Griego/Copto, Gujarati, Gurmukhi, Hangul, Hebreo, Hiragana, Kannada, Katakana, Lao, Latino, Malayalam, Oriya, Tamil, Telugu, Thai, y Tibetano.[12] | |
1.0.1 | Junio 1992 | ISBN 0-201-60845-6 (Vol.2) | 25 | 28.359 | Definido el primer conjunto de 20.902 ideogramas CJK unificados.[13] | |
1.1 | Junio 1993 | ISO/IEC 10646-1:1993 | 24 | 34.233 | Se agregan 4.306 caracteres Hangul más al conjunto original de 2.350. Se elimina el alfabeto tibetano.[14] | |
2.0 | Julio 1996 | ISBN 0-201-48345-9 | ISO/IEC 10646-1:1993 con enmiendas 5, 6 y 7 | 25 | 38.950 | Eliminado el conjunto origial de caracteres Hangul; se agrega un nuevo conjuto de 11.172 caracteres Hangul en una nueva ubicación.[15] Se agrega de nuevo el alfabeto tibetano en una nueva ubicación y con un juego de caracteres diferente. Se define el sistema de códigos subrogados y se crean los planos 15 y 16 de caracteres para uso privado.[16] |
2.1 | Mayo 1998 | ISO/IEC 10646-1:1993 con enmiendas 5, 6 y 7, y dos caracteres de la enmienda 18 | 25 | 38.952 | Se agrega el símbolo del Euro.[17] | |
3.0 | Septiembre 1999 | ISBN 0-201-61633-5 | ISO/IEC 10646-1:2000 | 38 | 49.259 | Ideogramas Cherokee, Ethiopic, Khmer, mongol, Myanmar, Ogham, Alfabeto rúnico, Sinhala, Siríaco, Thaana, Unified Canadian Aboriginal Syllabics, y Yi además de los patrones Braille.[18] |
3.1 | Marzo 2001 | ISO/IEC 10646-1:2000
ISO/IEC 10646-2:2001 |
41 | 94,205 | Se agregan los alfabetos Deseret, Gótico y Old Italic, y los símbolos de Notación musical moderna, Música bizantina, y 42.711 ideogramas de CJK unificado.[19] | |
3.2 | Marzo 2002 | ISO/IEC 10646-1:2000 con la enmienda 1
ISO/IEC 10646-2:2001 |
45 | 95.221 | Agregadas las escrituras filipinas: Buhid, Hanunoo, Tagalog, y Tagbanwa.[20] | |
4.0 | Abril 2003 | ISBN 0-321-18578-1 | ISO/IEC 10646:2003 | 52 | 96.447 | Se agrega el Silabario chipriota, Limbu, Lineal B, Osmanya, Shavian, Tai Le, y Ugarítico, y los símbolos Hexagrama.[21] |
4.1 | Marzo 2005 | ISO/IEC 10646:2003 con enmienda 1 | 59 | 97.720 | Agregados Buginese, Glagolítico, Kharoshthi, New Tai Lue, Persa antiguo, Syloti Nagri, y Tifinagh. Se separa el Copto del alfabeto griego. Símbolos griegos antiguos para música y numeración.[22] | |
5.0 | Julio 2006 | ISBN 0-321-48091-0 | ISO/IEC 10646:2003 con enmiendas 1 y 2 y cuatro caracteres de la enmienda 3 | 64 | 99.089 | Agregados Balinese, Cuneiforme, N'Ko, Phags-pa, y Fenicio.[23] |
5.1 | Abril 2008 | ISO/IEC 10646:2003 más enmiendas 1, 2, 3 y 4 | 75 | 100.713 | Agregados escritura caria, Cham, Kayah Li, escritura lepcha, Lycian, Lydian, Ol Chiki, Rejang, Saurashtra, Sundanese, y Vai. Símbolos para el Phaistos Disc, fichas deMahjong y fichas de Dominó. Importantes adiciones para Myanmar, letras y abreviaturas de amanuense utilizadas en manuscritos medievales y la adición de capital ß.[24] |
Unicode 5.2, en correspondencia con ISO/IEC 10646:2003 con enmiendas de 1 a 6, se publicará en otoño de 2009.[25]
Véase también
Referencias
- ↑ «About the Unicode Standard». Unicode, Inc. Consultado el 21 de mayo de 2009.
- ↑ «The Unicode Consortium Members». Unicode, Inc. Consultado el 21 de mayo de 2009.
- ↑ The Unicode Consortium (octubre de 2006). Julie D. Allen, Joe Becker (et al.), ed. Unicode 5.0 standard (en inglés). Addisson-Wesley. ISBN 0-321-48091-0.
- ↑ a b «Roadmaps to Unicode». Unicode, Inc. Consultado el 21 de mayo de 2009.
- ↑ «Archive of Notices of Non-Approval». Unicode, Inc. Consultado el 21 de mayo de 2009.
- ↑ The Unicode Consortium (octubre de 2006). «16. Special Areas and Format Characters». En Julie D. Allen, Joe Becker (et al.), ed. Unicode 5.0 standard (en inglés). Addisson-Wesley. ISBN 0-321-48091-0.
- ↑ a b «On the Encoding of Latin, Greek, Cyrillic, and Han».
- ↑ «12. East Asian Scripts». Unicode 5.0 Standard.
- ↑ a b c The Unicode Consortium (octubre de 2006). «2.5 Encoding Forms». En Julie D. Allen, Joe Becker (et al.), ed. Unicode 5.0 standard (en inglés). Addisson-Wesley. ISBN 0-321-48091-0.
- ↑ «Chronology of Unicode Version 1.0».
- ↑ Becker, Joseph D. (10 de septiembre de 1998). Unicode 88 (en inglés). Unicode Consortium. p. 10. Consultado el 29 de mayo de 2009.
- ↑ http://www.unicode.org/Public/reconstructed/1.0.0/UnicodeData.txt
- ↑ http://www.unicode.org/Public/reconstructed/1.0.1/UnicodeData.txt
- ↑ http://www.unicode.org/Public/1.1-Update/UnicodeData-1.1.5.txt
- ↑ The Unicode 2.0 data file
- ↑ http://www.unicode.org/Public/2.0-Update/UnicodeData-2.0.14.txt
- ↑ http://www.unicode.org/Public/2.1-Update/UnicodeData-2.1.2.txt
- ↑ http://www.unicode.org/Public/3.0-Update/UnicodeData-3.0.0.txt
- ↑ http://www.unicode.org/Public/3.1-Update/UnicodeData-3.1.0.txt
- ↑ http://www.unicode.org/Public/3.2-Update/UnicodeData-3.2.0.txt
- ↑ http://www.unicode.org/Public/4.0-Update/UnicodeData-4.0.0.txt
- ↑ http://www.unicode.org/Public/4.1.0/ucd/UnicodeData.txt
- ↑ http://www.unicode.org/Public/5.0.0/ucd/UnicodeData.txt
- ↑ http://www.unicode.org/Public/5.1.0/ucd/UnicodeData.txt
- ↑ Unicode Liaison Report — WG 2 meeting 54