Sistema unicode em java

Sistema unicode em java
As linguagens de programação seguem um conjunto de padrões para codificação de caracteres. Esses padrões representam idiomas escritos e definem algumas regras que devem ser seguidas para codificar caracteres pertencentes a esses idiomas escritos. Assim como outras linguagens de programação, o Java também possui um padrão de codificação de caracteres que é chamado de sistema Unicode. Este post lança luz no sistema Java Unicode.

O que é um sistema unicode?

O sistema Unicode é um padrão mundial usado para codificar caracteres de 16 bits. Este sistema pode representar quase qualquer linguagem renomada do mundo.

Por que o sistema unicode?

Antes do surgimento do sistema Unicode, havia numerosos padrões usados ​​para codificar caracteres. Estes foram:

  1. ASCII
    ASCII, abreviação de código padrão americano para o intercâmbio de informações é um dos padrões mais antigos e mais comuns para codificar caracteres e inclui letras A-Z (uppercase e minúsculas ambas) e número 0-9, e alguns símbolos básicos.
  2. ISO 8859-1
    ISO 8859-1 é um padrão que foi desenvolvido para o idioma da Europa Ocidental que inclui 128 caracteres ASCII, bem como 128 caracteres adicionais.
  3. Koi-8
    O Koi-8 é um padrão originalmente desenvolvido para russo que permite a codificação de caracteres de 8 bits e inclui alfabetos latinos e alfabetos russos (uppercase e minúsculas).
  4. GB 18030 e Big-5
    GB 18030 e BIG-5 são padrões que foram desenvolvidos para os chineses. GB18030 representa todos os 20.902 caracteres Han e símbolos adicionais de DBCs, enquanto isso, Big5, representa caracteres chineses convencionais.

Nos padrões acima mencionados, o problema que ocorreu foi que um valor específico de código foi usado para representar vários caracteres em vários idiomas. Além disso, um maior conjunto de caracteres codificando para vários idiomas variados, como 1 byte, 2 bytes ou mais.

Portanto, para resolver este problema, o sistema unicode para idiomas foi desenvolvido. Cada caractere neste sistema mantém 2 byte, portanto, em Java 2 byte é usado para cada personagem.

Conclusão

O sistema Unicode é um padrão global usado para a codificação de caracteres de caracteres de 16 bits. Ele se originou como uma solução para os problemas que ocorreram nos padrões de idiomas desenvolvidos anteriormente. Java usa este sistema projetado para manter 2 byte para cada personagem. Este post discute o sistema Java Unicode em profundidade.