Unicode

Article

May 22, 2022

Unicode là một hệ thống mã hóa gán một số duy nhất cho mỗi ký tự được sử dụng để viết văn bản, độc lập với ngôn ngữ, nền tảng CNTT và chương trình được sử dụng. Nó đã được biên dịch và được cập nhật và quảng cáo bởi Unicode Consortium, một tập đoàn quốc tế gồm các công ty quan tâm đến khả năng tương tác trong máy tính xử lý văn bản bằng các ngôn ngữ khác nhau.

Lịch sử

Nguồn gốc và sự phát triển Unicode được tạo ra để giải quyết các hạn chế của lược đồ mã hóa ký tự truyền thống. Ví dụ: mặc dù các ký tự được định nghĩa trong ISO 8859-1 được sử dụng rộng rãi ở các quốc gia khác nhau, nhưng sự không tương thích thường xảy ra giữa các quốc gia khác nhau. Nhiều phương pháp mã hóa truyền thống có một vấn đề chung, đó là chúng cho phép máy tính quản lý môi trường song ngữ (thường sử dụng các chữ cái Latinh và ngôn ngữ mẹ đẻ của chúng), nhưng không thể hỗ trợ môi trường đa ngôn ngữ cùng một lúc (đề cập đến tình huống có nhiều ngôn ngữ Có thể được trộn cùng một lúc). Bảng mã Unicode chứa các ký tự với các kiểu viết khác nhau, chẳng hạn như "ɑ / a", "强 / 强", "home / family / 戸". Tuy nhiên, đã có tranh cãi về việc xác định tính đa hình trong chữ Hán. Để biết chi tiết, hãy xem các biểu tượng thống nhất của Trung Quốc, Nhật Bản và Hàn Quốc. Về xử lý văn bản, Unicode xác định một mã duy nhất (tức là một số nguyên) cho mỗi ký tự chứ không phải là một glyph. Nói cách khác, Unicode xử lý các ký tự một cách trừu tượng (tức là số) và để lại công việc suy diễn trực quan (chẳng hạn như kích thước phông chữ, hình dạng giao diện, hình dạng phông chữ, kiểu, v.v.) cho phần mềm khác, chẳng hạn như web điều hướng hoặc trình xử lý văn bản. Hiện tại, hầu hết tất cả các hệ thống máy tính đều hỗ trợ bảng chữ cái Latinh cơ bản và mỗi hệ thống hỗ trợ một số phương pháp mã hóa khác. Để tương thích với chúng, 256 ký tự đầu tiên của Unicode được dành riêng cho các ký tự được xác định bởi ISO 8859-1, do đó việc chuyển đổi các ngôn ngữ Tây Âu hiện có không cần phải xem xét đặc biệt; và một số lượng lớn các ký tự giống nhau được lặp lại trong các mã ký tự khác nhau Trong mã ký tự, phương pháp mã hóa phức tạp cũ có thể được chuyển đổi trực tiếp giữa các bảng mã Unicode mà không làm mất bất kỳ thông tin nào. Ví dụ: phần định dạng biểu mẫu đầy đủ chứa định dạng đầy đủ của các chữ cái Latinh chính. Trong các ký tự chữ Hán, Nhật Bản và Hàn Quốc, các ký tự này được trình bày ở dạng đầy đủ thay vì nửa dạng phổ biến. , Có ảnh hưởng lớn đến văn bản dọc và văn bản liền mạch. Khi biểu diễn một ký tự Unicode, nó thường được biểu thị bằng "U +" theo sau là một tập hợp các số thập lục phân. Trong kế hoạch đa ngôn ngữ cơ bản: (kế hoạch đa ngôn ngữ cơ bản bằng tiếng Anh tất cả các ký tự. BMP viết tắt còn được gọi là "kế hoạch số không", kế hoạch 0) bên trong, sử dụng bốn chữ số (tức là 2 byte, với tổng số 16 bit, Như U + 4AE0, hỗ trợ tổng cộng hơn 60.000 ký tự); các ký tự bên ngoài mặt phẳng số 0 phải sử dụng năm hoặc sáu số. Phiên bản cũ hơn của tiêu chuẩn Unicode sử dụng các phương pháp đánh dấu tương tự, nhưng có một số khác biệt nhỏ: Trong Unicode 3.0, "U-" được sử dụng theo sau là tám chữ số và "U +" phải được theo sau bởi bốn chữ số.

Cấu trúc mã

Unicode ban đầu được coi là một mã hóa 16 bit (bốn chữ số thập lục phân) cho khả năng mã hóa 65.535 (2 ^ 16 -1) ký tự. Điều này được cho là đủ để đại diện cho các ký tự được sử dụng trong tất cả các ngôn ngữ viết trên thế giới. Tuy nhiên, giờ đây, tiêu chuẩn Unicode, có xu hướng phù hợp hoàn hảo với tiêu chuẩn ISO / IEC 10646, cung cấp mã hóa lên đến 21 bit và hỗ trợ kho mã số có thể đại diện cho khoảng một triệu ký tự. Điều này dường như đủ để đáp ứng các yêu cầu d