JCK Font Engine: Hệ Thống Glyph CJK 103,000+ Ký Tự Cho Nghiên Cứu Tự Dạng

JCK Font Engine: Hệ Thống Glyph CJK 103,000+ Ký Tự

JCK Font Engine là hệ thống tổng hợp và so sánh glyph Hán-Nôm CJK, phục vụ nghiên cứu tự dạng (字形 Zìxíng). Trong hệ sinh thái QuizzMan, đây là công cụ kết nối giữa từ điển Hán-Nôm (dict.quizzman.com) và phòng nghiên cứu Đông phương (lab.quizzman.com).

1. Tại Sao Cần So Sánh Glyph?

Cùng một chữ Hán nhưng hiển thị khác nhau tùy vùng miền:

  • 中国 (CN): Giản thể — nét đơn giản, ít nét hơn
  • 台灣 (TW): Phồn thể — giữ nguyên nét cổ
  • 日本 (JP): Shinjitai — đơn giản hóa theo cách riêng
  • 한국 (KR): Hanja — phồn thể gốc Trung Quốc
  • 越南 (VN): Chữ Nôm — biến thể riêng, nhiều ký tự sáng tạo

Ví dụ: Chữ 龍 (rồng) có ít nhất 5 biến thể glyph khác nhau giữa 5 vùng.

2. Unicode CJK Unified Ideographs

Hệ thống bao phủ đầy đủ các block Unicode CJK:

  • CJK Unified: U+4E00–U+9FFF (20,992 ký tự gốc)
  • Extension A: U+3400–U+4DBF (6,592 ký tự)
  • Extension B: U+20000–U+2A6DF (42,720 ký tự)
  • Extension C-H: Các bổ sung mới nhất
  • CJK Compatibility: Biến thể tương thích

Tổng cộng: Hơn 103,000 ký tự CJK trong Unicode 15.1.

3. Kiến Trúc Font Engine

JCK Font Engine không rendering font trực tiếp, mà:

  1. Thu thập glyph từ nhiều nguồn font mở (Noto CJK, Source Han Sans/Serif, HanaMin, etc.)
  2. Index hóa theo codepoint + vùng miền (CN/TW/JP/KR/VN)
  3. Cho phép so sánh side-by-side cùng codepoint khác font
  4. Phân tích cấu trúc nét (stroke analysis) bằng algorithm
  5. Tích hợp với từ điển: tra cứu chữ → xem glyph → xem nghĩa

4. Ứng Dụng Trong Nghiên Cứu

  • Hán Nôm học: So sánh chữ Nôm cổ với glyph hiện đại
  • Thư pháp: Nghiên cứu biến thể nét giữa các thời kỳ
  • OCR: Training data cho nhận dạng chữ Hán viết tay
  • Typography: Thiết kế font CJK mới
  • Digital Humanities: Số hóa văn bản cổ