유니코드 문자 속성

Unicode character property

유니코드 표준은 각 유니코드 문자 및 코드 포인트에 다양한 속성을 할당합니다.[1][2]

속성은 줄 바꿈, 스크립트 방향 오른쪽에서 왼쪽 또는 컨트롤 적용과 같은 프로세스에서 문자(코드 포인트)를 처리하는 데 사용할 수 있습니다. 일부 "문자 속성"은 문자가 할당되지 않은 코드 포인트와 "<문자가 아닙니다>"와 같이 레이블이 지정된 코드 포인트에 대해서도 정의됩니다. 문자 속성은 표준 부속문서 44에 설명되어 있습니다.[2]

속성에는 규범적, 정보적, 기여적 또는 잠정적인 수준의 강제성이 있습니다. 사양의 단순화를 위해 동일한 속성을 갖는 연속적인 코드 포인트 범위를 지정하여 문자 속성을 할당할 수 있습니다.[3]

시맨틱 요소

속성은 다음 순서로 표시됩니다.[4]

[코드];[이름];[gc];[cc];[bc];[decomp 위치];[nv-dec];[nv-dig];[nv-num];[bm];[alias];;[윗선];[하의 케이스];[title 사건] 
  • 'alias' = 수정된 이름입니다. 더 이상 쓸모가 없는. 이제는 별도의 데이터베이스로 추적되지만 유니코드 1 이름 등에 대해서는 남아 있습니다.
  • 'bc' = bidi (양방향) 카테고리 [L, R 등]
  • 'bm' = bidi mirrored [N 또는 Y]
  • '''cc''' = 결합 클래스 [이음계의 위치]
  • 분해형 또는 <mapping> = 문자+디아크리틱, 결찰 X Y, 위첨자 X, 글꼴 X, 초성 X, 중간 X, 최종 X, 고립 X, 수직 X 등
  • 'gc' = 일반 범주 [글자, 기호, 숫자, 문장부호, 대소문자 행동 등]
  • 'nv' = 숫자 형식 및 [숫자의] 값입니다. 숫자 유형이 '10진수'인 경우 3개의 슬롯이 모두 채워집니다. 'digit'이면 첫 번째가 null이 됩니다. (이것은 중단되었습니다.) '숫자'인 경우 처음 두 개는 null이고 마지막 두 개만 사용됩니다.

'alias'와 '대소문자' 사이의 속성은 더 이상 사용되지 않으며 이제 모든 유니코드 문자에 대해 null입니다.

코드

첫 번째 속성은 16진수 코드 포인트입니다.

이름 및 별칭

유니코드 문자에는 고유한 이름(na)이 할당됩니다.[1] 이름은 대문자 A~Z, 숫자 0~9, 하이픈-마이너스(-) 및 공백()으로 구성됩니다. 공백 또는 하이픈으로 시작하는 이름, 공백 또는 하이픈으로 끝나는 이름, 반복되는 공백 또는 하이픈, 하이픈 뒤의 공백은 허용되지 않습니다. 이름은 유니코드 내에서 고유한 것으로 보장되며 코드 포인트와 그 문자를 식별하는 데 사용할 수 있습니다. 수만 명에 달하는 관념적 인물들이 문양에 이름을 올렸습니다." cjk 통일 이념-hhhhhh". 예를 들어, U+4E00 一 CJK UNITED IDEOGRAPH-4E00. 포맷 문자의 이름도 다음과 같습니다. U+00A0 NO-BREAK SPACE.

다음 코드 포인트 클래스에는 이름(na="")이 없습니다. 컨트롤(일반 범주: Cc), 개인 용도(Co), 대리(Cs), 문자가 아닌 것(Cn) 및 예약된 것(Cn). 비공식적으로 "코드 포인트 레이블"(code point labels)이라고 불리는 일반 또는 특정 메타 이름(code point labels): <control>, <control-0088>, < reserved>, <non-character-hhhhh>, <private-use-hhh> 또는 <대리인>)에 의해 참조될 수 있습니다. 이러한 레이블에는 <>-괄호가 포함되어 있으므로 혼동을 방지하는 이름으로 표시될 수 없습니다.

버전 1.0 이름

유니코드 버전 2.0에서는 많은 이름이 변경되었습니다. 그때부터 가명을 엄격하게 (규범적으로) 사용하는 것을 포함하여 "이름은 절대 변하지 않을 것입니다"라는 규칙이 발효되었습니다. 사용되지 않는 버전 1.0 이름이 속성 별칭으로 이동하여 하위 호환성을 제공했습니다.

캐릭터명 별칭

유니코드 버전 2.0부터는 코드 포인트에 대한 게시된 이름이 변경되지 않습니다. 따라서 문자 이름의 철자가 잘못되었거나 문자 이름이 완전히 잘못되었거나 심각하게 오해의 소지가 있는 경우 문자에 정식 문자 이름 별칭이 할당될 수 있으며, 이 별칭은 실제 결함이 있는 문자 이름 대신 응용 프로그램에서 사용될 수 있습니다.[1] 예를 들어, U+FE18Presentation FORM for VERTICAL WHITE LENTICAL BRAKET는 실제 캐릭터 이름에서 "브라켓"이 "브라켓"으로 잘못 표기되는 것을 완화하기 위해 "Presentation FORM for VERTICAL WHITE LENTICAL BRAKET"이라는 캐릭터 이름 별칭을 가지고 있으며, U+A015 ꀕ YI WU는 "브라켓"이라는 캐릭터 이름 별칭을 가지고 있습니다."YI WILL TERATION MARK"는 문자 이름과 달리 고정된 음절 값을 가지고 있지 않기 때문입니다.

결함이 있는 문자 이름에 대한 수정인 문자 이름 별칭 외에도 일부 문자에는 대체 이름 또는 약어인 별칭이 할당됩니다. 유니코드 표준에는 다섯 가지 유형의 문자 이름 별칭이 정의되어 있습니다.

  • 수정: 철자가 잘못되었거나 심각하게 잘못된 문자 이름에 대한 수정;
  • 제어: C0 및 C1 제어 기능에 대한 ISO 6429 이름(유니코드 표준에서 문자 이름이 할당되지 않음);
  • 대체: 일부 형식 문자에 대한 대체 이름("바이트 주문 표시"라는 별칭이 있는 U+FEFF "ZERO WIDTH NO-BREAK SPACE"만 해당);
  • 그림: 어떤 표준에서도 실제 이름이 아닌 일부 C1 제어 코드 기능에 대한 문서화된 라벨;
  • 약어: 제어 코드, 형식 문자, 공백 및 변형 선택기의 약어 또는 두문자어.

모든 형식적인 문자 이름 별칭은 허용되는 문자 이름에 대한 규칙을 따르며, 문자 이름 별칭과 문자 이름 공간 내에서 고유한 것이 보장됩니다. 이러한 이유로 ISO 6429 이름 "BELL"은 U+1F514의 이름이 "BELL"[1]이기 때문에 U+0007의 별칭으로 정의되지 않습니다.

유니코드 버전 12.1에서는 28개의 형식적인 문자 이름 별칭이 결함이 있는 문자 이름에 대한 수정으로 정의되어 있습니다.[5] 아래에 나열되어 있습니다.

이러한 규범적 이름과는 별도로, 비공식적인 이름은 유니코드 코드 차트에 표시될 수 있습니다. 이 이름은 문자에 대해 일반적으로 사용되는 다른 이름이며 동일한 문자 제한이 없습니다. 이러한 비공식 이름은 고유성을 보장하지 않으며 이후 버전의 표준에서 변경 또는 제거될 수 있습니다.

일반 카테고리

각 코드 포인트에는 General Category 값이 할당됩니다. 이것은 "문자가 아닌" 것으로 정의된 할당되지 않은 코드 포인트 및 코드 포인트에 대해서도 정의되는 문자 속성 중 하나입니다.

일반 카테고리 (유니코드 문자 속성)[a]
가치 카테고리메이저,미성년 기본형[b] 부여된[b] 문자 카운트[c]
(15.1 기준)
언급
L, L, LC, 대문자(Lu, Ll, Lt만 해당)[d]
문자, 대문자 그래픽 성격 1,831
Ll 글자, 소문자 그래픽 성격 2,233
Lt 레터,타이틀케이스 그래픽 성격 31 대문자 다음에 소문자 부분(예: dž, lj, njdz)이 포함된 라이그처 또는 다이그래프
Lm 문자, 수식어 그래픽 성격 397 수식어 글자
편지, 기타 그래픽 성격 132,234 유니케이스 알파벳으로 된 아이디그래프 또는 문자
M, 마크
Mn 표식, 띄어쓰기 안 함 그래픽 성격 1,985
표시, 간격 결합 그래픽 성격 452
나야. 마크, 감싸기 그래픽 성격 13
N, 번호
Nd 숫자, 십진자리 그래픽 성격 680 이것들과 이것들만 숫자 유형 = De를 갖습니다.
Nl 번호, 문자 그래픽 성격 236 문자 또는 문자와 같은 기호로 구성된 숫자(예: 로마 숫자)
아니요. 번호, 기타 그래픽 성격 915 예: 저속 분수, 위첨자아래첨자 숫자
P, 구두점
Pc 구두점, 커넥터 그래픽 성격 10 공백 밑줄 문자(예: "_") 및 기타 공백 연결 문자가 포함됩니다. 다른 문장부호 문자와 달리 정규 표현 라이브러리에서는 "단어" 문자로 분류할 수 있습니다.[f]
PD 구두점, 대시 그래픽 성격 26 여러 하이픈 문자 포함
Ps 구두점, 오픈 그래픽 성격 79 괄호 열기 문자
구두점, 닫기 그래픽 성격 77 괄호 닫기 문자
파이 문장부호, 초성사 그래픽 성격 12 따옴표를 엽니다. ASCII "중립" 따옴표를 포함하지 않습니다. 용도에 따라 Ps 또는 Pe처럼 동작할 수 있음
Pf 구두점, 최종견적 그래픽 성격 10 따옴표 마감중입니다. 용도에 따라 Ps 또는 Pe처럼 동작할 수 있음
구두점, 기타 그래픽 성격 628
S, 기호
에스엠 기호,수학 그래픽 성격 948 수학 기호(예: +, -, =, ×, ÷, , , ). 범주 Ps 및 Pe에 포함된 괄호 및 괄호는 포함되지 않습니다. 또한 수학 연산자로 자주 사용됨에도 불구하고 주로 "문구"로 간주되는 !, *, - 또는 /를 포함하지 않습니다.
Sc 기호, 화폐 그래픽 성격 63 화폐 기호
에스케이 기호, 수식어 그래픽 성격 125
그렇게 기호, 기타 그래픽 성격 6,639
Z, 구분자
Zs 구분자, 공간 그래픽 성격 17 공간을 포함하지만 Cc인 TAB, CR 또는 LF는 포함하지 않습니다.
Zl 구분자, 선 형식 성격 1 U+2028 라인 분리기(LSEP)만 해당
Zp 구분자, 단락 형식 성격 1 U+2029 문단 구분자(PSEP)만 해당
C, 기타
Cc 기타, 제어 통제 성격 65 (결코 변하지 않음)[e] 이름 없음,[g] <control>
Cf 기타, 형식 형식 성격 170 소프트 하이픈, 합류 제어 문자(ZWNJZWJ), 양방향 텍스트를 지원하는 제어 문자 및 언어 태그 문자 포함
Cs 기타 대리인 대리인 없음(UTF-16에만 사용됨) 2,048(결코 변경되지 않음)[e] 이름 없음,[g] <대리인>
기타사용 개인용 문자(단, 해석이 지정되지 않음) 총 137,468개([e]결코 변경되지 않음)(BMP 경우 6,400개, 플레인 15-16 경우 131,068개) 이름 없음,[g] <private-use>
Cn 기타, 미할당 비문자 것은 아니다. 66 (유니코드 코드 포인트의 범위를 확장하지 않는 한 변경되지 않음)[e] 이름 없음,[g] <비문자>
예약한 것은 아니다. 824,652 이름 없음,[g] <예약>
  1. ^ "Table 4-4: General Category" (PDF). The Unicode Standard. Unicode Consortium. September 2022.
  2. ^ a b "Table 2-3: Types of code points" (PDF). The Unicode Standard. Unicode Consortium. September 2022.
  3. ^ "DerivedGeneralCategory.txt". The Unicode Consortium. 2022-04-26.
  4. ^ "5.7.1 General Category Values". UTR #44: Unicode Character Database. Unicode Consortium. 2020-03-04.
  5. ^ a b c d e 유니코드 문자 인코딩 안정성 정책: 속성 안정성 정책: 일부 gc 그룹은 절대 변경되지 않습니다. gc=Nd는 숫자 Type=De(decimal)에 해당합니다.
  6. ^ "Annex C: Compatibility Properties (§ word)". Unicode Regular Expressions. Version 23. Unicode Consortium. 2022-02-08. Unicode Technical Standard #18.
  7. ^ a b c d e "Table 4-9: Construction of Code Point Labels" (PDF). The Unicode Standard. Unicode Consortium. September 2022. 코드 포인트 레이블은 이름이 없는 코드 포인트를 식별하는 데 사용될 수 있습니다. 예를 들어, <control-hhhh>, <control-0088>. Name(이름)은 공백으로 남아 있어 문서에서 Control Name(제어 이름)을 실수로 실제 Control 코드로 교체하는 것을 방지할 수 있습니다. 유니코드는 또한 <noncharacter>에 <not a character>를 사용합니다.

구두점

문자에는 구두점 문자임을 나타내기 위해 별도의 속성이 있습니다. 속성에는 모두/아니오 값이 있습니다. 대시, 따옴표_마크, 문장_터미널, 터미널_문구.

공백

공백은 타이포그래피 효과에 일반적으로 사용되는 개념입니다. 기본적으로 렌더링된 텍스트에서 띄어쓰기 효과가 있는 보이지 않는 문자를 다룹니다. 공백, 탭 및 새 라인 포맷 컨트롤이 포함되어 있습니다. 유니코드에서 이러한 문자는 "WSpace=yes" 속성 집합을 가집니다. 버전 15.1에는 25개의 공백 문자가 있습니다.

이름. 코드 포인트 너비 상자 깨질까요?
IDN?
대본 블록 일반
카테고리
메모들
문자표 U+0009 9 네. 아니요. 흔한 기본 라틴어 다른.
통제
HT, 수평 탭. HTML/XML 이름 개체: &Tab;, LaTeX: \tab, C 탈출: \t
라인 피드 U+000A 10 줄이 끊어지는 건가요? 흔한 기본 라틴어 다른.
통제
LF, 라인 피드. HTML/XML 이름 개체: &NewLine;, C 탈출: \n
선표 작성 U+000B 11 줄이 끊어지는 건가요? 흔한 기본 라틴어 다른.
통제
VT, 수직 탭. C 탈출: \v
사료를 만들다 U+000C 12 줄이 끊어지는 건가요? 흔한 기본 라틴어 다른.
통제
FF, 폼 피드. C 탈출: \f
객차 반환 U+000D 13 줄이 끊어지는 건가요? 흔한 기본 라틴어 다른.
통제
CR, 캐리지 리턴. C 탈출: \r
공간 U+0020 32 네. 아니요. 흔한 기본 라틴어 구분자,
공간
가장 일반적인(일반적인 ASCII 공간). LaTeX: \
다음 줄 U+0085 133 줄이 끊어지는 건가요? 흔한 라틴어-1
보충제
다른.
통제
넬, 다음 줄. LaTeX: \\
쉴 틈 없는 공간 U+00A0 160 아니요. 아니요. 흔한 라틴어-1
보충제
구분자,
공간
끊기지 않는 공간: U+0020과 동일하지만 선이 끊어질 수 있는 지점은 아닙니다. HTML/XML 이름 개체: &nbsp;, &NonBreakingSpace; LaTeX: ~
오함 공백 표시 U+1680 5760 네. 아니요. 오함 오함 구분자,
공간
오함 텍스트의 단어분리에 사용됩니다. 일반적으로 세로 텍스트의 세로 줄 또는 가로 텍스트의 가로 줄이지만 "스템리스" 글꼴의 공백일 수도 있습니다. Ogham 글꼴이 필요합니다.
네드의 U+2000 8192 네. 아니요. 흔한 일반
구두점
구분자,
공간
en의 폭. U+2002는 표준적으로 이 문자와 동일하며, U+2002가 선호됩니다.
전자파 U+2001 8193 네. 아니요. 흔한 일반
구두점
구분자,
공간
"머튼 쿼드(mutton quad)"라고도 합니다. em의 너비. U+2003은 표준적으로 이 문자와 동일하며, U+2003이 선호됩니다.
띄엄띄엄 U+2002 8194 네. 아니요. 흔한 일반
구두점
구분자,
공간
"넛"이라고도 합니다.en의 폭. U+2000 En Quad는 표준적으로 이 문자와 동일하며 U+2002가 선호됩니다. HTML/XML 이름 개체: &ensp;, LaTeX: \enspace (LaTeXen 공간은 휴식이 없는 공간입니다.)
빈 공간 U+2003 8195 네. 아니요. 흔한 일반
구두점
구분자,
공간
"머튼"이라고도 합니다. em의 너비. U+2001 Em Quad는 표준적으로 이 문자와 동일하며, U+2003이 선호됩니다. HTML/XML 이름 개체: &emsp;, LaTeX: \quad
한 개당 세 개의 공간 U+2004 8196 네. 아니요. 흔한 일반
구두점
구분자,
공간
"두꺼운 공간"이라고도 합니다. 엠 너비의 3분의 1. HTML/XML 이름 개체: &emsp13;, LaTeX: \; (LaTeX 두꺼운 공간은 끊김이 없는 공간입니다.)
한 개당 네 개의 공간 U+2005 8197 네. 아니요. 흔한 일반
구두점
구분자,
공간
"중간 공간"이라고도 합니다. 엠 너비의 4분의 1. HTML/XML 이름 개체: &emsp14;
한 개당 6개의 공간 U+2006 8198 네. 아니요. 흔한 일반
구두점
구분자,
공간
엠 너비의 6분의 1. 컴퓨터 타이포그래피에서는 때때로 U+2009와 동일시됩니다.
도형 공간 U+2007 8199 아니요. 아니요. 흔한 일반
구두점
구분자,
공간
도형 공간. 한 자리 숫자의 너비와 동일한 단일 공백 숫자가 있는 글꼴입니다. HTML/XML 이름 개체: &numsp;
구두점 공간 U+2008 8200 네. 아니요. 흔한 일반
구두점
구분자,
공간
글꼴의 좁은 구두점, 즉 마침표 또는 쉼표의 전진 폭만큼 넓습니다.[6] HTML/XML 이름 개체: &puncsp;
좁은 공간 U+2009 8201 네. 아니요. 흔한 일반
구두점
구분자,
공간
얇은 공간; 너비의 5분의 1(때로는 6분의 1). SI 장치로 만든 측정을 위한 수천 개의 분리기로 사용할 것을 권장합니다. U+2002~U+2008과는 달리 입력 설정에서 폭이 조정될 수 있습니다.[7] HTML/XML 이름 개체: &thinsp;, &ThinSpace;, LaTeX: \, (LaTeX 얇은 공간은 휴식이 없는 공간입니다.)
머리 공간 U+200A 8202 네. 아니요. 흔한 일반
구두점
구분자,
공간
얇은 공간보다 얇습니다. HTML/XML 이름 개체: &hairsp; &VeryThinSpace;
선 구분자 U+2028 8232 줄이 끊어지는 건가요? 흔한 일반
구두점
구분자,
단락 구분자 U+2029 8233 줄이 끊어지는 건가요? 흔한 일반
구두점
구분자,
단락
쉴 틈 없이 좁은 공간 U+202F 8239 아니요. 아니요. 흔한 일반
구두점
구분자,
공간
공간이 좁습니다. U+00A0 No-Break Space와 기능이 유사합니다. 몽골어와 함께 사용할 때, 몽골어의 너비는 일반적으로 일반 공간의 3분의 1입니다. 다른 맥락에서, 몽골어의 너비는 때때로 얇은 공간(U+2009)의 너비와 비슷합니다. LaTeX: \,
중간 정도의 수학적 공간 U+205F 8287 네. 아니요. 흔한 일반
구두점
구분자,
공간
수학 공식에 사용되는 MMSP. 엠의 18분의 4.[8] 수학 타이포그래피에서 공간의 너비는 일반적으로 em의 18분의 1의 정수배로 주어지며, 4/18 em은 예를 들어 a + 사이, a + b의 표현에서 + b 사이와 같은 여러 상황에서 사용될 수 있습니다.[9] HTML/XML 명명된 엔티티: &MediumSpace;, LaTeX: \: (LaTeX 중간 공간은 휴식이 없는 공간입니다.)
지리적 공간 U+3000 12288 네. 아니요. 흔한 CJK 기호
그리고.
구두점
구분자,
공간
CJK 캐릭터 셀(전체 너비)만큼 넓습니다. 를 들어, 타이투에서 사용됩니다.
이름. 코드 포인트 너비 상자 깨질까요?
IDN?
대본 블록 일반
카테고리
메모들
몽골 모음 구분자 U+180E 6158 네. 아니요. 몽골인 몽골인 다른.
형식
MVS. 몽골어에서 단어의 마지막 두 문자가 다른 모양을 띠게 하는 데 사용되는 좁은 공간 문자입니다.[10] 이전 버전의 표준에도 불구하고 유니코드 6.3.0에서는 더 이상 공간 문자(Zs 범주)로 분류되지 않습니다.
폭이 0인 공간 U+200B 8203 네. 아니요. ? 일반
구두점
다른.
형식
ZWSP, 0폭 공간. 명시적 띄어쓰기를 사용하지 않는 스크립트를 사용할 때 텍스트 처리 시스템의 단어 경계를 나타내는 데 사용됩니다. 이것은 부드러운 하이픈과 비슷하며, 후자는 음절 경계를 나타내는데 사용되며, 선이 끊어질 때 보이는 하이픈을 표시해야 합니다. HTML/XML 이름 개체: &ZeroWidthSpace;[11][c]
0폭 비 join 장치 U+200C 8204 네. 문맥[16] 의존적 ? 일반
구두점
다른.
형식
ZWNJ, 0폭 비조이너. 그렇지 않으면 연결되는 두 문자 사이에 ZWNJ가 있으면 각각 최종 및 초기 형태로 인쇄됩니다. HTML/XML 이름 개체: &zwnj;
제로 폭 접합기 U+200D 8205 네. 문맥[17] 의존적 ? 일반
구두점
다른.
형식
ZWJ, 제로폭 조인러. 연결되지 않은 두 문자 사이에 배치되면 ZWJ가 연결된 형태로 인쇄됩니다. 또한 결합 양식을 개별적으로 표시하는 데 사용할 수 있습니다. 결찰 또는 결찰이 기본적으로 예상되는지 여부에 따라 단일 글리프로 (이모지 신할라에서와 같이) 대체를 유도하거나 (데바나가리에서와 같이) 억제할 수 있으며, 개별 결합 양식의 사용은 여전히 허용됩니다 (ZWNJ와 달리). HTML/XML 이름 개체: &zwj;
단어 결합자 U+2060 8288 아니요. 아니요. ? 일반
구두점
다른.
형식
WJ, 워드조이너. U+200B와 비슷하지만 선이 끊어질 수 있는 지점은 아닙니다. HTML/XML 이름 개체: &NoBreak;
0폭 비파괴 공간 U+FEFF 65279 아니요. 아니요. ? 아랍어
발표
양식-B
다른.
형식
0폭 비파괴 공간입니다. 주로 바이트 순서 표시로 사용됩니다. Unicode 3.2에서는 비파괴 표시로 사용하는 것이 권장되지 않습니다. 대신 U+2060을 참조하십시오.
  1. ^ White_Space는 이진 유니코드 속성입니다.[18]
  2. ^ "PropList-15.1.0.txt". Unicode. 2023-08-01. Retrieved 2023-09-12.
  3. ^ 비록 ~일지라도 &ZeroWidthSpace; 는 U+200B의 HTML5 이름을 가진 엔티티로, 추가적인 이름들입니다. NegativeMediumSpace, NegativeThickSpace, NegativeThinSpace 그리고. NegativeVeryThinSpace (네거티브 어드밴스 스페이스를 위해 Wolfram Language에서 사용되는 이름으로, Private Use Area에 매핑됩니다.)[12][13][14][15] 또한 HTML5에 의해 U+200B의 별칭으로 정의됩니다(예: &NegativeMediumSpace;).[11]


케이싱

Case 값은 Unicode에서 Normataive입니다. 대문자(대소문자, 마쥬스큘)와 소문자(소문자, 마이너스자)가 있는 스크립트와 관련이 있습니다. 아드람어, 아르메니아어, 체로키어, 콥트어, 키릴어, 데세레트어, 글라골리트어, 그리스어, 쿠츠리어 및 음케드룰리어, 라틴어, 메데파이드린어, 옛 헝가리어, 오사지어, 비스쿠키어 및 와랑시티어 문자에서 대소문자 차이가 발생합니다.

(상하,하,타이틀,접기,단순,풀 모두)

기타 일반적 특성

아이디얼, 알파벳, 비문자.

결합반

몇 가지 일반적인 코드:

0 = 공백 문자, 기호 또는 수식어(예: a, , ʰ)
1 = 오버레이
6 = Han reading (CJK diacritic reading marks)
7 = 누크타 (브람어 문자의 격언 누크타)
8 = 카나 음성 표시
9 = 비라마

10–199 = 다양한 고정 위치 클래스

기본 문자에 부착되는 표시:

200 = 왼쪽 하단에 부착
202 = 바로 아래에 부착(예: ç의 세디야)
204 = 오른쪽 하단에 부착됨
208 = 왼쪽에 붙어 있음
210 = 오른쪽에 붙어 있음
212 = 왼쪽 상단에 부착됨
214 = 바로 위에 부착됨
216 = 우측 상단에 부착

밑줄 문자에 붙지 않는 표시:

218 = 왼쪽 아래
220 = 바로 아래(예: n ̥의 링)
222 = 오른쪽 아래
224 = 왼쪽
226 = 오른쪽
228 = 왼쪽 위
230 = 위(예: α의 급성 악센트)
232 = 오른쪽 위
233 = 아래 2배 (subt는 2개의 베이스를 종료함)
234 = 2배 이상 (extends 2 베이스)
240 = iota 첨자(그 그리스어 디아크리틱만 해당)

쌍방향쓰기

양방향 쓰기와 관련된 여섯 가지 문자 속성: Bidi_Class, Bidi_Control, Bidi_Mirroring, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket 및 Bidi_Paired_Bracket_Type.

유니코드의 주요 기능 중 하나는 양방향(Bidi) 텍스트 표시를 오른쪽에서 왼쪽으로(R-to-L) 및 왼쪽에서 오른쪽으로(L-to-R) 지원하는 것입니다. Unicode Bidirectional Algorithm UAX9은[19] 스크립트 방향을 변경하여 텍스트를 제시하는 과정을 설명합니다. 예를 들어, 영어 텍스트로 히브리어 인용문을 사용할 수 있습니다. Bidi_Character_Type은 방향성 쓰기에서 캐릭터의 행동을 표시합니다. 방향을 재정의하기 위해 유니코드는 특수 포맷 제어 문자(Bidi-Controls)를 정의했습니다. 이러한 문자는 방향을 강제할 수 있으며 정의상 양방향 쓰기에만 영향을 미칩니다.

각 코드 포인트에는 Bidi_Class라는 속성이 있습니다. 알고리즘이 해석하는 양방향 텍스트로 동작을 정의합니다.

양방향 문자 유형(Bidi_Class Unicode 문자 속성)[1]
유형[2] 묘사 방향성 일반범위 Bidi_Control 문자[3]
L 왼쪽에서 오른쪽으로 강한. L-to-R 대부분의 알파벳 문자 및 음절 문자, 한자, 비유럽 문자 또는 아랍 문자가 아닌 숫자, LRM 문자, ... U+200E 좌우 마크(LRM)
R 오른쪽에서 왼쪽으로 강한. R-to-L 아들람, 히브리어, 만다이크, 멘데 키카쿠이, 은코, 사마리아인, 카로시티, 나바타에안과 같은 고대 문자, RLM 문자, ... U+200F 오른쪽에서 왼쪽으로 표시(RLM)
AL 아랍 문자 강한. R-to-L 아랍어, 하니피 로힝야어, 소그드어, 시리아어, 타아나 알파벳, 그리고 그 스크립트들에 특정한 대부분의 문장, ALM 문자... U+061C ARABIC 문자 표시(ALM)
EN 유러피언 넘버 약한 유럽 숫자, 동 아랍어-인디 숫자, 콥트 문자 번호, ...
ES 유러피언 세퍼레이터 약한 더하기 기호, 빼기 기호, ...
ET 유러피언 넘버 터미네이터 약한 도 기호, 통화 기호, ...
AN 아랍어 숫자 약한 아랍어-인디 숫자, 아랍어 10진수 및 수천 개의 구분자, 루미 숫자, 하니피 로힝야 숫자, ...
CS 공용 번호 구분자 약한 콜론, 쉼표, 완전 중지, 공백 없음, ...
NSM 공백 없음 표시 약한 일반 범주 마크, 공백 없음 및 마크, 엔클루싱(Mn, Me)의 문자
BN 경계 중립 약한 기본 무시할 수 있는 문자, 비문자, 명시적으로 지정된 다른 유형 이외의 제어 문자
B 단락 구분자 뉴트럴 단락 구분자, 적절한 Newline Functions, 상위 수준 프로토콜 단락 결정
S 세그먼트 구분자 뉴트럴
WS 공백 뉴트럴 공간, 도형 공간, 줄 구분자, 폼 피드, 일반 문장 부호 블록 공간(유니코드 공백 목록보다 작은 집합)
ON 기타 뉴트럴 뉴트럴 개체 대체 문자를 포함한 기타 모든 문자
LRE 왼쪽에서 오른쪽으로 임베딩 명시적 L-to-R LRE 문자만 U+202A 좌우 임베딩(LRE)
LRO 왼쪽에서 오른쪽으로 재정의 명시적 L-to-R LRO 문자만 U+202D 좌우 오버라이드(LRO)
오른쪽에서 왼쪽으로 임베딩 명시적 R-to-L RLE 문자만 U+202B 오른쪽에서 왼쪽으로 임베딩(RL)
RLO 오른쪽에서 왼쪽으로 재정의 명시적 R-to-L RLO 문자만 U+202E 오른쪽에서 왼쪽으로 RLO(Right-to-Left Override)
PDF 팝 방향 형식 명시적 PDF 문자만 해당 U+202C POP 방향 포맷(PDF)
LRI 왼쪽에서 오른쪽으로 분리 명시적 L-to-R LRI 문자만 U+2066 왼쪽에서 오른쪽으로 분리(LRI)
RLI 오른쪽에서 왼쪽으로 분리 명시적 R-to-L RLI 문자만 U+2067 오른쪽에서 왼쪽으로 분리(RLI)
FSI 최초의 강력한 격리 명시적 FSI 문자만 U+2068 FSI(First Strong Isolate)
PDI 팝 방향 격리판 명시적 PDI 문자만 U+2069 POP 방향 격리 장치(PDI)
메모들
1. ^유니코드 양방향 알고리즘(UAX#9), 유니코드 버전 12.0 기준
2.^ 문자 속성에 대한 가능한 양방향 문자 유형: Bidi_Class 또는 'type'
3.^ Bidi_Control 문자: 12개의 Bidi_Control 포맷 문자가 정의되어 있습니다. 눈에 보이지 않고 방향성 외에는 효과가 없습니다. 그 중 9개는 알고리즘이 사용하는 고유한 우선 BiDi 유형을 가지고 있습니다. 그들의 유형은 또한 그들의 약자입니다 (예: 'LRE' 문자는 BiDi 유형 'LRE'를 가지고 있습니다).

정상적인 상황에서 알고리즘은 이 문자 속성에 따라 텍스트의 방향을 결정할 수 있습니다. 영어 텍스트에 히브리어 인용문이 있는 경우와 같이 더 복잡한 Bidi 상황을 제어하기 위해 유니코드에 추가 옵션이 추가됩니다. 12자는 Bidi_Control= 속성을 갖습니다.: 표에 기재된 대로 ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM 및 RLO입니다. 이들은 보이지 않는 포맷 제어 문자로, 알고리즘에서만 사용되며 양방향 포맷 이외에는 아무런 영향을 미치지 않습니다.[19] 이름에도 불구하고 컨트롤 문자가 아닌 문자를 포맷하고 있으며 유니코드 정의에 일반 범주 "기타, 포맷(Cf)"이 있습니다.

기본적으로 알고리즘은 특별한 Bidi-control에 의한 재정의를 고려하여 동일한 강한 방향 유형(R-to-L 또는 L-to-R)을 가진 문자 시퀀스를 결정합니다. 숫자 문자열(약한 유형)은 중립 문자와 마찬가지로 강력한 환경에 따라 방향이 할당됩니다. 마지막으로 문자열의 방향에 따라 문자가 표시됩니다.

양방향 텍스트에서 글리프의 미러 이미지를 결정하는 데 관련된 두 가지 문자 속성: Bidi_Mirrored=는 R-to-L로 작성할 때 글리프를 미러링해야 함을 나타냅니다. 그러면 Bidi_Mirroring_Glyph=U+hhhhhh 속성이 미러링된 문자를 가리킬 수 있습니다. 예를 들어 괄호(")는 이런 식으로 미러링됩니다. 아랍어와 같은 필기체 스크립트를 만들고 방향이 있는 미러링 글리프를 만드는 것은 알고리즘에 포함되지 않습니다.

숫자 값 및 유형

십진법

문자는 숫자 유형으로 분류됩니다.[1] 분수, 첨자, 위첨자, 로마 숫자, 통화 분자, 에워싸인 숫자, 스크립트별 숫자 등의 문자를 숫자 형식으로 입력합니다. 숫자는 0과 음수를 포함하여 10진수 또는 저속 분수를 포함할 수 있습니다. 대부분의 문자와 마찬가지로 이러한 값이 없는 경우 숫자 유형은 "없음"입니다.

숫자 값을 갖는 문자는 세 그룹으로 구분됩니다. 10진수(De), 숫자(Di) 및 숫자(Nu, 다른 모든 것). "10진수"는 문자가 곧은 소수점 숫자임을 의미합니다. 연속 인코딩된 범위 0의 일부인 문자만..9는 숫자 형식 10진수입니다. 위첨자와 같은 다른 숫자에는 숫자 형식의 숫자가 있습니다. 분수나 로마 숫자와 같은 모든 숫자 문자는 "숫자"로 끝납니다. 의도된 효과는 숫자 위첨자나 분수로 주의를 산만하게 하지 않고 단순한 파서가 이러한 십진 숫자 값을 사용할 수 있다는 것입니다. 회계에 사용되는 숫자를 포함하여 숫자를 나타내는 83개의 CJK 아이디그래프는 숫자를 입력합니다.

반면, 두 번째 의미로 숫자 값을 가질 수 있는 문자는 여전히 숫자 유형 "없음"으로 표시되며 숫자 값(")이 없습니다. 예를 들어, 라틴 문자는 "II.A.1.b"와 같은 문단 번호에 사용할 수 있지만, 문자 "I", "A" 및 "b"는 숫자가 아니며("없음" 유형) 숫자 값이 없습니다.

숫자 유형[a][b] (유니코드 문자 속성)
숫자형 코드 숫자 값을 갖습니다. 언급
숫자 아님 <none> 아니요.
  • A
  • X(라틴)
  • !
  • Д
  • μ
숫자 값="NaN"
십진법 De 네.
  • 0
  • 1
  • 9
  • (Devanagari 6)
  • (Kannada 6)
  • 𝟨 (수학, 스타일 산세리프)
직선 숫자(10진법-라딕스). General Category=Nd와 양방향 대응
디지트 Di 네.
  • ¹ (supers)
  • (완전 정지가 포함된 숫자)
십진법이지만 타이포그래픽 컨텍스트에서
숫자 Nu 네.
  • ¾
  • (타밀번호 10)
  • (로마 번호)
  • (한 6번)
숫자 값이지만 십진법은 아닙니다.
a. ^
b. ^

16진수

16진수 문자는 16진수 값이 0...9인 계열 문자입니다.ABCDEF(16자, 10진수 값 0~15). 문자 속성 Hex_Digit은 문자가 이러한 시리즈에 있을 때 Yes로 설정됩니다.

유니코드 표기 문자 Hex_Digit=Yes[a]
0123456789ABCDEF 기본 라틴어, 대문자 또한. ASCII_Hex_Digit=Yes
0123456789abcdef 기본 라틴어, 작은 글자 또한. ASCII_Hex_Digit=Yes
0123456789ABCDEF 전체 너비 양식, 대문자
0123456789abcdef 전체 너비 양식, 작은 문자
a. ^

44자는 Hex_Digit로 표시됩니다. Basic Latin 블록에 있는 블록도 ASCII_Hex_Digit로 표시됩니다.

유니코드에는 16진수 값에 대한 별도의 문자가 없습니다. 결과적으로 일반 문자를 사용할 때 16진수 값이 의도된 것인지 또는 값이 의도된 것인지 여부를 결정할 수 없습니다. 예를 들어 16진수에 "0x"를 추가하거나 문맥에 따라 추가하여 더 높은 수준에서 결정해야 합니다. 유일한 기능은 유니코드가 시퀀스가 16진수 값일 수도 있고 아닐 수도 있다는 점에 주목할 수 있다는 것입니다.

블록

블록은 고유하게 명명된 연속된 코드 포인트 범위입니다. 첫 번째와 마지막 코드 포인트로 식별됩니다. 블록은 겹치지 않습니다. 블록에는 예약되어 있거나 할당되지 않은 코드 포인트 등이 포함될 수 있습니다. 할당된 각 문자는 유니코드 버전 15.1에서 할당된 328개의 이름에서 하나의 "블록 이름" 값을 갖습니다. 기존 블록 외부의 할당되지 않은 코드 포인트는 기본값 "No_block"입니다.

비행기 블럭범위 블록명 코드 포인트[a] 할당된 문자 스크립트[b][c][d][e][f]
0 BMP U+0000..U+007F 기본 라틴어[g] 128 128 라틴어(52자), 공용(76자)
0 BMP U+0080..U+00FF 라틴어-1 보충어[h] 128 128 라틴어(64자), 공용(64자)
0 BMP U+0100..U+017F 라틴어 확장-A 128 128 라틴어
0 BMP U+0180..U+024F 라틴어 확장-B 208 208 라틴어
0 BMP U+0250..U+02AF IPA 확장자 96 96 라틴어
0 BMP U+02B0..U+02FF 간격 수정자 문자 80 80 보포모포(2자), 라틴어(14자), 공용(64자)
0 BMP U+0300..U+036F 격음 표시 결합 112 112 상속
0 BMP U+0370..U+03FF 그리스어와 콥트어 144 135 콥트어(14자), 그리스어(117자), 공용(4자)
0 BMP U+0400..U+04FF 키릴식 256 256 키릴 문자(254자), 상속(2자)
0 BMP U+0500..U+052F 키릴 보충제 48 48 키릴식
0 BMP U+0530..U+058F 아르메니아어 96 91 아르메니아어
0 BMP U+0590..U+05FF 히브리어 112 88 히브리어
0 BMP U+0600..U+06FF 아랍어 256 256 아랍어(238자), 공용(6자), 상속(12자)
0 BMP U+0700..U+074F 시리아어 80 77 시리아어
0 BMP U+0750..U+077F 아랍어 보충어 48 48 아랍어
0 BMP U+0780..U+07BF 타아나 64 50 타아나
0 BMP U+07C0..U+07FF 엔코 64 62 N’Ko
0 BMP U+0800..U+083F 사마리아인 64 61 사마리아인
0 BMP U+0840..U+085F 만다이크 32 29 만다이크
0 BMP U+0860..U+086F 시리아 보충제 16 11 시리아어
0 BMP U+0870..U+089F 아랍어 확장-B 48 41 아랍어
0 BMP U+08A0..U+08FF 아랍어 확장-A 96 96 아랍어(95자), 공용(1자)
0 BMP U+0900..U+097F 데바나가리 128 128 데바나가리(122자), 공용(2자), 상속(4자)
0 BMP U+0980..U+09FF 벵골어 128 96 벵골어
0 BMP U+0A00..U+0A7F 구르무키 128 80 구르무키
0 BMP U+0A80..U+0AFF 구자라트어 128 91 구자라트어
0 BMP U+0B00..U+0B7F 오리야 128 91 오리야
0 BMP U+0B80..U+0BFF 타밀어 128 72 타밀어
0 BMP U+0C00..U+0C7F 텔루구 128 100 텔루구
0 BMP U+0C80..U+0CFF 칸나다 128 91 칸나다
0 BMP U+0D00..U+0D7F 말라얄람어 128 118 말라얄람어
0 BMP U+0D80..U+0DFF 신할라 128 91 신할라
0 BMP U+0E00..U+0E7F 타이어 128 87 태국어(86자), 공용(1자)
0 BMP U+0E80..U+0EFF 라오 128 83 라오
0 BMP U+0F00..U+0FF 티베트어 256 211 티베트어(207자), 공용(4자)
0 BMP U+1000..U+109F 미얀마 160 160 미얀마
0 BMP U+10A0..U+10FF 그루지야인 96 88 조지아어(87자), 공용(1자)
0 BMP U+1100..U+11FF 한글 자모 256 256 한글
0 BMP U+1200..U+137F 에티오피아의 384 358 에티오피아의
0 BMP U+1380..U+139F 에티오피아 보충제 32 26 에티오피아의
0 BMP U+13A0..U+13FF 체로키 96 92 체로키
0 BMP U+1400..U+167F 캐나다 원주민 통합 강의 계획서 640 640 캐나다 원주민
0 BMP U+1680..U+169F 오함 32 29 오함
0 BMP U+16A0..U+16FF 루닉 96 89 Runic(86자), Common(3자)
0 BMP U+1700..U+171F 타갈로그어 32 23 타갈로그어
0 BMP U+1720..U+173F 하누누 32 23 하누누(21자), 공용(2자)
0 BMP U+1740..U+175F 부히드 32 20 부히드
0 BMP U+1760..U+177F 타그반와 32 18 타그반와
0 BMP U+1780..U+17FF 크메르어 128 114 크메르어
0 BMP U+1800..U+18AF 몽골인 176 158 몽골어(155자), 공용(3자)
0 BMP U+18B0..U+18FF 통합 캐나다 원주민 강의 계획서 확장 80 70 캐나다 원주민
0 BMP U+1900..U+194F 임부 80 68 임부
0 BMP U+1950..U+197F 타이 르 48 35 타이 르
0 BMP U+1980..U+19DF 뉴타이루 96 83 뉴타이루
0 BMP U+19E0..U+19FF 크메르 기호 32 32 크메르어
0 BMP U+1A00..U+1A1F 부기네세 32 30 부기네세
0 BMP U+1A20..U+1AAF 타이텀 144 127 타이텀
0 BMP U+1AB0..U+1AFF 확장된 다이아크리티컬 마크 결합 80 31 상속
0 BMP U+1B00..U+1B7F 발리어 128 124 발리어
0 BMP U+1B80..U+1BBF 순다네시 64 64 순다네시
0 BMP U+1BC0..U+1BFF 바탁 64 56 바탁
0 BMP U+1C00..U+1C4F 렙차 80 74 렙차
0 BMP U+1C50..U+1C7F 올치키 48 48 올치키
0 BMP U+1C80..U+1C8F 키릴 확장-C 16 9 키릴식
0 BMP U+1C90..U+1CBF 조지아 익스텐디드 48 46 그루지야인
0 BMP U+1CC0..U+1CCF 순다네쉬 보약 16 8 순다네시
0 BMP U+1CD0..U+1CFF Vedic Extensions 48 43 공용(16자), 상속(27자)
0 BMP U+1D00..U+1D7F 음성 확장자 128 128 키릴 문자(2자), 그리스 문자(15자), 라틴 문자(111자)
0 BMP U+1D80..U+1DBF 음성 확장 기능 보충 기능 64 64 그리스어(1자), 라틴어(63자)
0 BMP U+1DC0..U+1DFF 단열 마크 보충 결합 64 64 상속
0 BMP U+1E00..U+1EFF 라틴어 확장 추가 기능 256 256 라틴어
0 BMP U+1F00..U+1FF 그릭 익스텐디드 256 233 그리스어
0 BMP U+2000..U+206F 일반 구두점 112 111 공용(109자), 상속(2자)
0 BMP U+2070..U+209F 위첨자 및 아래첨자 48 42 라틴어(15자), 공용(27자)
0 BMP U+20A0..U+20CF 통화 기호 48 33 흔한
0 BMP U+20D0..U+20FF 기호에 대한 눈금 표시 결합 48 33 상속
0 BMP U+2100..U+214F 문자와 같은 기호 80 80 그리스어(1자), 라틴어(4자), 공용(75자)
0 BMP U+2150..U+218F 번호 양식 64 60 라틴어(41자), 공용(19자)
0 BMP U+2190..U+21FF 화살표 112 112 흔한
0 BMP U+2200..U+22FF 수학 연산자 256 256 흔한
0 BMP U+2300..U+23FF 기타 기술 256 256 흔한
0 BMP U+2400..U+243F 컨트롤 픽처스 64 39 흔한
0 BMP U+2440..U+245F 광학식 문자 인식 32 11 흔한
0 BMP U+2460..U+24FF 동봉된 영숫자 160 160 흔한
0 BMP U+2500..U+257F 상자 그리기 128 128 흔한
0 BMP U+2580..U+259F 블록 요소 32 32 흔한
0 BMP U+25A0..U+25FF 기하학적 도형 96 96 흔한
0 BMP U+2600..U+26FF 기타 기호 256 256 흔한
0 BMP U+2700..U+27BF 딩바츠 192 192 흔한
0 BMP U+27C0..U+27EF 기타 수학 기호-A 48 48 흔한
0 BMP U+27F0..U+27FF 추가 화살표-A 16 16 흔한
0 BMP U+2800..U+28FF 점자 패턴 256 256 점자
0 BMP U+2900..U+297F 추가 화살표-B 128 128 흔한
0 BMP U+2980..U+29FF 기타 수학 기호-B 128 128 흔한
0 BMP U+2A00..U+2AFF 보충 수학 연산자 256 256 흔한
0 BMP U+2B00..U+2BFF 기타 기호 및 화살표 256 253 흔한
0 BMP U+2C00..U+2C5F 글래그리티컬 96 96 글래그리티컬
0 BMP U+2C60..U+2C7F 라틴어 확장-C 32 32 라틴어
0 BMP U+2C80..U+2CFF 콥트어 128 123 콥트어
0 BMP U+2D00..U+2D2F 그루지야 보충제 48 40 그루지야인
0 BMP U+2D30..U+2D7F 티피나그 80 59 티피나그
0 BMP U+2D80..U+2DDF 에티오피아 확장국 96 79 에티오피아의
0 BMP U+2DE0..U+2DFF 키릴 확장-A 32 32 키릴식
0 BMP U+2E00..U+2E7F 보충 구두점 128 94 흔한
0 BMP U+2E80..U+2EFF CJK 래디컬 보충제 128 115
0 BMP U+2F00..U+2FDF 강시 래디칼 224 214
0 BMP U+2FF0..U+2FF 이미지 설명 문자 16 16 흔한
0 BMP U+3000..U+303F CJK 기호와 문장부호 64 64 한(15자), 한글(2자), 공통(43자), 상속(4자)
0 BMP U+3040..U+309F 히라가나 96 93 히라가나(89자), 공용(2자), 상속(2자)
0 BMP U+30A0..U+30FF 가타카나 96 96 카타카나(93자), 공용(3자)
0 BMP U+3100..U+312F 보포모포 48 43 보포모포
0 BMP U+3130..U+318F 한글 호환 자모 96 94 한글
0 BMP U+3190..U+319F 간분 16 16 흔한
0 BMP U+31A0..U+31BF 보포모포 확장 32 32 보포모포
0 BMP U+31C0..U+31EF CJK 스트로크 48 37 흔한
0 BMP U+31F0..U+31FF 가타카나 음역대 16 16 가타카나
0 BMP U+3200..U+32FF 동봉된 CJK 문자 및 월 256 255 한글(62자), 가타카나(47자), 공용(146자)
0 BMP U+3300..U+33FF CJK 호환성 256 256 카타카나(88자), 공용(168자)
0 BMP U+3400..U+4DBF CJK Unified Ideographs Extension A 6,592 6,592
0 BMP U+4DC0..U+4DFF 베이징 육각형 기호 64 64 흔한
0 BMP U+4E00..U+9FF CJK 통합 아이디어 20,992 20,992
0 BMP U+A000..U+A48F 이음절 1,168 1,165
0 BMP U+A490..U+A4CF 이라디칼 64 55
0 BMP U+A4D0..U+A4FF 리수 48 48 리수
0 BMP U+A500..U+A63F 바이 320 300 바이
0 BMP U+A640..U+A69F 키릴 확장-B 96 96 키릴식
0 BMP U+A6A0..U+A6FF 바움 96 88 바움
0 BMP U+A700..U+A71F 수식어 톤 문자 32 32 흔한
0 BMP U+A720..U+A7FF 라틴어 확장-D 224 193 라틴어(188자), 공용(5자)
0 BMP U+A800..U+A82F Syloti Nagri 48 45 Syloti Nagri
0 BMP U+A830..U+A83F 공통 표시 번호 양식 16 10 흔한
0 BMP U+A840..U+A87F 파그스파 64 56 파그스파
0 BMP U+A880..U+A8DF 사우라슈트라 주 96 82 사우라슈트라 주
0 BMP U+A8E0..U+A8FF 데바나가리 확장판 32 32 데바나가리
0 BMP U+A900..U+A92F 카야 리 48 48 Kayah Li (47자), 공용 (1자)
0 BMP U+A930..U+A95F 레장 48 37 레장
0 BMP U+A960..U+A97F 한글 자모 확장-A 32 29 한글
0 BMP U+A980..U+A9DF 자바어 96 91 자바어(90자), 공용(1자)
0 BMP U+A9E0..U+A9FF 미얀마 익스텐디드-B 32 31 미얀마
0 BMP U+AA00..U+AA5F 96 83
0 BMP U+AA60..U+AA7F 미얀마 익스텐디드-A 32 32 미얀마
0 BMP U+AA80..U+AADF 타이 비엣 96 72 타이 비엣
0 BMP U+AAE0..U+AAFF 미테이 메이크 익스텐션 32 23 미테이 메이크
0 BMP U+AB00..U+AB2F 에티오피아 확장-A 48 32 에티오피아의
0 BMP U+AB30..U+AB6F 라틴어 확장-E 64 60 라틴어(56자), 그리스어(1자), 공용(3자)
0 BMP U+AB70..U+ABBF 체로키 보충제 80 80 체로키
0 BMP U+ABC0..U+ABFF 미테이 메이크 64 56 미테이 메이크
0 BMP U+AC00..U+D7AF 한글 음절 11,184 11,172 한글
0 BMP U+D7B0..U+D7FF 한글자모 확장-B 80 72 한글
0 BMP U+D800..U+DB7F 높은 대리인 896 0 알 수 없는
0 BMP U+DB80..U+DBFF 개인 사용량이 많은 대리인 128 0 알 수 없는
0 BMP U+DC00..U+DFFF 낮은 대리인 1,024 0 알 수 없는
0 BMP U+E000..U+F8FF 개인 용도 지역 6,400 6,400 알 수 없는
0 BMP U+F900..U+FAFF CJK 호환성 아이디어 512 472
0 BMP U+FB00..U+FB4F 알파벳 표시 양식 80 58 아르메니아어(5자), 히브리어(46자), 라틴어(7자)
0 BMP U+FB50..U+FDFF 아랍어 프레젠테이션 양식-A 688 631 아랍어(629자), 공용(2자)
0 BMP U+FE00..U+FE0F 변동 선택기 16 16 상속
0 BMP U+FE10..U+FE1F 수직 양식 16 10 흔한
0 BMP U+FE20..U+FE2F 반점 결합 16 16 키릴 문자(2자), 상속(14자)
0 BMP U+FE30..U+FE4F CJK 호환 양식 32 32 흔한
0 BMP U+FE50..U+FE6F 소형 폼 변형 32 26 흔한
0 BMP U+FE70..U+FEFF 아랍어 프레젠테이션 양식-B 144 141 아랍어(140자), 공용(1자)
0 BMP U+FF00..U+FFEF 절반 너비 및 전체 너비 양식 240 225 한글(52자), 가타카나(55자), 라틴(52자), 공용(66자)
0 BMP U+FFF0..U+FFFF 스페셜 16 5 흔한
1 SMP U+10000..U+1007F 선형 B 강의 계획서 128 88 선형 B
1 SMP U+10080..U+100FF 선형 Bidograms 128 123 선형 B
1 SMP U+10100..U+1013F 에게 해의 숫자 64 57 흔한
1 SMP U+10140..U+1018F 고대 그리스 숫자 80 79 그리스어
1 SMP U+10190..U+101CF 고대 기호 64 14 그리스어(1자), 공용(13자)
1 SMP U+101D0..U+101FF 페이스토스 디스크 48 46 공용(45자), 상속(1자)
1 SMP U+10280..U+1029F 리시안 32 29 리시안
1 SMP U+102A0..U+102DF 카리안 64 49 카리안
1 SMP U+102E0..U+102FF 콥트 에팩트 번호 32 28 공용(27자), 상속(1자)
1 SMP U+10300..U+1032F 고대 이탈리아어 48 39 고대 이탈리아어
1 SMP U+10330..U+1034F 고딕식 32 27 고딕식
1 SMP U+10350..U+1037F 올드 퍼믹 48 43 올드 퍼믹
1 SMP U+10380..U+1039F 우가리트어 32 31 우가리트어
1 SMP U+103A0..U+103DF 고대 페르시아어 64 50 고대 페르시아어
1 SMP U+10400..U+1044F 사막 80 80 사막
1 SMP U+10450..U+1047F 샤비안 48 48 샤비안
1 SMP U+10480..U+104AF 오스마니야 48 40 오스마니야
1 SMP U+104B0..U+104FF 오세이지 80 72 오세이지
1 SMP U+10500..U+1052F 엘바산 48 40 엘바산
1 SMP U+10530..U+1056F 캅카스 알바니아어 64 53 캅카스 알바니아어
1 SMP U+10570..U+105BF 비스쿠키 80 70 비스쿠키
1 SMP U+10600..U+1077F 선형 A 384 341 선형 A
1 SMP U+10780..U+107BF 라틴어 확장-F 64 57 라틴어
1 SMP U+10800..U+1083F 키프로스어 강의 계획서 64 55 키프로스어
1 SMP U+10840..U+1085F 제국 아람어 32 31 제국 아람어
1 SMP U+10860..U+1087F 팔미렌 32 32 팔미렌
1 SMP U+10880..U+108AF 나바태안 48 40 나바태안
1 SMP U+108E0..U+108FF 하트란 32 26 하트란
1 SMP U+10900..U+1091F 페니키아인 32 29 페니키아인
1 SMP U+10920..U+1093F 리디안 32 27 리디안
1 SMP U+10980..U+1099F 메로이트 상형문자 32 32 메로이트 상형문자
1 SMP U+109A0..U+109FF 메로이트 필기체 96 90 메로이트 필기체
1 SMP U+10A00..U+10A5F Kharoshthi 96 68 Kharoshthi
1 SMP U+10A60..U+10A7F 구남아라비아 32 32 구남아라비아
1 SMP U+10A80..U+10A9F 옛 북아라비안 32 32 옛 북아라비안
1 SMP U+10AC0..U+10AFF 마니교 64 51 마니교
1 SMP U+10B00..U+10B3F 아베스탄 64 61 아베스탄
1 SMP U+10B40..U+10B5F 비문 파르티아어 32 30 비문 파르티아어
1 SMP U+10B60..U+10B7F 비문 팔라비 32 27 비문 팔라비
1 SMP U+10B80..U+10BAF Psalter Pahlavi 48 29 Psalter Pahlavi
1 SMP U+10C00..U+10C4F 튀르크어족 80 73 튀르크어족
1 SMP U+10C80..U+10CFF 옛 헝가리어 128 108 옛 헝가리어
1 SMP U+10D00..U+10D3F 하니피 로힝야 64 50 하니피 로힝야
1 SMP U+10E60..U+10E7F 루미 숫자 기호 32 31 아랍어
1 SMP U+10E80..U+10EBF 예지디 64 47 예지디
1 SMP U+10EC0..U+10EFF 아랍어 확장-C 64 3 아랍어
1 SMP U+10F00..U+10F2F 올드 소그디안 48 40 올드 소그디안
1 SMP U+10F30..U+10F6F 소그디안 64 42 소그디안
1 SMP U+10F70..U+10FAF Old Uyghur 64 26 Old Uyghur
1 SMP U+10FB0..U+10FDF 코라스미안 48 28 코라스미안
1 SMP U+10FE0..U+10FF 엘리마익 32 23 엘리마익
1 SMP U+11000..U+1107F 브라흐미 128 115 브라흐미
1 SMP U+11080..U+110CF 카이티 80 68 카이티
1 SMP U+110D0..U+110FF 소라 솜펑 48 35 소라 솜펑
1 SMP U+11100..U+1114F 차크마 80 71 차크마
1 SMP U+11150..U+1117F 마하자니 48 39 마하자니
1 SMP U+11180..U+111DF 샤라다 96 96 샤라다
1 SMP U+111E0..U+111FF 신할라 고대 숫자 32 20 신할라
1 SMP U+11200..U+1124F 코지키 80 65 코지키
1 SMP U+11280..U+112AF 물타니 48 38 물타니
1 SMP U+112B0..U+112FF 쿠다와디 80 69 쿠다와디
1 SMP U+11300..U+1137F 그란타 128 86 Grantha(85자), 상속(1자)
1 SMP U+11400..U+1147F 뉴아 128 97 뉴아
1 SMP U+11480..U+114DF 티르후타 96 82 티르후타
1 SMP U+11580..U+115FF 싯담 128 92 싯담
1 SMP U+11600..U+1165F 모디 96 79 모디
1 SMP U+11660..U+1167F 몽골 보충제 32 13 몽골인
1 SMP U+11680..U+116CF 타크리 80 68 타크리
1 SMP U+11700..U+1174F 80 65
1 SMP U+11800..U+1184F 도그라 80 60 도그라
1 SMP U+118A0..U+118FF 와랑시티 96 84 와랑시티
1 SMP U+11900..U+1195F 다이브스 아쿠루 96 72 다이브스 아쿠루
1 SMP U+119A0..U+119FF 난디나가리 96 65 난디나가리
1 SMP U+11A00..U+11A4F 자나바자르 광장 80 72 자나바자르 광장
1 SMP U+11A50..U+11AAF 소욤보 96 83 소욤보
1 SMP U+11AB0..U+11ABF Unified Canadian 원주민 강의 계획서 확장-A 16 16 캐나다 원주민
1 SMP U+11AC0..U+11AFF 파우신하우 64 57 파우신하우
1 SMP U+11B00..U+11B5F 데바나가리 확장-A 96 10 데바나가리
1 SMP U+11C00..U+11C6F 바이스키 112 97 바이스키
1 SMP U+11C70..U+11CBF 마르첸 80 68 마르첸
1 SMP U+11D00..U+11D5F 마사람 곤디 96 75 마사람 곤디
1 SMP U+11D60..U+11DAF 군잘라 곤디 80 63 군잘라 곤디
1 SMP U+11EE0..U+11EFF 마카사르 32 25 마카사르
1 SMP U+11F00..U+11F5F 카위 96 86 카위
1 SMP U+11FB0..U+11FBF 리수 보충제 16 1 리수
1 SMP U+11FC0..U+11FF 타밀 보충제 64 51 타밀어
1 SMP U+12000..U+123FF 설형동물 1,024 922 설형동물
1 SMP U+12400..U+1247F 설형수와 구두점 128 116 설형동물
1 SMP U+12480..U+1254F 초기 왕조 설형 208 196 설형동물
1 SMP U+12F90..U+12FF 키프로미노안 112 99 키프로 미노안
1 SMP U+13000..U+1342F 이집트 상형문자 1,072 1,072 이집트 상형문자
1 SMP U+13430..U+1345F 이집트 상형문자 형식 제어 48 38 이집트 상형문자
1 SMP U+14400..U+1467F 아나톨리아 상형문자 640 583 아나톨리아 상형문자
1 SMP U+16800..U+16A3F 바움 보충제 576 569 바움
1 SMP U+16A40..U+16A6F 므로 48 43 므로
1 SMP U+16A70..U+16ACF 탕사 96 89 탕사
1 SMP U+16AD0..U+16AFF 바사 바 48 36 바사 바
1 SMP U+16B00..U+16B8F Pahawh Hmong 144 127 Pahawh Hmong
1 SMP U+16E40..U+16E9F 메데파이드린 96 91 메데파이드린
1 SMP U+16F00..U+16F9F 먀오 160 149 먀오
1 SMP U+16FE0..U+16FF 아이디얼 기호 및 문장부호 32 7 한(4자), 거란소문자(1자), 누슈(1자), 탕굿(1자)
1 SMP U+17000..U+187FF 탕구트 6,144 6,136 탕구트
1 SMP U+18800..U+18AFF 탕구트 구성요소 768 768 탕구트
1 SMP U+18B00..U+18CFF 거란 소경 512 470 거란 소경
1 SMP U+18D00..U+18D7F 탕구트 보충제 128 9 탕구트
1 SMP U+1AFF0..U+1AFF 카나 익스텐디드-B 16 13 가타카나
1 SMP U+1B000..U+1B0FF 카나 보충제 256 256 히라가나(255자), 가타카나(1자)
1 SMP U+1B100..U+1B12F 가나 익스텐디드-A 48 35 히라가나(32자), 가타카나(3자)
1 SMP U+1B130..U+1B16F 스몰 카나 익스텐션 64 9 히라가나(4자), 가타카나(5자)
1 SMP U+1B170..U+1B2FF 누슈 400 396 누슈
1 SMP U+1BC00..U+1BC9F 듀플로이언 160 143 듀플로이언
1 SMP U+1BCA0..U+1BCAF 축약 형식 컨트롤 16 4 흔한
1 SMP U+1CF00..U+1CFCF 즈나메니 음악 표기법 208 185 공용(116자), 상속(69자)
1 SMP U+1D000..U+1D0FF 비잔틴 음악 기호 256 246 흔한
1 SMP U+1D100..U+1D1FF 음악 기호 256 233 공용(211자), 상속(22자)
1 SMP U+1D200..U+1D24F 고대 그리스 음악 표기법 80 70 그리스어
1 SMP U+1D2C0..U+1D2DF 카코빅 숫자 32 20 흔한
1 SMP U+1D2E0..U+1D2FF 마야 숫자 32 20 흔한
1 SMP U+1D300..U+1D35F 타이쉬안징 기호 96 87 흔한
1 SMP U+1D360..U+1D37F 로드 번호 세는 중 32 25 흔한
1 SMP U+1D400..U+1D7FF 수학 영숫자 기호 1,024 996 흔한
1 SMP U+1D800..U+1DAAF 서튼 사인라이팅 688 672 사인라이팅
1 SMP U+1DF00..U+1DFFF 라틴어 확장 G 256 37 라틴어
1 SMP U+1E000..U+1E02F 글래그리티컬 보충제 48 38 글래그리티컬
1 SMP U+1E030..U+1E08F 키릴 확장-D 96 63 키릴식
1 SMP U+1E100..U+1E14F Nyiakeng Puachue Hmong 80 71 Nyiakeng Puachue Hmong
1 SMP U+1E290..U+1E2BF 토토 48 31 토토
1 SMP U+1E2C0..U+1E2FF 완초 64 59 완초
1 SMP U+1E4D0..U+1E4FF 나그 문다리 48 42 문다리
1 SMP U+1E7E0..U+1E7FF 에티오피아 확장-B 32 28 에티오피아의
1 SMP U+1E800..U+1E8DF 멘데 키카쿠이 224 213 멘데 키카쿠이
1 SMP U+1E900..U+1E95F 아들람 96 88 아들람
1 SMP U+1EC70..U+1ECBF 시아크 번호 표시 80 68 흔한
1 SMP U+1ED00..U+1ED4F 오스만 제국의 시아크 수 80 61 흔한
1 SMP U+1EE00..U+1EFF 아랍 수학 알파벳 기호 256 143 아랍어
1 SMP U+1F000..U+1F02F 마작 타일 48 44 흔한
1 SMP U+1F030..U+1F09F Domino 타일 112 100 흔한
1 SMP U+1F0A0..U+1F0FF 카드놀이 96 82 흔한
1 SMP U+1F100..U+1F1FF 동봉된 영숫자 부록 256 200 흔한
1 SMP U+1F200..U+1F2FF 동봉된 이미지 보충 자료 256 64 히라가나(1자), 공용(63자)
1 SMP U+1F300..U+1F5FF 기타 기호 및 픽토그래프 768 768 흔한
1 SMP U+1F600..U+1F64F 이모티콘 80 80 흔한
1 SMP U+1F650..U+1F67F 장식용 딩바츠 48 48 흔한
1 SMP U+1F680..U+1F6FF 전송 및 지도 기호 128 118 흔한
1 SMP U+1F700..U+1F77F 알케미컬 기호 128 124 흔한
1 SMP U+1F780..U+1F7FF 기하학적 도형 확장 128 103 흔한
1 SMP U+1F800..U+1F8FF 추가 화살표-C 256 150 흔한
1 SMP U+1F900..U+1F9FF 보조 기호 및 그림 256 256 흔한
1 SMP U+1FA00..U+1FA6F 체스 기호 112 98 흔한
1 SMP U+1FA70..U+1FAFF 기호 및 픽토그래프 확장-A 144 107 흔한
1 SMP U+1FB00..U+1FBFF 레거시 컴퓨팅을 위한 기호 256 212 흔한
2 SIP U+2만..U+2A6DF CJK Unified Ideographs Extension B 42,720 42,720
2 SIP U+2A700..U+2B73F CJK Unified Ideographs Extension C 4,160 4,154
2 SIP U+2B740..U+2B81F CJK 통합아이디어스 익스텐션 D 224 222
2 SIP U+2B820..U+2CEAF CJK Unified Ideographs Extension E 5,776 5,762
2 SIP U+2CEB0..U+2EBEF CJK Unified Ideographs 확장 F 7,488 7,473
2 SIP U+2EBF0..U+2EE5F IMT2000 3GPP - CJK 통합아이디어스 확장 I 624 622
2 SIP U+2F800..U+2FA1F CJK 호환성 이미지 부록 544 542
3 팁 U+30000..U+3134F CJK Unified Ideographs Extension G 4,944 4,939
3 팁 U+3150..U+323AF CJK Unified Ideographs Extension H 4,192 4,192
14 SSP U+E0000..U+E007F 태그 128 97 흔한
14 SSP U+E0100..U+E01EF 변동 선택기 보충 240 240 상속
15 PUA-A U+F0000..U+FFFF 보조민간용도지역-A 65,536 65,534 알 수 없는
16 PUA-B U+100000..U+10FFF 보조민간용도지역-B 65,536 65,534 알 수 없는
  1. ^ 코드 포인트 카운트에는 할당되지 않은 코드 포인트(비문자, 예약 등)가 포함됩니다.
  2. ^ 스크립트 속성에 의해 정의된 대로 스크립트에는 블록에 하나 또는 여러 문자가 있습니다. 이것은 블록 이름과 무관합니다.
  3. ^ "공통" 및 "알 수 없음"(Zyyy) 및 "상속됨"(Zinh 또는 Kaai)은 ISO 15924의 스크립트를 참조합니다.
  4. ^ 유니코드 블록 데이터 파일입니다. 유니코드 버전 15.1 기준
  5. ^ UAX 24: 유니코드 스크립트 속성(4알파 코드)
  6. ^ UAX 24: 스크립트 데이터 파일
  7. ^ ISO/IEC 10646에서 "C0 컨트롤 및 기본 라틴어"라고 함
  8. ^ ISO/IEC 10646에서 "C1 컨트롤 및 라틴어-1 보충"이라고 함

대본

할당된 각 문자는 "스크립트" 속성에 대한 단일 값을 가질 수 있으며, 이 값은 해당 문자가 어느 스크립트에 속하는지 나타냅니다.[20] 값은 쓰기 시스템에 매핑된 ISO 15924에서 사용할 수 있는 Aaa-Zzz 범위의 네 글자 코드입니다. 스크립트의 배경 및 사용을 설명할 때를 제외하고 유니코드는 스크립트와 해당 스크립트를 사용하는 언어 간의 연결을 사용하지 않습니다. 그래서 "히브리"는 히브리 문자를 말하는 것이지 히브리어를 말하는 것이 아닙니다.

"공통"을 위한 특수 코드 Zyyy는 여러 스크립트에서 사용되는 문자에 대해 단일 값을 허용합니다. 문자와 특정 다른 특수 목적 코드 포인트를 결합하는 데 사용되는 Zinh "상속된 스크립트"라는 코드는 문자가 결합된 문자로부터 스크립트 ID를 "상속"한다는 것을 나타냅니다. (유니코드는 이전에 이 목적을 위해 개인 코드인 Qaai를 사용했습니다.) Zzz "알 수 없음" 코드는 기호 및 형식 문자와 같이 스크립트에 속하지 않는 모든 문자(기본값)에 사용됩니다. 전체적으로 단일 스크립트의 문자는 라틴 문자와 같이 여러 블록에 흩어져 있을 수 있습니다. 그리고 그 반대도 마찬가지입니다. 여러 스크립트가 존재할 수 있는 것은 단일 블록입니다. 예를 들어, 블록 문자와 같은 기호는 라틴어, 그리스어 및 공용 스크립트의 문자를 포함합니다.

스크립트가 ""(공백)일 때 유니코드에 따르면 문자는 스크립트에 속하지 않습니다. 이것은 기호와 관련이 있는데, 이는 기존의 ISO 스크립트 코드인 "Zmth"(수학적 표기), "Zsym"(심볼), "Zsye"(심볼, 이모지 변형)가 유니코드에서 사용되지 않기 때문입니다. "Script" 속성은 컨트롤, 대용품 및 개인 사용 코드 포인트와 같이 타이포그래픽 문자가 아닌 코드 포인트의 경우 공백입니다.

ISO 15924에 특정 스크립트 별칭 이름이 있는 경우 문자 이름에 사용됩니다. U+0041 라틴 대문자 AU+05D0 א 히브리어 ALEF.

ISO 15924 유니코드 문자[e]
코드 ISO번호 ISO 정식 명칭 방향성 유니코드 별칭[f] 버전 성격. 메모들 묘사
아둔 166 아들람 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 아들람 9.0 88 19.9절
아팍 439 아파카 다르다 ZZ— 유니코드가 아닌 제안이 탐색됩니다[i].
아흐브 239 캅카스 알바니아어 좌우로 캅카스 알바니아어 7.0 53 고대/역사적 8.11장
338 아옴, 타이옴 좌우로 8.0 65 고대/역사적 15.16장
아랍인 160 아랍어 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 아랍어 1.0 1,368 9.2장
아란 161 아랍어(나스탈리크어) 혼종의 ZZ아랍어의 타이포그래픽 변형(§ 아랍어 참조)
아르미 124 제국 아람어 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 제국 아람어 5.2 31 고대/역사적 10.4장
230 아르메니아어 좌우로 아르메니아어 1.0 96 7.6장
아스트 134 아베스탄 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 아베스탄 5.2 61 고대/역사적 10.7장
발리 360 발리어 좌우로 발리어 5.0 124 17.3장
바무 435 바움 좌우로 바움 5.2 657 19.6장
베이스 259 바사 바 좌우로 바사 바 7.0 36 고대/역사적 19.7장
365 바탁 좌우로 바탁 6.0 56 17.6장
벵어 325 벵골어 (방글라) 좌우로 벵골어 1.0 96 12.2장
브흐스 334 바이스키 좌우로 바이스키 9.0 97 고대/역사적 14.3장
블리스 550 블리스 기호 다르다 ZZ— 유니코드가 아닌 제안이 탐색됩니다[i].
보포 285 보포모포 왼쪽에서 오른쪽으로, 오른쪽에서 왼쪽으로 대본 보포모포 1.0 77 18.3장
브라 300 브라흐미 좌우로 브라흐미 6.0 115 고대/역사적 14.1장
브레이 570 점자 좌우로 점자 3.0 256 21장 1절
부기 367 부기네세 좌우로 부기네세 4.1 30 17.2장
버드 372 부히드 좌우로 부히드 3.2 20 17.1장
칵름 349 차크마 좌우로 차크마 6.1 71 13.11장
440 캐나다 원주민 통합 강의 계획서 좌우로 캐나다 원주민 3.0 726 20.2장
카리 201 카리안 왼쪽에서 오른쪽으로, 오른쪽에서 왼쪽으로 대본 카리안 5.1 49 고대/역사적 8.5장
358 좌우로 5.1 83 16장 10절
체르 445 체로키 좌우로 체로키 3.0 172 20.1장
치스 298 치소이 좌우로 ZZ— 유니코드가 아닌 제안이 성숙함[ii]
크리스 109 코라스미안 오른쪽에서 왼쪽으로, 위에서 아래로 스크립트 코라스미안 13.0 28 고대/역사적 10.8장
치마 291 써스 다르다 ZZ— 유니코드에 없음
콥트 204 콥트어 좌우로 콥트어 1.0 137 고대/역사, 4.1 그리스어와 통일되지 않음 7.3장
Cpmn 402 키프로미노안 좌우로 키프로 미노안 14.0 99 고대/역사적 8.4장
심폐소생술 403 키프로스어 음절 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 키프로스어 4.0 55 고대/역사적 8.3장
키릴 220 키릴식 좌우로 키릴식 1.0 506 활자 변형 구교회 슬라보닉 포함 (§ 키르스 참조) Ch 7.4
사이러스 221 키릴어 (구 교회 슬라브어 변종) 다르다 ZZ— 키릴 문자 변형(§ 키릴 참조); 고대/역사
데바 315 Devanagari (Nagari) 좌우로 데바나가리 1.0 164 12.1장
디악 342 다이브스 아쿠루 좌우로 다이브스 아쿠루 13.0 72 고대/역사적 15.15장
도그르 328 도그라 좌우로 도그라 11.0 60 고대/역사적 15.18장
Dsrt 250 Deseret (Mormon) 좌우로 사막 3.1 80 20.4장
듀플 755 듀플로이안 속기, 듀플로이안 속기 좌우로 듀플로이언 7.0 143 21장 6절
이그드 070 이집트의 민족주의자 혼종의 ZZ— 유니코드에 없음
이지 060 이집트 상형문자 혼종의 ZZ— 유니코드에 없음
이집트 050 이집트 상형문자 오른쪽에서 왼쪽으로, 왼쪽에서 오른쪽으로 스크립트 이집트 상형문자 5.2 1,110 고대/역사적 11.4장
엘바 226 엘바산 좌우로 엘바산 7.0 40 고대/역사적 8.10장
일렘 128 엘리마익 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 엘리마익 12.0 23 고대/역사적 10.9장
에티 430 에티오피아어 (게 ʻ에즈) 좌우로 에티오피아의 3.0 523 19.1절
가라 164 가레이 오른쪽에서 왼쪽으로 ZZ— Unicode에서 제공되지 않음, 버전 16.0으로[iii] 승인됨
241 Khutsuri (Asomtavruli and Nuskhuri) 좌우로 그루지야인 유니코드는 쿠소리, 아솜타브룰리, 누스쿠리를 '조지아인'으로 분류합니다(§ 곡 참조). 마찬가지로 음케드룰리와 음타브룰리는 '조지아인'입니다 (§ 게오르 참조). 7장 7절
게오르크 240 조지아어 (Mkhedruli and Mtavruli) 좌우로 그루지야인 1.0 173 유니코드에는 누스쿠리()도 포함됩니다. 7장 7절
글래그 225 글래그리티컬 좌우로 글래그리티컬 4.1 134 고대/역사적 7.5장
공. 312 군잘라 곤디 좌우로 군잘라 곤디 11.0 63 13.15장
313 마사람 곤디 좌우로 마사람 곤디 10.0 75 13.14장
고트 206 고딕식 좌우로 고딕식 3.1 27 고대/역사적 8.9장
그란 343 그란타 좌우로 그란타 7.0 85 고대/역사적 15.14장
그렉 200 그리스어 좌우로 그리스어 1.0 518 방향성은 때때로 버스터드롭다운입니다. 7.2장
구즈르 320 구자라트어 좌우로 구자라트어 1.0 91 12.4장
구크 397 Gurung Khema 좌우로 ZZ— Unicode에서 제공되지 않음, 버전 16.0으로[iii] 승인됨
구루 310 구르무키 좌우로 구르무키 1.0 80 12.3장
한브 503 보포모포가 있는 한(한+보포모포의 별칭) 혼종의 ZZ— See § Hani, § Bopo
걸다 286 한글(한글, ŭ) 왼쪽에서 오른쪽으로, 세로에서 오른쪽으로 한글 1.0 11,739 2.0으로 옮겨진 한글 음절 18장 6절
하니. 500 한(한지, 간지, 한자) 위에서 아래로, 오른쪽에서 왼쪽으로 열(역사적으로) 1.0 99,030 18.1장
하노 371 Hanunoo (Hanunóo) 좌에서 우로, 아래에서 위로 하누누 3.2 21 17.1장
한스 501 한(단순 변형) 다르다 ZZ - Han(한지, 간지, 한자)의 부분 집합(§ 하니 참조)
한트 502 한(전통적 변형) 다르다 ZZ - § 하니의 부분 집합
해트 127 하트란 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 하트란 8.0 26 고대/역사적 10.12장
헤브르 125 히브리어 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 히브리어 1.0 134 9.1장
히라 410 히라가나 수직 오른쪽에서 왼쪽으로, 왼쪽에서 오른쪽으로 히라가나 1.0 381 18.4장
훌루 080 아나톨리아 상형문자 (루이아 상형문자, 히타이트 상형문자) 좌우로 아나톨리아 상형문자 8.0 583 고대/역사적 11.6장
흐엉 450 Pahawh Hmong 좌우로 Pahawh Hmong 7.0 127 16장 11절
HMNP 451 Nyiakeng Puachue Hmong 좌우로 Nyiakeng Puachue Hmong 12.0 71 16장 12절
Hrkt 412 일본어 음절 (히라가나 + 가타카나의 별칭) 수직 오른쪽에서 왼쪽으로, 왼쪽에서 오른쪽으로 가타카나 또는 히라가나 See § Hira, § Kana 18.4장
평결이 안 나는 176 옛 헝가리어 (헝가리어 룬어) 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 옛 헝가리어 8.0 108 고대/역사적 8장 8절
인디즈 610 인더스 (하라판) 혼종의 ZZ— 유니코드가 아닌 제안이 탐색됩니다[i].
이탈 210 고대 이탈리아어(에트루리아어, 오스칸어 등) 오른쪽에서 왼쪽으로, 왼쪽에서 오른쪽으로 스크립트 고대 이탈리아어 3.1 39 고대/역사적 8.6장
자모 284 자모(한글의 자모 부분집합에 대한 별칭) 다르다 ZZ - § 행의 부분 집합
자바 361 자바어 좌우로 자바어 5.2 90 17.4장
Jpan 413 일본어(한 + 히라가나 + 가타카나의 별칭) 다르다 ZZ— See § Hani, § Hira and § Kana
쥬크 510 위르첸 좌우로 ZZ— 유니코드에 없음
칼리 357 카야 리 좌우로 카야 리 5.1 47 16장 9절
카나 411 가타카나 수직 오른쪽에서 왼쪽으로, 왼쪽에서 오른쪽으로 가타카나 1.0 321 18.4장
카위 368 카위 좌우로 카위 15.0 86 고대/역사적 17.9장
하르 305 Kharoshthi 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata Kharoshthi 4.1 68 고대/역사적 14.2장
크흐르 355 크메르어 좌우로 크메르어 3.0 146 16장 4절
코즈 322 코지키 좌우로 코지키 7.0 65 고대/역사적 15.7장
키틀 505 거란대본 좌우로 ZZ— 유니코드에 없음
키트 288 거란 소문자 오른쪽에서 왼쪽으로 세로로 거란 소경 13.0 471 고대/역사적 18장 12절
크나다 345 칸나다 좌우로 칸나다 1.0 91 12.8장
코리아 287 한글(한글+한글의 별칭) 좌우로 ZZ— See § Hani, § Hang
크펠 436 크펠레 좌우로 ZZ— 유니코드가 아닌 제안이 탐색됩니다[i].
크라이 396 키랏 라이 좌우로 ZZ— Unicode에서 제공되지 않음, 버전 16.0으로[iii] 승인됨
크티 317 카이티 좌우로 카이티 5.2 68 고대/역사적 15.2장
라나. 351 타이탐 (라나) 좌우로 타이텀 5.2 127 16.7장
라오 356 라오 좌우로 라오 1.0 83 16장 2절
래트프 217 라틴어(Fraktur variant) 다르다 ZZ라틴어의 타이포그래픽 변형(§ 라틴어 참조)
랫그 216 라틴어(Gaelic variant) 좌우로 ZZ라틴어의 타이포그래픽 변형(§ 라틴어 참조)
라틴어 215 라틴어 좌우로 라틴어 1.0 1,481 참고 항목: 유니코드의 라틴어 스크립트 7.1장
레케 364 레케 좌우로 ZZ— 유니코드에 없음
렙크 335 Lepcha (Róng) 좌우로 렙차 5.1 74 13.12장
사지 336 임부 좌우로 임부 4.0 68 13.6장
리나 400 선형 A 좌우로 선형 A 7.0 341 고대/역사적 8.1장
린브 401 선형 B 좌우로 선형 B 4.0 211 고대/역사적 8.2장
리수 399 리수(프레이저) 좌우로 리수 5.2 49 18.9장
로마 437 로마 좌우로 ZZ— 유니코드가 아닌 제안이 탐색됩니다[i].
리치 202 리시안 좌우로 리시안 5.1 29 고대/역사적 8.5장
리디 116 리디안 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 리디안 5.1 27 고대/역사적 8.5장
마흐즈 314 마하자니 좌우로 마하자니 7.0 39 고대/역사적 15.6장
마카 366 마카사르 좌우로 마카사르 11.0 25 고대/역사적 17.8장
맨드 140 만다이크 주 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 만다이크 6.0 29 9.5장
마니 139 마니교 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 마니교 7.0 51 고대/역사적 10.5장
마크 332 마르첸 좌우로 마르첸 9.0 68 고대/역사적 14.5장
마야 090 마야 상형문자 혼종의 ZZ— 유니코드에 없음
메드프 265 메데파이드린 (오베리 오카임, 오베리 ɔ 카임 ɛ) 좌우로 메데파이드린 11.0 91 19.10장
수리하다 438 멘데 키카쿠이 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 멘데 키카쿠이 7.0 213 19.8장
머크 101 메로이트 필기체 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 메로이트 필기체 6.1 90 고대/역사적 11.5장
메로 100 메로이트 상형문자 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 메로이트 상형문자 6.1 32 고대/역사적 11.5장
347 말라얄람어 좌우로 말라얄람어 1.0 118 12.9절
모디 324 모디, 모 ḍī 좌우로 모디 7.0 79 고대/역사적 15.12장
145 몽골인 수직 좌에서 우로, 좌에서 우로 몽골인 3.0 168 몽은 클리어만추 문자를 포함합니다. 13.5장
218 Moon (Moon 코드, Moon 스크립트, Moon type) 혼종의 ZZ— 유니코드가 아닌 제안이 탐색됩니다[i].
므루 264 므로, 므루 좌우로 므로 7.0 43 13.8장
므테이 337 Meitei Mayek (Meithei, Meetei) 좌우로 미테이 메이크 5.2 79 13.7장
멀티 323 물타니 좌우로 물타니 8.0 38 고대/역사적 15.10장
마이미스터 350 미얀마(미얀마) 좌우로 미얀마 3.0 223 16장 3절
나그미 295 나그 문다리 좌우로 나그 문다리 15.0 42
난드 311 난디나가리 좌우로 난디나가리 12.0 65 고대/역사적 15.13장
나르브 106 고대 북아라비안 (고대 북아라비안) 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 옛 북아라비안 7.0 32 고대/역사적 10.1장
은배트 159 나바태안 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 나바태안 7.0 40 고대/역사적 10.10장
뉴아 333 뉴아 주, 뉴아르 주, 뉴아리 주, 네팔라리피 주 좌우로 뉴아 9.0 97 13.3장
Nkdb 085 Naxi Dongba (na²¹ɕi³³ to³³ba²¹, Nakhi Tomba) 좌우로 ZZ— 유니코드에 없음
Nkgb 420 Naxi Geba (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-¹baw, Nakhi Geba) 좌우로 ZZ— 유니코드가 아닌 제안이 탐색됩니다[i].
응구 165 N’Ko 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 엔코 5.0 62 19.4장
은슈 499 누슈 오른쪽에서 왼쪽으로 세로로 누슈 10.0 397 18.8장
오감 212 오함 아래에서 위로, 왼쪽에서 오른쪽으로 오함 3.0 29 고대/역사적 8.14장
올크 261 올 치키 (올 세멧, 올, 산탈리) 좌우로 올치키 5.1 48 13.10장
오나오 296 올 오날 좌우로 ZZ— Unicode에서 제공되지 않음, 버전 16.0으로[iii] 승인됨
오크 175 올드 튀르크어족, 오크혼 룬어족 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 튀르크어족 5.2 73 고대/역사적 14.8장
오리아 327 오리야 (오디아) 좌우로 오리야 1.0 91 12.5장
오스지 219 오세이지 좌우로 오세이지 9.0 72 20.3장
오스마 260 오스마니야 좌우로 오스마니야 4.0 40 19.2장
어그 143 Old Uyghur 혼종의 Old Uyghur 14.0 26 고대/역사적 14장 11절
손바닥 126 팔미렌 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 팔미렌 7.0 32 고대/역사적 10.11장
포크 263 파우신하우 좌우로 파우신하우 7.0 57 16장 13절
프쿤 015 설형문자 좌우로 ZZ— 유니코드에 없음
펠름 016 원시 엘라마이트 좌우로 ZZ— 유니코드에 없음
파마 227 올드 퍼믹 좌우로 올드 퍼믹 7.0 43 고대/역사적 8.13장
패그 331 파그스파 좌우 수직의 파그스파 5.0 56 고대/역사적 14장 4절
필리 131 비문 팔라비 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 비문 팔라비 5.2 27 고대/역사적 10.6장
Phlp 132 Psalter Pahlavi 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata Psalter Pahlavi 7.0 29 고대/역사적 10.6장
Phlv 133 Book Pahlavi 혼종의 ZZ— 유니코드에 없음
프nx 115 페니키아인 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 페니키아인 5.0 29 고대/역사적[g] 10.3장
Piqd 293 Klingon (KLI pIqaD) 좌우로 ZZ— 유니코드에[iv][v] 포함된 경우 거부됨
Plrd 282 먀오(폴라드) 좌우로 먀오 6.1 149 18.10장
프르티 130 비문 파르티아어 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 비문 파르티아어 5.2 30 고대/역사적 10.6장
프신 103 중아조어족 혼종의 ZZ— 유니코드에 없음
Qaaa-Qabx 900-949 전용 예약(범위) ZZ— 유니코드에 없음
란즈 303 란자나 좌우로 ZZ— 유니코드에 없음
Rjng 363 레장 (레드장, 카강가) 좌우로 레장 5.1 37 17.5장
노그 167 하니피 로힝야 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 하니피 로힝야 11.0 50 16장 14절
로로 620 Rongorongo 혼종의 ZZ— 유니코드가 아닌 제안이 탐색됩니다[i].
런어 211 루닉 좌에서 우로, 버스터드폰 루닉 3.0 86 고대/역사적 8.7장
삼르 123 사마리아인 오른쪽에서 왼쪽으로, 위에서 아래로 스크립트 사마리아인 5.2 61 9.4장
새라. 292 사라티 혼종의 ZZ— 유니코드에 없음
사르브 105 구남아라비아 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 구남아라비아 5.2 32 고대/역사적 10.2장
사우르 344 사우라슈트라 주 좌우로 사우라슈트라 주 5.1 82 13장 13절
Sgnw 095 사인라이팅 좌우 수직의 사인라이팅 8.0 672 21.7장
281 샤비안 (쇼) 좌우로 샤비안 4.0 48 8.15장
슈르트 319 샤라다 주, ś 주 좌우로 샤라다 6.1 96 15.3장
수이 530 슈슈 좌우로 ZZ— 유니코드에 없음
시드 302 Siddham, Siddhaṃ, Siddhamātṛkā 좌우로 싯담 7.0 92 고대/역사적 15.5장
시드 180 사이드틱 오른쪽에서 왼쪽으로 ZZ— 유니코드가 아닌 제안이 성숙함[ii]
신드 318 쿠다와디 주, 신디 주 좌우로 쿠다와디 7.0 69 15.9장
신씨 348 신할라 좌우로 신할라 3.0 111 13.2장
소그드 141 소그디안 동아시아 문자로 된 가로 세로쓰기, 위에서 아래로 소그디안 11.0 42 고대/역사적 14장 10절
소고 142 올드 소그디안 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 올드 소그디안 11.0 40 고대/역사적 14.9장
소라 398 소라 솜펑 좌우로 소라 솜펑 6.1 35 15.17장
소요 329 소욤보 좌우로 소욤보 10.0 83 고대/역사적 14.7장
선드 362 순다네시 좌우로 순다네시 5.1 72 17.7장
수누 274 수누와르 좌우로 ZZ— Unicode에서 제공되지 않음, 버전 16.0으로[iii] 승인됨
사일로 316 Syloti Nagri 좌우로 Syloti Nagri 4.1 45 고대/역사적 15.1장
Syrc 135 시리아어 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 시리아어 3.0 88 타이포그래피 변형 Estrangelo(§ Syre 참조), Western(§ Syrj) Eastern(§ Syrn)이 포함됩니다. 9.3장
시어 138 시리아어(Estrangelo variant) 혼종의 ZZ시리아어의 타이포그래픽 변형(§ Syrc 참조)
시르즈 137 시리아어 (서양식 변종) 혼종의 ZZ시리아어의 타이포그래픽 변형(§ Syrc 참조)
Syrn 136 시리아어(동양어) 혼종의 ZZ시리아어의 타이포그래픽 변형(§ Syrc 참조)
태그브 373 타그반와 좌우로 타그반와 3.2 18 17.1장
탁르 321 Takri, Ṭākrī, Ṭāṅkrī 좌우로 타크리 6.1 68 15.4장
이야기 353 타이 르 좌우로 타이 르 4.0 35 16.5장
탈루 354 뉴타이루 좌우로 뉴타이루 4.1 83 16장 6절
탐라 346 타밀어 좌우로 타밀어 1.0 123 12.6장
520 탕구트 수직 오른쪽에서 왼쪽으로, 왼쪽에서 오른쪽으로 탕구트 9.0 6,914 고대/역사적 18장 11절
타브트 359 타이 비엣 좌우로 타이 비엣 5.2 72 16장 8절
타요 380 타이요 위에서 아래로, 오른쪽에서 왼쪽으로 열 ZZ— 유니코드가 아닌 제안이 성숙함[ii]
텔루 340 텔루구 좌우로 텔루구 1.0 100 12.7장
290 텡과르 좌우로 ZZ— 유니코드에 없음
Tfng 120 티피나 (베르베르) 왼쪽에서 오른쪽으로, 오른쪽에서 왼쪽으로, 위에서 아래로, 아래에서 위로 티피나그 4.1 59 19.3장
Tglg 370 타갈로그 (베이바인, 알리바타) 좌우로 타갈로그어 3.2 23 17.1장
타하 170 타아나 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 타아나 3.0 50 13.1장
타이어 352 타이어 좌우로 타이어 1.0 86 16장 1절
티벳 330 티베트어 좌우로 티베트어 2.0 207 1.0에서 추가, 1.1에서 제거, 2.0에서 재도입 13.4장
티르 326 티르후타 좌우로 티르후타 7.0 82 15.11장
텐사 275 탕사 좌우로 탕사 14.0 89 13.18장
토드르 229 토드리 오른쪽에서 왼쪽으로 ZZ— Unicode에서 제공되지 않음, 버전 16.0으로[iii] 승인됨
톨스 299 톨롱스키 좌우로 ZZ— 유니코드가 아닌 제안이 성숙함[ii]
토토 294 토토 좌우로 토토 14.0 31 13.17장
투그 341 Tulu-Tigalari 좌우로 ZZ— Unicode에서 제공되지 않음, 버전 16.0으로[iii] 승인됨
우가 040 우가리트어 좌우로 우가리트어 4.0 31 고대/역사적 11.2장
바이 470 바이 좌우로 바이 5.1 300 19.5장
Visp 280 보이는 말 좌우로 ZZ— 유니코드에 없음
비스 228 비스쿠키 좌우로 비스쿠키 14.0 70 고대/역사적 8.12장
와라 262 와랑시티 (바랑크시티) 좌우로 와랑시티 7.0 84 13.9장
우초 283 완초 좌우로 완초 12.0 59 13.16장
480 월라이 혼종의 ZZ— 유니코드가 아닌 제안이 탐색됩니다[i].
엑스페오 030 고대 페르시아어 좌우로 고대 페르시아어 4.1 50 고대/역사적 11.3장
Xsux 020 쿠네이폼 주, 수메로아카드 주 좌우로 설형동물 5.0 1,234 고대/역사적 11.1장
예지 192 예지디 오른쪽에서 왼쪽으로 가는 대본 Edit this on Wikidata 예지디 13.0 47 고대/역사적 9.6장
Yiii 460 좌우로 3.0 1,220 18.7장
잔브 339 자나바자르 광장(Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, 수평 사각형 대본) 좌우로 자나바자르 광장 10.0 72 고대/역사적 14.6장
994 상속된 스크립트의 코드 상속 657
Zmth 995 수학적 표기법 ZZ— 유니코드의 '스크립트'가 아님
Zsym 996 기호 ZZ— 유니코드의 '스크립트'가 아님
즈시예 993 기호(이모지 변형) ZZ— 유니코드의 '스크립트'가 아님
Zxxx 997 미작성 문서에 대한 코드 ZZ— 유니코드의 '스크립트'가 아님
자이 998 미확인 스크립트 코드 흔한 8,306
즈즈 999 코드화되지 않은 스크립트의 코드 알 수 없는 964,234 유니코드로: 기타 모든 코드 포인트
메모들
  1. ^
    2023년 9월 12일 기준 ISO 15924 간행물
  2. ^
  3. ^
    ISO 15924 변경사항(유니코드의 별칭 포함, 2023년 9월 12일 기준)
  4. ^
    유니코드 버전 15.1
  5. ^
  6. ^
    유니코드는 "Property Value Alias"(알리아스)를 스크립트 이름으로 사용합니다. 이러한 별칭 이름은 유니코드의 일부이며 ISO 15924 옆에 정보로 게시됩니다. 별칭 스크립트 이름은 문자 이름에 사용될 수 있습니다. Palm , 팔미렌 → U+10860 𐡠 팔미렌 레터 알레프
  7. ^
    유니코드에서 페니키아 문자는 팔레오-히브류, 고대 페니키아어, 페니키아어, 초기 아람어, 후기 페니키아어 필기체, 페니키아어 파피리, 실로암 히브리어, 히브리어 인장, 암모나이트, 모아비트, 푸니아어로 텍스트를 표현하기 위한 것입니다.[vi]
참고문헌
  1. ^ a b c d e f g h i "SEI List of Scripts Not Yet Encoded". Unicode Consortium. March 2023. Retrieved 2023-09-25.
  2. ^ a b c d "Unicode Pipeline § Code Points Provisionally Assigned for Mature Proposals". Unicode Consortium. 2023-09-12. Retrieved 2023-09-25.
  3. ^ a b c d e f g "Unicode Pipeline § Approved for Publication in Version 16.0". Unicode Consortium. 2023-09-12. Retrieved 2023-09-25.
  4. ^ Michael Everson (1997-09-18). "Proposal to encode Klingon in Plane 1 of ISO/IEC 10646-2".
  5. ^ The Unicode Consortium (2001-08-14). "Approved Minutes of the UTC 87 / L2 184 Joint Meeting".
  6. ^ "Middle East-II, Ancient Scripts" (PDF). 15.0.0. The Unicode Consortium. Retrieved 2023-09-25.

정규화 속성

분해, 분해 유형, 표준 결합 클래스, 구성 제외 등입니다.

나이

Age는 코드 포인트가 처음 지정된 표준 버전입니다. 버전 번호는 번호 매기기 major.minor로 단축되지만 더 자세한 버전 번호가 사용됩니다. 버전 4.0.0과 4.0.1은 둘 다 Age로 이름이 지정됩니다. Given the releases, Age can be from the range: 1.1, 2.0, 2.1, 3.0, 3.1, 3.2, 4.0, 4.1, 5.0, 5.1, 5.2, 6.0, 6.1, 6.2, 6.3, 7.0, 8.0, 9.0, 10.0, 11.0, 12.0, 12.1, 13.0, 14.0, 15.0, and 15.1.[21] Age의 긴 값은 V로 시작하고 점 V1_1 대신 밑줄을 사용합니다.[2] 특별히 할당된 연령 값이 없는 코드 포인트는 "NA" 값을 가지며 긴 형식은 "할당되지 않음"입니다.

감가상각

일단 문자가 정의되면, 문자는 제거되거나 재할당되지 않습니다.[22] 그러나 문자는 "사용을 강력하게 권장하지 않는다"는 의미로 사용되지 않을 수 있습니다.[23] 유니코드 버전 15.1에서는 다음과 같은 15자가 권장되지 않습니다.[24]

유니코드에서 사용하지 않는 문자
코드포인트 캐릭터명 추천대안 언급
U+0149 아포스트로피 앞에 라틴어 작은 글자 n U+02BC U+006E ʼn
U+0673 아래에 물결 모양의 햄자가 있는 아랍 문자 알레프 U+0627 U+065F اٟ
U+0F77 티베트 모음 부호 음성 RR U+0FB2 U+0F81[a] ྲཱྀ
U+0F79 티베트 모음 부호 보컬 CLL U+0FB3 U+0F81[a] ླཱྀ
U+17A3 크메르 독립 모음 QAQ U+17A2
U+17A4 크메르 독립 모음 QAA U+17A2 U+17B6 អា
U+206A 대칭 스와핑 금지 없음[b]
U+206B 대칭 스와핑 활성화 없음[b]
U+206C 인히빗 아랍IC 폼 쉐이핑 없음[b]
U+206D 아랍 활성화IC 폼 쉐이핑 없음[b]
U+206E 국가 숫자 모양 없음[b]
U+206F 공칭 숫자 모양 없음[b]
U+2329 좌측 포인팅 각도 브래킷 U+3008[c] U+27E8 MATHICAL LEFT ANGLE BRAKET은 수학 및 기타 기술적 용도로 권장됩니다.
U+232A 우측 포인팅 각도 브래킷 U+3009[c] U+27E9 MATHICAL RIGHT AGLE BARKET은 수학 및 기타 기술적 용도로 권장됩니다.
U+E0001 언어 태그 없음[d]
  1. ^ a b U+0F81 ཱྀ TIBAL MOLET SIGN REVERSED II는 그 자체로 권장되지 않으며(단, 권장되지는 않음), 표준적으로 U+0F71 U+0F80 시퀀스와 동등합니다.
  2. ^ a b c d e f 컨트롤 문자를 사용하여 텍스트에 적합한 모양을 표시하기보다는 올바른 상태의 적절한 문자 코드를 사용해야 합니다.[25]
  3. ^ a b 이 대체 문자는 CJK 기호문장부호 블록에 있으며 수학적 또는 기술적 용도로 사용하기에 적합하지 않습니다.
  4. ^ 대신 언어 태깅의 대체 수단을 사용해야 합니다.[26]

경계

유니코드 표준은 다음과 같은 경계 관련 속성을 지정합니다.

  • 그래파이트 클러스터
  • 단어
  • 문장.

가명

유니코드는 코드 포인트에 별칭 이름을 할당할 수 있습니다. 이러한 이름은 모든 이름(일반 이름 포함)에서 고유하므로 식별자로 사용할 수 있습니다. 별칭을 추가하는 데에는 다음과 같은 5가지 이유가 있습니다.

1. 약어
제어 코드, 형식 문자, 공백 및 변형 선택기에 대해 일반적으로 발생하는 약어 또는 두문자어입니다.
예를 들어, U+00A0 NO-BREAK SPACE에는 별칭 NBSP가 있습니다. 상자에 표시되는 경우도 있습니다.
NBSP
.
2. 컨트롤
C0 및 C1 제어 기능에 대한 ISO 6429 이름과 이와 유사한 일반적으로 발생하는 이름이 문자에 별칭으로 추가됩니다.
예를 들어, U+0008 <control-0008>에는 별칭이 있습니다.
3. 정정
이것은 기본 문자 이름의 "심각한 문제"(보통 오류)에 대한 수정입니다.
예를 들어, U+2118SCRIPT CAPTIAL P는 실제로 소문자 p이고, 따라서 가명 WEIERSTRASS ELTIPS FUNITION이 부여됩니다. "실제로 이것은 이름에도 불구하고 소문자 캘리그라피 p의 형태를 가지며, 가명을 통해 정확한 철자가 추가됩니다." 설명에서는 앞의 기호 를 사용합니다.
4. 대체
문자에 널리 사용되는 대체 이름입니다.
예: U+FEFF ZERO WIDTH NO-BREAK SPACE에는 대체 바이트 순서 표시가 있습니다.
5. 피그먼트
C1 제어 코드 포인트에 대한 문서화된 여러 레이블은 어떤 표준에서도 실제로 승인된 적이 없습니다(그림 = 가짜, 허구).
예를 들어, U+0099 <control-0099>에는 피그먼트 별칭이 하나 있습니다. 이 이름은 ISO/IEC 10646-1의 초기 초안에서 나온 건축 개념이지만 승인 및 표준화된 적이 없습니다.

외부 링크

참고문헌

  1. ^ a b c d e "Character Properties" (PDF). The Unicode Standard Version 15. Mountain View, CA: The Unicode Consortium. September 2022. ISBN 978-1-936213-32-0. Retrieved 2022-09-16.
  2. ^ a b c "Unicode Standard Annex #44: Unicode Character Database". Unicode. 2017-06-14.
  3. ^ "Unicode Standard Annex #44: Unicode Character Database, 4.2.3 Code Point Ranges". Unicode. 2022-09-02.
  4. ^ UnicodeData.txt
  5. ^ "UCD: Name Aliases". Unicode Character Database. Unicode Consortium. 2019-03-08.
  6. ^ "Character design standards – space characters". Character design standards. Microsoft. 1998–1999. Archived from the original on March 14, 2010. Retrieved 2009-05-18.
  7. ^ Unicode Standard 5.0, 인쇄판, p. 205; 또한 다음 웹 사이트에서 사용할 수 있습니다.
  8. ^ "General Punctuation" (PDF). The Unicode Standard 5.1. Unicode Inc. 1991–2008. Retrieved 2009-05-13.
  9. ^ Sargent, Murray III (2006-08-29). "Unicode Nearly Plain Text Encoding of Mathematics (Version 2)". Unicode Technical Note #28. Unicode Inc. pp. 19–20. Retrieved 2009-05-19.
  10. ^ Gillam, Richard (2002). Unicode Demystified: A Practical Programmer's Guide to the Encoding Standard. Addison-Wesley. ISBN 0-201-70052-2.
  11. ^ a b Hickson, Ian. "12.5 Named character references". HTML Standard. WHATWG.
  12. ^ Wolfram. "\[NegativeThickSpace]". Wolfram Language Documentation.
  13. ^ Wolfram. "\[NegativeMediumSpace]". Wolfram Language Documentation.
  14. ^ Wolfram. "\[NegativeThinSpace]". Wolfram Language Documentation.
  15. ^ Wolfram. "\[NegativeVeryThinSpace]". Wolfram Language Documentation.
  16. ^ Faltstrom, P., ed. (August 2010). "Zero Width Non-Joiner". The Unicode Code Points and Internationalized Domain Names for Applications (IDNA). IETF. sec. A.1. doi:10.17487/RFC5892. RFC 5892. Retrieved September 4, 2019.
  17. ^ Faltstrom, P., ed. (August 2010). "Zero Width Joiner". The Unicode Code Points and Internationalized Domain Names for Applications (IDNA). IETF. sec. A.2. doi:10.17487/RFC5892. RFC 5892. Retrieved September 4, 2019.
  18. ^ "Unicode Standard Annex #44, Unicode Character Database".
  19. ^ a b "Unicode Standard Annex #9: Unicode Bidirectional Algorithm". The Unicode Standard. 2017-05-14.
  20. ^ "Unicode Standard Annex #24: Unicode Script Property". The Unicode Standard. 2015-06-01.
  21. ^ "UCD: Derived Age". Unicode Character Database. Unicode Consortium. 2023-07-28.
  22. ^ "Unicode Character Encoding Stability Policies". Unicode. Unicode Consortium. 2017-06-23. Retrieved 2021-07-25. Once a character is encoded, it will not be moved or removed.
  23. ^ "3.4: Characters and Encoding, D13: Deprecated character" (PDF). The Unicode Standard, Version 15.0. Mountain View: Unicode Consortium. 2022-09-13. ISBN 978-1-936213-32-0. Retrieved 2022-09-16.
  24. ^ "PropList-15.1.0.txt". Unicode. Unicode Consortium. 2023-08-01. Retrieved 2023-09-12.
  25. ^ "Chapter 23.3: Deprecated Format Characters" (PDF). The Unicode Standard, Version 13.0. Mountain View: Unicode Consortium. 2020-03-10. ISBN 978-1-936213-26-9. Retrieved 2021-07-25.
  26. ^ "23.9: Tag Characters, Deprecated Use for Language Tagging" (PDF). The Unicode Standard, Version 13.0. Mountain View: Unicode Consortium. 2020-03-10. ISBN 978-1-936213-26-9. Retrieved 2021-07-25.