유니코드 문자 속성
Unicode character property유니코드 표준은 각 유니코드 문자 및 코드 포인트에 다양한 속성을 할당합니다.[1][2]
속성은 줄 바꿈, 스크립트 방향 오른쪽에서 왼쪽 또는 컨트롤 적용과 같은 프로세스에서 문자(코드 포인트)를 처리하는 데 사용할 수 있습니다. 일부 "문자 속성"은 문자가 할당되지 않은 코드 포인트와 "<문자가 아닙니다>"와 같이 레이블이 지정된 코드 포인트에 대해서도 정의됩니다. 문자 속성은 표준 부속문서 44에 설명되어 있습니다.[2]
속성에는 규범적, 정보적, 기여적 또는 잠정적인 수준의 강제성이 있습니다. 사양의 단순화를 위해 동일한 속성을 갖는 연속적인 코드 포인트 범위를 지정하여 문자 속성을 할당할 수 있습니다.[3]
시맨틱 요소
속성은 다음 순서로 표시됩니다.[4]
[코드];[이름];[gc];[cc];[bc];[decomp 위치];[nv-dec];[nv-dig];[nv-num];[bm];[alias];;[윗선];[하의 케이스];[title 사건]
- 'alias' = 수정된 이름입니다. 더 이상 쓸모가 없는. 이제는 별도의 데이터베이스로 추적되지만 유니코드 1 이름 등에 대해서는 남아 있습니다.
- 'bc' = bidi (양방향) 카테고리 [L, R 등]
- 'bm' = bidi mirrored [N 또는 Y]
- '''cc''' = 결합 클래스 [이음계의 위치]
- 분해형 또는 <mapping> = 문자+디아크리틱, 결찰 X Y, 위첨자 X, 글꼴 X, 초성 X, 중간 X, 최종 X, 고립 X, 수직 X 등
- 'gc' = 일반 범주 [글자, 기호, 숫자, 문장부호, 대소문자 행동 등]
- 'nv' = 숫자 형식 및 [숫자의] 값입니다. 숫자 유형이 '10진수'인 경우 3개의 슬롯이 모두 채워집니다. 'digit'이면 첫 번째가 null이 됩니다. (이것은 중단되었습니다.) '숫자'인 경우 처음 두 개는 null이고 마지막 두 개만 사용됩니다.
'alias'와 '대소문자' 사이의 속성은 더 이상 사용되지 않으며 이제 모든 유니코드 문자에 대해 null입니다.
코드
첫 번째 속성은 16진수 코드 포인트입니다.
이름 및 별칭
유니코드 문자에는 고유한 이름(na)이 할당됩니다.[1] 이름은 대문자 A~Z, 숫자 0~9, 하이픈-마이너스(-) 및 공백()으로 구성됩니다. 공백 또는 하이픈으로 시작하는 이름, 공백 또는 하이픈으로 끝나는 이름, 반복되는 공백 또는 하이픈, 하이픈 뒤의 공백은 허용되지 않습니다. 이름은 유니코드 내에서 고유한 것으로 보장되며 코드 포인트와 그 문자를 식별하는 데 사용할 수 있습니다. 수만 명에 달하는 관념적 인물들이 문양에 이름을 올렸습니다." cjk 통일 이념-hhhhhh". 예를 들어, U+4E00 一 CJK UNITED IDEOGRAPH-4E00. 포맷 문자의 이름도 다음과 같습니다. U+00A0 NO-BREAK SPACE.
다음 코드 포인트 클래스에는 이름(na="")이 없습니다. 컨트롤(일반 범주: Cc), 개인 용도(Co), 대리(Cs), 문자가 아닌 것(Cn) 및 예약된 것(Cn). 비공식적으로 "코드 포인트 레이블"(code point labels)이라고 불리는 일반 또는 특정 메타 이름(code point labels): <control>, <control-0088>, < reserved>, <non-character-hhhhh>, <private-use-hhh> 또는 <대리인>)에 의해 참조될 수 있습니다. 이러한 레이블에는 <>-괄호가 포함되어 있으므로 혼동을 방지하는 이름으로 표시될 수 없습니다.
버전 1.0 이름
유니코드 버전 2.0에서는 많은 이름이 변경되었습니다. 그때부터 가명을 엄격하게 (규범적으로) 사용하는 것을 포함하여 "이름은 절대 변하지 않을 것입니다"라는 규칙이 발효되었습니다. 사용되지 않는 버전 1.0 이름이 속성 별칭으로 이동하여 하위 호환성을 제공했습니다.
캐릭터명 별칭
유니코드 버전 2.0부터는 코드 포인트에 대한 게시된 이름이 변경되지 않습니다. 따라서 문자 이름의 철자가 잘못되었거나 문자 이름이 완전히 잘못되었거나 심각하게 오해의 소지가 있는 경우 문자에 정식 문자 이름 별칭이 할당될 수 있으며, 이 별칭은 실제 결함이 있는 문자 이름 대신 응용 프로그램에서 사용될 수 있습니다.[1] 예를 들어, U+FE18 ︘ Presentation FORM for VERTICAL WHITE LENTICAL BRAKET는 실제 캐릭터 이름에서 "브라켓"이 "브라켓"으로 잘못 표기되는 것을 완화하기 위해 "Presentation FORM for VERTICAL WHITE LENTICAL BRAKET"이라는 캐릭터 이름 별칭을 가지고 있으며, U+A015 ꀕ YI WU는 "브라켓"이라는 캐릭터 이름 별칭을 가지고 있습니다."YI WILL TERATION MARK"는 문자 이름과 달리 고정된 음절 값을 가지고 있지 않기 때문입니다.
결함이 있는 문자 이름에 대한 수정인 문자 이름 별칭 외에도 일부 문자에는 대체 이름 또는 약어인 별칭이 할당됩니다. 유니코드 표준에는 다섯 가지 유형의 문자 이름 별칭이 정의되어 있습니다.
- 수정: 철자가 잘못되었거나 심각하게 잘못된 문자 이름에 대한 수정;
- 제어: C0 및 C1 제어 기능에 대한 ISO 6429 이름(유니코드 표준에서 문자 이름이 할당되지 않음);
- 대체: 일부 형식 문자에 대한 대체 이름("바이트 주문 표시"라는 별칭이 있는 U+FEFF "ZERO WIDTH NO-BREAK SPACE"만 해당);
- 그림: 어떤 표준에서도 실제 이름이 아닌 일부 C1 제어 코드 기능에 대한 문서화된 라벨;
- 약어: 제어 코드, 형식 문자, 공백 및 변형 선택기의 약어 또는 두문자어.
모든 형식적인 문자 이름 별칭은 허용되는 문자 이름에 대한 규칙을 따르며, 문자 이름 별칭과 문자 이름 공간 내에서 고유한 것이 보장됩니다. 이러한 이유로 ISO 6429 이름 "BELL"은 U+1F514의 이름이 "BELL"[1]이기 때문에 U+0007의 별칭으로 정의되지 않습니다.
유니코드 버전 12.1에서는 28개의 형식적인 문자 이름 별칭이 결함이 있는 문자 이름에 대한 수정으로 정의되어 있습니다.[5] 아래에 나열되어 있습니다.
이러한 규범적 이름과는 별도로, 비공식적인 이름은 유니코드 코드 차트에 표시될 수 있습니다. 이 이름은 문자에 대해 일반적으로 사용되는 다른 이름이며 동일한 문자 제한이 없습니다. 이러한 비공식 이름은 고유성을 보장하지 않으며 이후 버전의 표준에서 변경 또는 제거될 수 있습니다.
일반 카테고리
각 코드 포인트에는 General Category 값이 할당됩니다. 이것은 "문자가 아닌" 것으로 정의된 할당되지 않은 코드 포인트 및 코드 포인트에 대해서도 정의되는 문자 속성 중 하나입니다.
일반 카테고리 (유니코드 문자 속성)[a] | |||||
---|---|---|---|---|---|
가치 | 카테고리메이저,미성년 | 기본형[b] | 부여된[b] 문자 | 카운트[c] (15.1 기준) | 언급 |
L, L, LC, 대문자(Lu, Ll, Lt만 해당)[d] | |||||
루 | 문자, 대문자 | 그래픽 | 성격 | 1,831 | |
Ll | 글자, 소문자 | 그래픽 | 성격 | 2,233 | |
Lt | 레터,타이틀케이스 | 그래픽 | 성격 | 31 | 대문자 다음에 소문자 부분(예: dž, lj, nj 및 dz)이 포함된 라이그처 또는 다이그래프 |
Lm | 문자, 수식어 | 그래픽 | 성격 | 397 | 수식어 글자 |
로 | 편지, 기타 | 그래픽 | 성격 | 132,234 | 유니케이스 알파벳으로 된 아이디그래프 또는 문자 |
M, 마크 | |||||
Mn | 표식, 띄어쓰기 안 함 | 그래픽 | 성격 | 1,985 | |
맥 | 표시, 간격 결합 | 그래픽 | 성격 | 452 | |
나야. | 마크, 감싸기 | 그래픽 | 성격 | 13 | |
N, 번호 | |||||
Nd | 숫자, 십진자리 | 그래픽 | 성격 | 680 | 이것들과 이것들만 숫자 유형 = De를 갖습니다. |
Nl | 번호, 문자 | 그래픽 | 성격 | 236 | 문자 또는 문자와 같은 기호로 구성된 숫자(예: 로마 숫자) |
아니요. | 번호, 기타 | 그래픽 | 성격 | 915 | 예: 저속 분수, 위첨자 및 아래첨자 숫자 |
P, 구두점 | |||||
Pc | 구두점, 커넥터 | 그래픽 | 성격 | 10 | 공백 밑줄 문자(예: "_") 및 기타 공백 연결 문자가 포함됩니다. 다른 문장부호 문자와 달리 정규 표현 라이브러리에서는 "단어" 문자로 분류할 수 있습니다.[f] |
PD | 구두점, 대시 | 그래픽 | 성격 | 26 | 여러 하이픈 문자 포함 |
Ps | 구두점, 오픈 | 그래픽 | 성격 | 79 | 괄호 열기 문자 |
페 | 구두점, 닫기 | 그래픽 | 성격 | 77 | 괄호 닫기 문자 |
파이 | 문장부호, 초성사 | 그래픽 | 성격 | 12 | 따옴표를 엽니다. ASCII "중립" 따옴표를 포함하지 않습니다. 용도에 따라 Ps 또는 Pe처럼 동작할 수 있음 |
Pf | 구두점, 최종견적 | 그래픽 | 성격 | 10 | 따옴표 마감중입니다. 용도에 따라 Ps 또는 Pe처럼 동작할 수 있음 |
포 | 구두점, 기타 | 그래픽 | 성격 | 628 | |
S, 기호 | |||||
에스엠 | 기호,수학 | 그래픽 | 성격 | 948 | 수학 기호(예: +, -, =, ×, ÷, √, ≠, ∊). 범주 Ps 및 Pe에 포함된 괄호 및 괄호는 포함되지 않습니다. 또한 수학 연산자로 자주 사용됨에도 불구하고 주로 "문구"로 간주되는 !, *, - 또는 /를 포함하지 않습니다. |
Sc | 기호, 화폐 | 그래픽 | 성격 | 63 | 화폐 기호 |
에스케이 | 기호, 수식어 | 그래픽 | 성격 | 125 | |
그렇게 | 기호, 기타 | 그래픽 | 성격 | 6,639 | |
Z, 구분자 | |||||
Zs | 구분자, 공간 | 그래픽 | 성격 | 17 | 공간을 포함하지만 Cc인 TAB, CR 또는 LF는 포함하지 않습니다. |
Zl | 구분자, 선 | 형식 | 성격 | 1 | U+2028 라인 분리기(LSEP)만 해당 |
Zp | 구분자, 단락 | 형식 | 성격 | 1 | U+2029 문단 구분자(PSEP)만 해당 |
C, 기타 | |||||
Cc | 기타, 제어 | 통제 | 성격 | 65 (결코 변하지 않음)[e] | 이름 없음,[g] <control> |
Cf | 기타, 형식 | 형식 | 성격 | 170 | 소프트 하이픈, 합류 제어 문자(ZWNJ 및 ZWJ), 양방향 텍스트를 지원하는 제어 문자 및 언어 태그 문자 포함 |
Cs | 기타 대리인 | 대리인 | 없음(UTF-16에만 사용됨) | 2,048(결코 변경되지 않음)[e] | 이름 없음,[g] <대리인> |
코 | 기타사용 | 개인용 | 문자(단, 해석이 지정되지 않음) | 총 137,468개([e]결코 변경되지 않음)(BMP의 경우 6,400개, 플레인 15-16의 경우 131,068개) | 이름 없음,[g] <private-use> |
Cn | 기타, 미할당 | 비문자 | 것은 아니다. | 66 (유니코드 코드 포인트의 범위를 확장하지 않는 한 변경되지 않음)[e] | 이름 없음,[g] <비문자> |
예약한 | 것은 아니다. | 824,652 | 이름 없음,[g] <예약> | ||
|
구두점
문자에는 구두점 문자임을 나타내기 위해 별도의 속성이 있습니다. 속성에는 모두 예/아니오 값이 있습니다. 대시, 따옴표_마크, 문장_터미널, 터미널_문구.
이 구간은 확장이 필요합니다. 추가하여 도움을 줄 수 있습니다. (2012년 2월) |
공백
공백은 타이포그래피 효과에 일반적으로 사용되는 개념입니다. 기본적으로 렌더링된 텍스트에서 띄어쓰기 효과가 있는 보이지 않는 문자를 다룹니다. 공백, 탭 및 새 라인 포맷 컨트롤이 포함되어 있습니다. 유니코드에서 이러한 문자는 "WSpace=yes" 속성 집합을 가집니다. 버전 15.1에는 25개의 공백 문자가 있습니다.
이름. | 코드 포인트 | 너비 상자 | 깨질까요? | 인 IDN? | 대본 | 블록 | 일반 카테고리 | 메모들 | |
---|---|---|---|---|---|---|---|---|---|
문자표 | U+0009 | 9 | 네. | 아니요. | 흔한 | 기본 라틴어 | 다른. 통제 | HT, 수평 탭. HTML/XML 이름 개체: 	 , LaTeX: \tab , C 탈출: \t | |
라인 피드 | U+000A | 10 | 줄이 끊어지는 건가요? | 흔한 | 기본 라틴어 | 다른. 통제 | LF, 라인 피드. HTML/XML 이름 개체: 
 , C 탈출: \n | ||
선표 작성 | U+000B | 11 | 줄이 끊어지는 건가요? | 흔한 | 기본 라틴어 | 다른. 통제 | VT, 수직 탭. C 탈출: \v | ||
사료를 만들다 | U+000C | 12 | 줄이 끊어지는 건가요? | 흔한 | 기본 라틴어 | 다른. 통제 | FF, 폼 피드. C 탈출: \f | ||
객차 반환 | U+000D | 13 | 줄이 끊어지는 건가요? | 흔한 | 기본 라틴어 | 다른. 통제 | CR, 캐리지 리턴. C 탈출: \r | ||
공간 | U+0020 | 32 | 네. | 아니요. | 흔한 | 기본 라틴어 | 구분자, 공간 | 가장 일반적인(일반적인 ASCII 공간). LaTeX: \ | |
다음 줄 | U+0085 | 133 | 줄이 끊어지는 건가요? | 흔한 | 라틴어-1 보충제 | 다른. 통제 | 넬, 다음 줄. LaTeX: \\ | ||
쉴 틈 없는 공간 | U+00A0 | 160 | 아니요. | 아니요. | 흔한 | 라틴어-1 보충제 | 구분자, 공간 | 끊기지 않는 공간: U+0020과 동일하지만 선이 끊어질 수 있는 지점은 아닙니다. HTML/XML 이름 개체: ,   LaTeX: ~ | |
오함 공백 표시 | U+1680 | 5760 | 네. | 아니요. | 오함 | 오함 | 구분자, 공간 | 오함 텍스트의 단어 간 분리에 사용됩니다. 일반적으로 세로 텍스트의 세로 줄 또는 가로 텍스트의 가로 줄이지만 "스템리스" 글꼴의 공백일 수도 있습니다. Ogham 글꼴이 필요합니다. | |
네드의 | U+2000 | 8192 | 네. | 아니요. | 흔한 | 일반 구두점 | 구분자, 공간 | 한 en의 폭. U+2002는 표준적으로 이 문자와 동일하며, U+2002가 선호됩니다. | |
전자파 | U+2001 | 8193 | 네. | 아니요. | 흔한 | 일반 구두점 | 구분자, 공간 | "머튼 쿼드(mutton quad)"라고도 합니다. 한 em의 너비. U+2003은 표준적으로 이 문자와 동일하며, U+2003이 선호됩니다. | |
띄엄띄엄 | U+2002 | 8194 | 네. | 아니요. | 흔한 | 일반 구두점 | 구분자, 공간 | "넛"이라고도 합니다. 한 en의 폭. U+2000 En Quad는 표준적으로 이 문자와 동일하며 U+2002가 선호됩니다. HTML/XML 이름 개체:   , LaTeX: \enspace (LaTeXen 공간은 휴식이 없는 공간입니다.) | |
빈 공간 | U+2003 | 8195 | 네. | 아니요. | 흔한 | 일반 구두점 | 구분자, 공간 | "머튼"이라고도 합니다. 한 em의 너비. U+2001 Em Quad는 표준적으로 이 문자와 동일하며, U+2003이 선호됩니다. HTML/XML 이름 개체:   , LaTeX: \quad | |
한 개당 세 개의 공간 | U+2004 | 8196 | 네. | 아니요. | 흔한 | 일반 구두점 | 구분자, 공간 | "두꺼운 공간"이라고도 합니다. 엠 너비의 3분의 1. HTML/XML 이름 개체:   , LaTeX: \; (LaTeX 두꺼운 공간은 끊김이 없는 공간입니다.) | |
한 개당 네 개의 공간 | U+2005 | 8197 | 네. | 아니요. | 흔한 | 일반 구두점 | 구분자, 공간 | "중간 공간"이라고도 합니다. 엠 너비의 4분의 1. HTML/XML 이름 개체:   | |
한 개당 6개의 공간 | U+2006 | 8198 | 네. | 아니요. | 흔한 | 일반 구두점 | 구분자, 공간 | 엠 너비의 6분의 1. 컴퓨터 타이포그래피에서는 때때로 U+2009와 동일시됩니다. | |
도형 공간 | U+2007 | 8199 | 아니요. | 아니요. | 흔한 | 일반 구두점 | 구분자, 공간 | 도형 공간. 한 자리 숫자의 너비와 동일한 단일 공백 숫자가 있는 글꼴입니다. HTML/XML 이름 개체:   | |
구두점 공간 | U+2008 | 8200 | 네. | 아니요. | 흔한 | 일반 구두점 | 구분자, 공간 | 글꼴의 좁은 구두점, 즉 마침표 또는 쉼표의 전진 폭만큼 넓습니다.[6] HTML/XML 이름 개체:   | |
좁은 공간 | U+2009 | 8201 | 네. | 아니요. | 흔한 | 일반 구두점 | 구분자, 공간 | 얇은 공간; 너비의 5분의 1(때로는 6분의 1). SI 장치로 만든 측정을 위한 수천 개의 분리기로 사용할 것을 권장합니다. U+2002~U+2008과는 달리 입력 설정에서 폭이 조정될 수 있습니다.[7] HTML/XML 이름 개체:   ,   , LaTeX: \, (LaTeX 얇은 공간은 휴식이 없는 공간입니다.) | |
머리 공간 | U+200A | 8202 | 네. | 아니요. | 흔한 | 일반 구두점 | 구분자, 공간 | 얇은 공간보다 얇습니다. HTML/XML 이름 개체:     | |
선 구분자 | U+2028 | 8232 | 줄이 끊어지는 건가요? | 흔한 | 일반 구두점 | 구분자, 선 | |||
단락 구분자 | U+2029 | 8233 | 줄이 끊어지는 건가요? | 흔한 | 일반 구두점 | 구분자, 단락 | |||
쉴 틈 없이 좁은 공간 | U+202F | 8239 | 아니요. | 아니요. | 흔한 | 일반 구두점 | 구분자, 공간 | 공간이 좁습니다. U+00A0 No-Break Space와 기능이 유사합니다. 몽골어와 함께 사용할 때, 몽골어의 너비는 일반적으로 일반 공간의 3분의 1입니다. 다른 맥락에서, 몽골어의 너비는 때때로 얇은 공간(U+2009)의 너비와 비슷합니다. LaTeX: \, | |
중간 정도의 수학적 공간 | U+205F | 8287 | 네. | 아니요. | 흔한 | 일반 구두점 | 구분자, 공간 | 수학 공식에 사용되는 MMSP. 엠의 18분의 4.[8] 수학 타이포그래피에서 공간의 너비는 일반적으로 em의 18분의 1의 정수배로 주어지며, 4/18 em은 예를 들어 a와 + 사이, a + b의 표현에서 +와 b 사이와 같은 여러 상황에서 사용될 수 있습니다.[9] HTML/XML 명명된 엔티티:   , LaTeX: \: (LaTeX 중간 공간은 휴식이 없는 공간입니다.) | |
지리적 공간 | U+3000 | 12288 | 네. | 아니요. | 흔한 | CJK 기호 그리고. 구두점 | 구분자, 공간 | CJK 캐릭터 셀(전체 너비)만큼 넓습니다. 예를 들어, 타이투에서 사용됩니다. |
이름. | 코드 포인트 | 너비 상자 | 깨질까요? | 인 IDN? | 대본 | 블록 | 일반 카테고리 | 메모들 | |
---|---|---|---|---|---|---|---|---|---|
몽골 모음 구분자 | U+180E | 6158 | 네. | 아니요. | 몽골인 | 몽골인 | 다른. 형식 | MVS. 몽골어에서 단어의 마지막 두 문자가 다른 모양을 띠게 하는 데 사용되는 좁은 공간 문자입니다.[10] 이전 버전의 표준에도 불구하고 유니코드 6.3.0에서는 더 이상 공간 문자(Zs 범주)로 분류되지 않습니다. | |
폭이 0인 공간 | U+200B | 8203 | 네. | 아니요. | ? | 일반 구두점 | 다른. 형식 | ZWSP, 0폭 공간. 명시적 띄어쓰기를 사용하지 않는 스크립트를 사용할 때 텍스트 처리 시스템의 단어 경계를 나타내는 데 사용됩니다. 이것은 부드러운 하이픈과 비슷하며, 후자는 음절 경계를 나타내는데 사용되며, 선이 끊어질 때 보이는 하이픈을 표시해야 합니다. HTML/XML 이름 개체: ​ [11][c] | |
0폭 비 join 장치 | U+200C | 8204 | 네. | 문맥[16] 의존적 | ? | 일반 구두점 | 다른. 형식 | ZWNJ, 0폭 비조이너. 그렇지 않으면 연결되는 두 문자 사이에 ZWNJ가 있으면 각각 최종 및 초기 형태로 인쇄됩니다. HTML/XML 이름 개체: ‌ | |
제로 폭 접합기 | U+200D | 8205 | 네. | 문맥[17] 의존적 | ? | 일반 구두점 | 다른. 형식 | ZWJ, 제로폭 조인러. 연결되지 않은 두 문자 사이에 배치되면 ZWJ가 연결된 형태로 인쇄됩니다. 또한 결합 양식을 개별적으로 표시하는 데 사용할 수 있습니다. 결찰 또는 결찰이 기본적으로 예상되는지 여부에 따라 단일 글리프로 (이모지 및 신할라에서와 같이) 대체를 유도하거나 (데바나가리에서와 같이) 억제할 수 있으며, 개별 결합 양식의 사용은 여전히 허용됩니다 (ZWNJ와 달리). HTML/XML 이름 개체: ‍ | |
단어 결합자 | U+2060 | 8288 | 아니요. | 아니요. | ? | 일반 구두점 | 다른. 형식 | WJ, 워드조이너. U+200B와 비슷하지만 선이 끊어질 수 있는 지점은 아닙니다. HTML/XML 이름 개체: ⁠ | |
0폭 비파괴 공간 | U+FEFF | 65279 | 아니요. | 아니요. | ? | 아랍어 발표 양식-B | 다른. 형식 | 0폭 비파괴 공간입니다. 주로 바이트 순서 표시로 사용됩니다. Unicode 3.2에서는 비파괴 표시로 사용하는 것이 권장되지 않습니다. 대신 U+2060을 참조하십시오. |
|
케이싱
Case 값은 Unicode에서 Normataive입니다. 대문자(대소문자, 마쥬스큘)와 소문자(소문자, 마이너스자)가 있는 스크립트와 관련이 있습니다. 아드람어, 아르메니아어, 체로키어, 콥트어, 키릴어, 데세레트어, 글라골리트어, 그리스어, 쿠츠리어 및 음케드룰리어, 라틴어, 메데파이드린어, 옛 헝가리어, 오사지어, 비스쿠키어 및 와랑시티어 문자에서 대소문자 차이가 발생합니다.
(상하,하,타이틀,접기,단순,풀 모두)
이 구간은 확장이 필요합니다. 추가하여 도와주시면 됩니다. (2022년 3월) |
기타 일반적 특성
아이디얼, 알파벳, 비문자.
이 구간은 확장이 필요합니다. 추가하여 도와주시면 됩니다. (2022년 3월) |
결합반
몇 가지 일반적인 코드:
- 0 = 공백 문자, 기호 또는 수식어(예: a, , ʰ)
- 1 = 오버레이
- 6 = Han reading (CJK diacritic reading marks)
- 7 = 누크타 (브람어 문자의 격언 누크타)
- 8 = 카나 음성 표시
- 9 = 비라마
10–199 = 다양한 고정 위치 클래스
기본 문자에 부착되는 표시:
- 200 = 왼쪽 하단에 부착
- 202 = 바로 아래에 부착(예: ç의 세디야)
- 204 = 오른쪽 하단에 부착됨
- 208 = 왼쪽에 붙어 있음
- 210 = 오른쪽에 붙어 있음
- 212 = 왼쪽 상단에 부착됨
- 214 = 바로 위에 부착됨
- 216 = 우측 상단에 부착
밑줄 문자에 붙지 않는 표시:
- 218 = 왼쪽 아래
- 220 = 바로 아래(예: n ̥의 링)
- 222 = 오른쪽 아래
- 224 = 왼쪽
- 226 = 오른쪽
- 228 = 왼쪽 위
- 230 = 위(예: α의 급성 악센트)
- 232 = 오른쪽 위
- 233 = 아래 2배 (subt는 2개의 베이스를 종료함)
- 234 = 2배 이상 (extends 2 베이스)
- 240 = iota 첨자(그 그리스어 디아크리틱만 해당)
쌍방향쓰기
양방향 쓰기와 관련된 여섯 가지 문자 속성: Bidi_Class, Bidi_Control, Bidi_Mirroring, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket 및 Bidi_Paired_Bracket_Type.
유니코드의 주요 기능 중 하나는 양방향(Bidi) 텍스트 표시를 오른쪽에서 왼쪽으로(R-to-L) 및 왼쪽에서 오른쪽으로(L-to-R) 지원하는 것입니다. Unicode Bidirectional Algorithm UAX9은[19] 스크립트 방향을 변경하여 텍스트를 제시하는 과정을 설명합니다. 예를 들어, 영어 텍스트로 히브리어 인용문을 사용할 수 있습니다. Bidi_Character_Type은 방향성 쓰기에서 캐릭터의 행동을 표시합니다. 방향을 재정의하기 위해 유니코드는 특수 포맷 제어 문자(Bidi-Controls)를 정의했습니다. 이러한 문자는 방향을 강제할 수 있으며 정의상 양방향 쓰기에만 영향을 미칩니다.
각 코드 포인트에는 Bidi_Class라는 속성이 있습니다. 알고리즘이 해석하는 양방향 텍스트로 동작을 정의합니다.
유형[2] | 묘사 | 힘 | 방향성 | 일반범위 | Bidi_Control 문자[3] |
---|---|---|---|---|---|
L | 왼쪽에서 오른쪽으로 | 강한. | L-to-R | 대부분의 알파벳 문자 및 음절 문자, 한자, 비유럽 문자 또는 아랍 문자가 아닌 숫자, LRM 문자, ... | U+200E 좌우 마크(LRM) |
R | 오른쪽에서 왼쪽으로 | 강한. | R-to-L | 아들람, 히브리어, 만다이크, 멘데 키카쿠이, 은코, 사마리아인, 카로시티, 나바타에안과 같은 고대 문자, RLM 문자, ... | U+200F 오른쪽에서 왼쪽으로 표시(RLM) |
AL | 아랍 문자 | 강한. | R-to-L | 아랍어, 하니피 로힝야어, 소그드어, 시리아어, 타아나 알파벳, 그리고 그 스크립트들에 특정한 대부분의 문장, ALM 문자... | U+061C ARABIC 문자 표시(ALM) |
EN | 유러피언 넘버 | 약한 | 유럽 숫자, 동 아랍어-인디 숫자, 콥트 문자 번호, ... | ||
ES | 유러피언 세퍼레이터 | 약한 | 더하기 기호, 빼기 기호, ... | ||
ET | 유러피언 넘버 터미네이터 | 약한 | 도 기호, 통화 기호, ... | ||
AN | 아랍어 숫자 | 약한 | 아랍어-인디 숫자, 아랍어 10진수 및 수천 개의 구분자, 루미 숫자, 하니피 로힝야 숫자, ... | ||
CS | 공용 번호 구분자 | 약한 | 콜론, 쉼표, 완전 중지, 공백 없음, ... | ||
NSM | 공백 없음 표시 | 약한 | 일반 범주 마크, 공백 없음 및 마크, 엔클루싱(Mn, Me)의 문자 | ||
BN | 경계 중립 | 약한 | 기본 무시할 수 있는 문자, 비문자, 명시적으로 지정된 다른 유형 이외의 제어 문자 | ||
B | 단락 구분자 | 뉴트럴 | 단락 구분자, 적절한 Newline Functions, 상위 수준 프로토콜 단락 결정 | ||
S | 세그먼트 구분자 | 뉴트럴 | 탭 | ||
WS | 공백 | 뉴트럴 | 공간, 도형 공간, 줄 구분자, 폼 피드, 일반 문장 부호 블록 공간(유니코드 공백 목록보다 작은 집합) | ||
ON | 기타 뉴트럴 | 뉴트럴 | 개체 대체 문자를 포함한 기타 모든 문자 | ||
LRE | 왼쪽에서 오른쪽으로 임베딩 | 명시적 | L-to-R | LRE 문자만 | U+202A 좌우 임베딩(LRE) |
LRO | 왼쪽에서 오른쪽으로 재정의 | 명시적 | L-to-R | LRO 문자만 | U+202D 좌우 오버라이드(LRO) |
롤 | 오른쪽에서 왼쪽으로 임베딩 | 명시적 | R-to-L | RLE 문자만 | U+202B 오른쪽에서 왼쪽으로 임베딩(RL) |
RLO | 오른쪽에서 왼쪽으로 재정의 | 명시적 | R-to-L | RLO 문자만 | U+202E 오른쪽에서 왼쪽으로 RLO(Right-to-Left Override) |
팝 방향 형식 | 명시적 | PDF 문자만 해당 | U+202C POP 방향 포맷(PDF) | ||
LRI | 왼쪽에서 오른쪽으로 분리 | 명시적 | L-to-R | LRI 문자만 | U+2066 왼쪽에서 오른쪽으로 분리(LRI) |
RLI | 오른쪽에서 왼쪽으로 분리 | 명시적 | R-to-L | RLI 문자만 | U+2067 오른쪽에서 왼쪽으로 분리(RLI) |
FSI | 최초의 강력한 격리 | 명시적 | FSI 문자만 | U+2068 FSI(First Strong Isolate) | |
PDI | 팝 방향 격리판 | 명시적 | PDI 문자만 | U+2069 POP 방향 격리 장치(PDI) | |
메모들
|
정상적인 상황에서 알고리즘은 이 문자 속성에 따라 텍스트의 방향을 결정할 수 있습니다. 영어 텍스트에 히브리어 인용문이 있는 경우와 같이 더 복잡한 Bidi 상황을 제어하기 위해 유니코드에 추가 옵션이 추가됩니다. 12자는 Bidi_Control= 속성을 갖습니다.예: 표에 기재된 대로 ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM 및 RLO입니다. 이들은 보이지 않는 포맷 제어 문자로, 알고리즘에서만 사용되며 양방향 포맷 이외에는 아무런 영향을 미치지 않습니다.[19] 이름에도 불구하고 컨트롤 문자가 아닌 문자를 포맷하고 있으며 유니코드 정의에 일반 범주 "기타, 포맷(Cf)"이 있습니다.
기본적으로 알고리즘은 특별한 Bidi-control에 의한 재정의를 고려하여 동일한 강한 방향 유형(R-to-L 또는 L-to-R)을 가진 문자 시퀀스를 결정합니다. 숫자 문자열(약한 유형)은 중립 문자와 마찬가지로 강력한 환경에 따라 방향이 할당됩니다. 마지막으로 문자열의 방향에 따라 문자가 표시됩니다.
양방향 텍스트에서 글리프의 미러 이미지를 결정하는 데 관련된 두 가지 문자 속성: Bidi_Mirrored=예는 R-to-L로 작성할 때 글리프를 미러링해야 함을 나타냅니다. 그러면 Bidi_Mirroring_Glyph=U+hhhhhh 속성이 미러링된 문자를 가리킬 수 있습니다. 예를 들어 괄호(")는 이런 식으로 미러링됩니다. 아랍어와 같은 필기체 스크립트를 만들고 방향이 있는 미러링 글리프를 만드는 것은 알고리즘에 포함되지 않습니다.
숫자 값 및 유형
십진법
문자는 숫자 유형으로 분류됩니다.[1] 분수, 첨자, 위첨자, 로마 숫자, 통화 분자, 에워싸인 숫자, 스크립트별 숫자 등의 문자를 숫자 형식으로 입력합니다. 숫자는 0과 음수를 포함하여 10진수 또는 저속 분수를 포함할 수 있습니다. 대부분의 문자와 마찬가지로 이러한 값이 없는 경우 숫자 유형은 "없음"입니다.
숫자 값을 갖는 문자는 세 그룹으로 구분됩니다. 10진수(De), 숫자(Di) 및 숫자(Nu, 다른 모든 것). "10진수"는 문자가 곧은 소수점 숫자임을 의미합니다. 연속 인코딩된 범위 0의 일부인 문자만..9는 숫자 형식 10진수입니다. 위첨자와 같은 다른 숫자에는 숫자 형식의 숫자가 있습니다. 분수나 로마 숫자와 같은 모든 숫자 문자는 "숫자"로 끝납니다. 의도된 효과는 숫자 위첨자나 분수로 주의를 산만하게 하지 않고 단순한 파서가 이러한 십진 숫자 값을 사용할 수 있다는 것입니다. 회계에 사용되는 숫자를 포함하여 숫자를 나타내는 83개의 CJK 아이디그래프는 숫자를 입력합니다.
반면, 두 번째 의미로 숫자 값을 가질 수 있는 문자는 여전히 숫자 유형 "없음"으로 표시되며 숫자 값(")이 없습니다. 예를 들어, 라틴 문자는 "II.A.1.b"와 같은 문단 번호에 사용할 수 있지만, 문자 "I", "A" 및 "b"는 숫자가 아니며("없음" 유형) 숫자 값이 없습니다.
[a][b] (유니코드 문자 속성) | 숫자 유형||||
---|---|---|---|---|
숫자형 | 코드 | 숫자 값을 갖습니다. | 예 | 언급 |
숫자 아님 | <none> | 아니요. |
| 숫자 값="NaN" |
십진법 | De | 네. |
| 직선 숫자(10진법-라딕스). General Category=Nd와 양방향 대응 |
디지트 | Di | 네. |
| 십진법이지만 타이포그래픽 컨텍스트에서 |
숫자 | Nu | 네. |
| 숫자 값이지만 십진법은 아닙니다. |
a. ^ | ||||
b. ^ |
16진수
16진수 문자는 16진수 값이 0...9인 계열 문자입니다.ABCDEF(16자, 10진수 값 0~15). 문자 속성 Hex_Digit은 문자가 이러한 시리즈에 있을 때 Yes로 설정됩니다.
유니코드 표기 문자 Hex_Digit=Yes [a] | |||
---|---|---|---|
0123456789ABCDEF | 기본 라틴어, 대문자 | 또한. ASCII_Hex_Digit=Yes | |
0123456789abcdef | 기본 라틴어, 작은 글자 | 또한. ASCII_Hex_Digit=Yes | |
0123456789ABCDEF | 전체 너비 양식, 대문자 | ||
0123456789abcdef | 전체 너비 양식, 작은 문자 | ||
a. ^ |
44자는 Hex_Digit로 표시됩니다. Basic Latin 블록에 있는 블록도 ASCII_Hex_Digit로 표시됩니다.
유니코드에는 16진수 값에 대한 별도의 문자가 없습니다. 결과적으로 일반 문자를 사용할 때 16진수 값이 의도된 것인지 또는 값이 의도된 것인지 여부를 결정할 수 없습니다. 예를 들어 16진수에 "0x"를 추가하거나 문맥에 따라 추가하여 더 높은 수준에서 결정해야 합니다. 유일한 기능은 유니코드가 시퀀스가 16진수 값일 수도 있고 아닐 수도 있다는 점에 주목할 수 있다는 것입니다.
블록
블록은 고유하게 명명된 연속된 코드 포인트 범위입니다. 첫 번째와 마지막 코드 포인트로 식별됩니다. 블록은 겹치지 않습니다. 블록에는 예약되어 있거나 할당되지 않은 코드 포인트 등이 포함될 수 있습니다. 할당된 각 문자는 유니코드 버전 15.1에서 할당된 328개의 이름에서 하나의 "블록 이름" 값을 갖습니다. 기존 블록 외부의 할당되지 않은 코드 포인트는 기본값 "No_block"입니다.
비행기 | 블럭범위 | 블록명 | 코드 포인트[a] | 할당된 문자 | 스크립트[b][c][d][e][f] |
---|---|---|---|---|---|
0 BMP | U+0000..U+007F | 기본 라틴어[g] | 128 | 128 | 라틴어(52자), 공용(76자) |
0 BMP | U+0080..U+00FF | 라틴어-1 보충어[h] | 128 | 128 | 라틴어(64자), 공용(64자) |
0 BMP | U+0100..U+017F | 라틴어 확장-A | 128 | 128 | 라틴어 |
0 BMP | U+0180..U+024F | 라틴어 확장-B | 208 | 208 | 라틴어 |
0 BMP | U+0250..U+02AF | IPA 확장자 | 96 | 96 | 라틴어 |
0 BMP | U+02B0..U+02FF | 간격 수정자 문자 | 80 | 80 | 보포모포(2자), 라틴어(14자), 공용(64자) |
0 BMP | U+0300..U+036F | 격음 표시 결합 | 112 | 112 | 상속 |
0 BMP | U+0370..U+03FF | 그리스어와 콥트어 | 144 | 135 | 콥트어(14자), 그리스어(117자), 공용(4자) |
0 BMP | U+0400..U+04FF | 키릴식 | 256 | 256 | 키릴 문자(254자), 상속(2자) |
0 BMP | U+0500..U+052F | 키릴 보충제 | 48 | 48 | 키릴식 |
0 BMP | U+0530..U+058F | 아르메니아어 | 96 | 91 | 아르메니아어 |
0 BMP | U+0590..U+05FF | 히브리어 | 112 | 88 | 히브리어 |
0 BMP | U+0600..U+06FF | 아랍어 | 256 | 256 | 아랍어(238자), 공용(6자), 상속(12자) |
0 BMP | U+0700..U+074F | 시리아어 | 80 | 77 | 시리아어 |
0 BMP | U+0750..U+077F | 아랍어 보충어 | 48 | 48 | 아랍어 |
0 BMP | U+0780..U+07BF | 타아나 | 64 | 50 | 타아나 |
0 BMP | U+07C0..U+07FF | 엔코 | 64 | 62 | N’Ko |
0 BMP | U+0800..U+083F | 사마리아인 | 64 | 61 | 사마리아인 |
0 BMP | U+0840..U+085F | 만다이크 | 32 | 29 | 만다이크 |
0 BMP | U+0860..U+086F | 시리아 보충제 | 16 | 11 | 시리아어 |
0 BMP | U+0870..U+089F | 아랍어 확장-B | 48 | 41 | 아랍어 |
0 BMP | U+08A0..U+08FF | 아랍어 확장-A | 96 | 96 | 아랍어(95자), 공용(1자) |
0 BMP | U+0900..U+097F | 데바나가리 | 128 | 128 | 데바나가리(122자), 공용(2자), 상속(4자) |
0 BMP | U+0980..U+09FF | 벵골어 | 128 | 96 | 벵골어 |
0 BMP | U+0A00..U+0A7F | 구르무키 | 128 | 80 | 구르무키 |
0 BMP | U+0A80..U+0AFF | 구자라트어 | 128 | 91 | 구자라트어 |
0 BMP | U+0B00..U+0B7F | 오리야 | 128 | 91 | 오리야 |
0 BMP | U+0B80..U+0BFF | 타밀어 | 128 | 72 | 타밀어 |
0 BMP | U+0C00..U+0C7F | 텔루구 | 128 | 100 | 텔루구 |
0 BMP | U+0C80..U+0CFF | 칸나다 | 128 | 91 | 칸나다 |
0 BMP | U+0D00..U+0D7F | 말라얄람어 | 128 | 118 | 말라얄람어 |
0 BMP | U+0D80..U+0DFF | 신할라 | 128 | 91 | 신할라 |
0 BMP | U+0E00..U+0E7F | 타이어 | 128 | 87 | 태국어(86자), 공용(1자) |
0 BMP | U+0E80..U+0EFF | 라오 | 128 | 83 | 라오 |
0 BMP | U+0F00..U+0FF | 티베트어 | 256 | 211 | 티베트어(207자), 공용(4자) |
0 BMP | U+1000..U+109F | 미얀마 | 160 | 160 | 미얀마 |
0 BMP | U+10A0..U+10FF | 그루지야인 | 96 | 88 | 조지아어(87자), 공용(1자) |
0 BMP | U+1100..U+11FF | 한글 자모 | 256 | 256 | 한글 |
0 BMP | U+1200..U+137F | 에티오피아의 | 384 | 358 | 에티오피아의 |
0 BMP | U+1380..U+139F | 에티오피아 보충제 | 32 | 26 | 에티오피아의 |
0 BMP | U+13A0..U+13FF | 체로키 | 96 | 92 | 체로키 |
0 BMP | U+1400..U+167F | 캐나다 원주민 통합 강의 계획서 | 640 | 640 | 캐나다 원주민 |
0 BMP | U+1680..U+169F | 오함 | 32 | 29 | 오함 |
0 BMP | U+16A0..U+16FF | 루닉 | 96 | 89 | Runic(86자), Common(3자) |
0 BMP | U+1700..U+171F | 타갈로그어 | 32 | 23 | 타갈로그어 |
0 BMP | U+1720..U+173F | 하누누 | 32 | 23 | 하누누(21자), 공용(2자) |
0 BMP | U+1740..U+175F | 부히드 | 32 | 20 | 부히드 |
0 BMP | U+1760..U+177F | 타그반와 | 32 | 18 | 타그반와 |
0 BMP | U+1780..U+17FF | 크메르어 | 128 | 114 | 크메르어 |
0 BMP | U+1800..U+18AF | 몽골인 | 176 | 158 | 몽골어(155자), 공용(3자) |
0 BMP | U+18B0..U+18FF | 통합 캐나다 원주민 강의 계획서 확장 | 80 | 70 | 캐나다 원주민 |
0 BMP | U+1900..U+194F | 임부 | 80 | 68 | 임부 |
0 BMP | U+1950..U+197F | 타이 르 | 48 | 35 | 타이 르 |
0 BMP | U+1980..U+19DF | 뉴타이루 | 96 | 83 | 뉴타이루 |
0 BMP | U+19E0..U+19FF | 크메르 기호 | 32 | 32 | 크메르어 |
0 BMP | U+1A00..U+1A1F | 부기네세 | 32 | 30 | 부기네세 |
0 BMP | U+1A20..U+1AAF | 타이텀 | 144 | 127 | 타이텀 |
0 BMP | U+1AB0..U+1AFF | 확장된 다이아크리티컬 마크 결합 | 80 | 31 | 상속 |
0 BMP | U+1B00..U+1B7F | 발리어 | 128 | 124 | 발리어 |
0 BMP | U+1B80..U+1BBF | 순다네시 | 64 | 64 | 순다네시 |
0 BMP | U+1BC0..U+1BFF | 바탁 | 64 | 56 | 바탁 |
0 BMP | U+1C00..U+1C4F | 렙차 | 80 | 74 | 렙차 |
0 BMP | U+1C50..U+1C7F | 올치키 | 48 | 48 | 올치키 |
0 BMP | U+1C80..U+1C8F | 키릴 확장-C | 16 | 9 | 키릴식 |
0 BMP | U+1C90..U+1CBF | 조지아 익스텐디드 | 48 | 46 | 그루지야인 |
0 BMP | U+1CC0..U+1CCF | 순다네쉬 보약 | 16 | 8 | 순다네시 |
0 BMP | U+1CD0..U+1CFF | Vedic Extensions | 48 | 43 | 공용(16자), 상속(27자) |
0 BMP | U+1D00..U+1D7F | 음성 확장자 | 128 | 128 | 키릴 문자(2자), 그리스 문자(15자), 라틴 문자(111자) |
0 BMP | U+1D80..U+1DBF | 음성 확장 기능 보충 기능 | 64 | 64 | 그리스어(1자), 라틴어(63자) |
0 BMP | U+1DC0..U+1DFF | 단열 마크 보충 결합 | 64 | 64 | 상속 |
0 BMP | U+1E00..U+1EFF | 라틴어 확장 추가 기능 | 256 | 256 | 라틴어 |
0 BMP | U+1F00..U+1FF | 그릭 익스텐디드 | 256 | 233 | 그리스어 |
0 BMP | U+2000..U+206F | 일반 구두점 | 112 | 111 | 공용(109자), 상속(2자) |
0 BMP | U+2070..U+209F | 위첨자 및 아래첨자 | 48 | 42 | 라틴어(15자), 공용(27자) |
0 BMP | U+20A0..U+20CF | 통화 기호 | 48 | 33 | 흔한 |
0 BMP | U+20D0..U+20FF | 기호에 대한 눈금 표시 결합 | 48 | 33 | 상속 |
0 BMP | U+2100..U+214F | 문자와 같은 기호 | 80 | 80 | 그리스어(1자), 라틴어(4자), 공용(75자) |
0 BMP | U+2150..U+218F | 번호 양식 | 64 | 60 | 라틴어(41자), 공용(19자) |
0 BMP | U+2190..U+21FF | 화살표 | 112 | 112 | 흔한 |
0 BMP | U+2200..U+22FF | 수학 연산자 | 256 | 256 | 흔한 |
0 BMP | U+2300..U+23FF | 기타 기술 | 256 | 256 | 흔한 |
0 BMP | U+2400..U+243F | 컨트롤 픽처스 | 64 | 39 | 흔한 |
0 BMP | U+2440..U+245F | 광학식 문자 인식 | 32 | 11 | 흔한 |
0 BMP | U+2460..U+24FF | 동봉된 영숫자 | 160 | 160 | 흔한 |
0 BMP | U+2500..U+257F | 상자 그리기 | 128 | 128 | 흔한 |
0 BMP | U+2580..U+259F | 블록 요소 | 32 | 32 | 흔한 |
0 BMP | U+25A0..U+25FF | 기하학적 도형 | 96 | 96 | 흔한 |
0 BMP | U+2600..U+26FF | 기타 기호 | 256 | 256 | 흔한 |
0 BMP | U+2700..U+27BF | 딩바츠 | 192 | 192 | 흔한 |
0 BMP | U+27C0..U+27EF | 기타 수학 기호-A | 48 | 48 | 흔한 |
0 BMP | U+27F0..U+27FF | 추가 화살표-A | 16 | 16 | 흔한 |
0 BMP | U+2800..U+28FF | 점자 패턴 | 256 | 256 | 점자 |
0 BMP | U+2900..U+297F | 추가 화살표-B | 128 | 128 | 흔한 |
0 BMP | U+2980..U+29FF | 기타 수학 기호-B | 128 | 128 | 흔한 |
0 BMP | U+2A00..U+2AFF | 보충 수학 연산자 | 256 | 256 | 흔한 |
0 BMP | U+2B00..U+2BFF | 기타 기호 및 화살표 | 256 | 253 | 흔한 |
0 BMP | U+2C00..U+2C5F | 글래그리티컬 | 96 | 96 | 글래그리티컬 |
0 BMP | U+2C60..U+2C7F | 라틴어 확장-C | 32 | 32 | 라틴어 |
0 BMP | U+2C80..U+2CFF | 콥트어 | 128 | 123 | 콥트어 |
0 BMP | U+2D00..U+2D2F | 그루지야 보충제 | 48 | 40 | 그루지야인 |
0 BMP | U+2D30..U+2D7F | 티피나그 | 80 | 59 | 티피나그 |
0 BMP | U+2D80..U+2DDF | 에티오피아 확장국 | 96 | 79 | 에티오피아의 |
0 BMP | U+2DE0..U+2DFF | 키릴 확장-A | 32 | 32 | 키릴식 |
0 BMP | U+2E00..U+2E7F | 보충 구두점 | 128 | 94 | 흔한 |
0 BMP | U+2E80..U+2EFF | CJK 래디컬 보충제 | 128 | 115 | 한 |
0 BMP | U+2F00..U+2FDF | 강시 래디칼 | 224 | 214 | 한 |
0 BMP | U+2FF0..U+2FF | 이미지 설명 문자 | 16 | 16 | 흔한 |
0 BMP | U+3000..U+303F | CJK 기호와 문장부호 | 64 | 64 | 한(15자), 한글(2자), 공통(43자), 상속(4자) |
0 BMP | U+3040..U+309F | 히라가나 | 96 | 93 | 히라가나(89자), 공용(2자), 상속(2자) |
0 BMP | U+30A0..U+30FF | 가타카나 | 96 | 96 | 카타카나(93자), 공용(3자) |
0 BMP | U+3100..U+312F | 보포모포 | 48 | 43 | 보포모포 |
0 BMP | U+3130..U+318F | 한글 호환 자모 | 96 | 94 | 한글 |
0 BMP | U+3190..U+319F | 간분 | 16 | 16 | 흔한 |
0 BMP | U+31A0..U+31BF | 보포모포 확장 | 32 | 32 | 보포모포 |
0 BMP | U+31C0..U+31EF | CJK 스트로크 | 48 | 37 | 흔한 |
0 BMP | U+31F0..U+31FF | 가타카나 음역대 | 16 | 16 | 가타카나 |
0 BMP | U+3200..U+32FF | 동봉된 CJK 문자 및 월 | 256 | 255 | 한글(62자), 가타카나(47자), 공용(146자) |
0 BMP | U+3300..U+33FF | CJK 호환성 | 256 | 256 | 카타카나(88자), 공용(168자) |
0 BMP | U+3400..U+4DBF | CJK Unified Ideographs Extension A | 6,592 | 6,592 | 한 |
0 BMP | U+4DC0..U+4DFF | 베이징 육각형 기호 | 64 | 64 | 흔한 |
0 BMP | U+4E00..U+9FF | CJK 통합 아이디어 | 20,992 | 20,992 | 한 |
0 BMP | U+A000..U+A48F | 이음절 | 1,168 | 1,165 | 이 |
0 BMP | U+A490..U+A4CF | 이라디칼 | 64 | 55 | 이 |
0 BMP | U+A4D0..U+A4FF | 리수 | 48 | 48 | 리수 |
0 BMP | U+A500..U+A63F | 바이 | 320 | 300 | 바이 |
0 BMP | U+A640..U+A69F | 키릴 확장-B | 96 | 96 | 키릴식 |
0 BMP | U+A6A0..U+A6FF | 바움 | 96 | 88 | 바움 |
0 BMP | U+A700..U+A71F | 수식어 톤 문자 | 32 | 32 | 흔한 |
0 BMP | U+A720..U+A7FF | 라틴어 확장-D | 224 | 193 | 라틴어(188자), 공용(5자) |
0 BMP | U+A800..U+A82F | Syloti Nagri | 48 | 45 | Syloti Nagri |
0 BMP | U+A830..U+A83F | 공통 표시 번호 양식 | 16 | 10 | 흔한 |
0 BMP | U+A840..U+A87F | 파그스파 | 64 | 56 | 파그스파 |
0 BMP | U+A880..U+A8DF | 사우라슈트라 주 | 96 | 82 | 사우라슈트라 주 |
0 BMP | U+A8E0..U+A8FF | 데바나가리 확장판 | 32 | 32 | 데바나가리 |
0 BMP | U+A900..U+A92F | 카야 리 | 48 | 48 | Kayah Li (47자), 공용 (1자) |
0 BMP | U+A930..U+A95F | 레장 | 48 | 37 | 레장 |
0 BMP | U+A960..U+A97F | 한글 자모 확장-A | 32 | 29 | 한글 |
0 BMP | U+A980..U+A9DF | 자바어 | 96 | 91 | 자바어(90자), 공용(1자) |
0 BMP | U+A9E0..U+A9FF | 미얀마 익스텐디드-B | 32 | 31 | 미얀마 |
0 BMP | U+AA00..U+AA5F | 참 | 96 | 83 | 참 |
0 BMP | U+AA60..U+AA7F | 미얀마 익스텐디드-A | 32 | 32 | 미얀마 |
0 BMP | U+AA80..U+AADF | 타이 비엣 | 96 | 72 | 타이 비엣 |
0 BMP | U+AAE0..U+AAFF | 미테이 메이크 익스텐션 | 32 | 23 | 미테이 메이크 |
0 BMP | U+AB00..U+AB2F | 에티오피아 확장-A | 48 | 32 | 에티오피아의 |
0 BMP | U+AB30..U+AB6F | 라틴어 확장-E | 64 | 60 | 라틴어(56자), 그리스어(1자), 공용(3자) |
0 BMP | U+AB70..U+ABBF | 체로키 보충제 | 80 | 80 | 체로키 |
0 BMP | U+ABC0..U+ABFF | 미테이 메이크 | 64 | 56 | 미테이 메이크 |
0 BMP | U+AC00..U+D7AF | 한글 음절 | 11,184 | 11,172 | 한글 |
0 BMP | U+D7B0..U+D7FF | 한글자모 확장-B | 80 | 72 | 한글 |
0 BMP | U+D800..U+DB7F | 높은 대리인 | 896 | 0 | 알 수 없는 |
0 BMP | U+DB80..U+DBFF | 개인 사용량이 많은 대리인 | 128 | 0 | 알 수 없는 |
0 BMP | U+DC00..U+DFFF | 낮은 대리인 | 1,024 | 0 | 알 수 없는 |
0 BMP | U+E000..U+F8FF | 개인 용도 지역 | 6,400 | 6,400 | 알 수 없는 |
0 BMP | U+F900..U+FAFF | CJK 호환성 아이디어 | 512 | 472 | 한 |
0 BMP | U+FB00..U+FB4F | 알파벳 표시 양식 | 80 | 58 | 아르메니아어(5자), 히브리어(46자), 라틴어(7자) |
0 BMP | U+FB50..U+FDFF | 아랍어 프레젠테이션 양식-A | 688 | 631 | 아랍어(629자), 공용(2자) |
0 BMP | U+FE00..U+FE0F | 변동 선택기 | 16 | 16 | 상속 |
0 BMP | U+FE10..U+FE1F | 수직 양식 | 16 | 10 | 흔한 |
0 BMP | U+FE20..U+FE2F | 반점 결합 | 16 | 16 | 키릴 문자(2자), 상속(14자) |
0 BMP | U+FE30..U+FE4F | CJK 호환 양식 | 32 | 32 | 흔한 |
0 BMP | U+FE50..U+FE6F | 소형 폼 변형 | 32 | 26 | 흔한 |
0 BMP | U+FE70..U+FEFF | 아랍어 프레젠테이션 양식-B | 144 | 141 | 아랍어(140자), 공용(1자) |
0 BMP | U+FF00..U+FFEF | 절반 너비 및 전체 너비 양식 | 240 | 225 | 한글(52자), 가타카나(55자), 라틴(52자), 공용(66자) |
0 BMP | U+FFF0..U+FFFF | 스페셜 | 16 | 5 | 흔한 |
1 SMP | U+10000..U+1007F | 선형 B 강의 계획서 | 128 | 88 | 선형 B |
1 SMP | U+10080..U+100FF | 선형 Bidograms | 128 | 123 | 선형 B |
1 SMP | U+10100..U+1013F | 에게 해의 숫자 | 64 | 57 | 흔한 |
1 SMP | U+10140..U+1018F | 고대 그리스 숫자 | 80 | 79 | 그리스어 |
1 SMP | U+10190..U+101CF | 고대 기호 | 64 | 14 | 그리스어(1자), 공용(13자) |
1 SMP | U+101D0..U+101FF | 페이스토스 디스크 | 48 | 46 | 공용(45자), 상속(1자) |
1 SMP | U+10280..U+1029F | 리시안 | 32 | 29 | 리시안 |
1 SMP | U+102A0..U+102DF | 카리안 | 64 | 49 | 카리안 |
1 SMP | U+102E0..U+102FF | 콥트 에팩트 번호 | 32 | 28 | 공용(27자), 상속(1자) |
1 SMP | U+10300..U+1032F | 고대 이탈리아어 | 48 | 39 | 고대 이탈리아어 |
1 SMP | U+10330..U+1034F | 고딕식 | 32 | 27 | 고딕식 |
1 SMP | U+10350..U+1037F | 올드 퍼믹 | 48 | 43 | 올드 퍼믹 |
1 SMP | U+10380..U+1039F | 우가리트어 | 32 | 31 | 우가리트어 |
1 SMP | U+103A0..U+103DF | 고대 페르시아어 | 64 | 50 | 고대 페르시아어 |
1 SMP | U+10400..U+1044F | 사막 | 80 | 80 | 사막 |
1 SMP | U+10450..U+1047F | 샤비안 | 48 | 48 | 샤비안 |
1 SMP | U+10480..U+104AF | 오스마니야 | 48 | 40 | 오스마니야 |
1 SMP | U+104B0..U+104FF | 오세이지 | 80 | 72 | 오세이지 |
1 SMP | U+10500..U+1052F | 엘바산 | 48 | 40 | 엘바산 |
1 SMP | U+10530..U+1056F | 캅카스 알바니아어 | 64 | 53 | 캅카스 알바니아어 |
1 SMP | U+10570..U+105BF | 비스쿠키 | 80 | 70 | 비스쿠키 |
1 SMP | U+10600..U+1077F | 선형 A | 384 | 341 | 선형 A |
1 SMP | U+10780..U+107BF | 라틴어 확장-F | 64 | 57 | 라틴어 |
1 SMP | U+10800..U+1083F | 키프로스어 강의 계획서 | 64 | 55 | 키프로스어 |
1 SMP | U+10840..U+1085F | 제국 아람어 | 32 | 31 | 제국 아람어 |
1 SMP | U+10860..U+1087F | 팔미렌 | 32 | 32 | 팔미렌 |
1 SMP | U+10880..U+108AF | 나바태안 | 48 | 40 | 나바태안 |
1 SMP | U+108E0..U+108FF | 하트란 | 32 | 26 | 하트란 |
1 SMP | U+10900..U+1091F | 페니키아인 | 32 | 29 | 페니키아인 |
1 SMP | U+10920..U+1093F | 리디안 | 32 | 27 | 리디안 |
1 SMP | U+10980..U+1099F | 메로이트 상형문자 | 32 | 32 | 메로이트 상형문자 |
1 SMP | U+109A0..U+109FF | 메로이트 필기체 | 96 | 90 | 메로이트 필기체 |
1 SMP | U+10A00..U+10A5F | Kharoshthi | 96 | 68 | Kharoshthi |
1 SMP | U+10A60..U+10A7F | 구남아라비아 | 32 | 32 | 구남아라비아 |
1 SMP | U+10A80..U+10A9F | 옛 북아라비안 | 32 | 32 | 옛 북아라비안 |
1 SMP | U+10AC0..U+10AFF | 마니교 | 64 | 51 | 마니교 |
1 SMP | U+10B00..U+10B3F | 아베스탄 | 64 | 61 | 아베스탄 |
1 SMP | U+10B40..U+10B5F | 비문 파르티아어 | 32 | 30 | 비문 파르티아어 |
1 SMP | U+10B60..U+10B7F | 비문 팔라비 | 32 | 27 | 비문 팔라비 |
1 SMP | U+10B80..U+10BAF | Psalter Pahlavi | 48 | 29 | Psalter Pahlavi |
1 SMP | U+10C00..U+10C4F | 튀르크어족 | 80 | 73 | 튀르크어족 |
1 SMP | U+10C80..U+10CFF | 옛 헝가리어 | 128 | 108 | 옛 헝가리어 |
1 SMP | U+10D00..U+10D3F | 하니피 로힝야 | 64 | 50 | 하니피 로힝야 |
1 SMP | U+10E60..U+10E7F | 루미 숫자 기호 | 32 | 31 | 아랍어 |
1 SMP | U+10E80..U+10EBF | 예지디 | 64 | 47 | 예지디 |
1 SMP | U+10EC0..U+10EFF | 아랍어 확장-C | 64 | 3 | 아랍어 |
1 SMP | U+10F00..U+10F2F | 올드 소그디안 | 48 | 40 | 올드 소그디안 |
1 SMP | U+10F30..U+10F6F | 소그디안 | 64 | 42 | 소그디안 |
1 SMP | U+10F70..U+10FAF | Old Uyghur | 64 | 26 | Old Uyghur |
1 SMP | U+10FB0..U+10FDF | 코라스미안 | 48 | 28 | 코라스미안 |
1 SMP | U+10FE0..U+10FF | 엘리마익 | 32 | 23 | 엘리마익 |
1 SMP | U+11000..U+1107F | 브라흐미 | 128 | 115 | 브라흐미 |
1 SMP | U+11080..U+110CF | 카이티 | 80 | 68 | 카이티 |
1 SMP | U+110D0..U+110FF | 소라 솜펑 | 48 | 35 | 소라 솜펑 |
1 SMP | U+11100..U+1114F | 차크마 | 80 | 71 | 차크마 |
1 SMP | U+11150..U+1117F | 마하자니 | 48 | 39 | 마하자니 |
1 SMP | U+11180..U+111DF | 샤라다 | 96 | 96 | 샤라다 |
1 SMP | U+111E0..U+111FF | 신할라 고대 숫자 | 32 | 20 | 신할라 |
1 SMP | U+11200..U+1124F | 코지키 | 80 | 65 | 코지키 |
1 SMP | U+11280..U+112AF | 물타니 | 48 | 38 | 물타니 |
1 SMP | U+112B0..U+112FF | 쿠다와디 | 80 | 69 | 쿠다와디 |
1 SMP | U+11300..U+1137F | 그란타 | 128 | 86 | Grantha(85자), 상속(1자) |
1 SMP | U+11400..U+1147F | 뉴아 | 128 | 97 | 뉴아 |
1 SMP | U+11480..U+114DF | 티르후타 | 96 | 82 | 티르후타 |
1 SMP | U+11580..U+115FF | 싯담 | 128 | 92 | 싯담 |
1 SMP | U+11600..U+1165F | 모디 | 96 | 79 | 모디 |
1 SMP | U+11660..U+1167F | 몽골 보충제 | 32 | 13 | 몽골인 |
1 SMP | U+11680..U+116CF | 타크리 | 80 | 68 | 타크리 |
1 SMP | U+11700..U+1174F | 옴 | 80 | 65 | 옴 |
1 SMP | U+11800..U+1184F | 도그라 | 80 | 60 | 도그라 |
1 SMP | U+118A0..U+118FF | 와랑시티 | 96 | 84 | 와랑시티 |
1 SMP | U+11900..U+1195F | 다이브스 아쿠루 | 96 | 72 | 다이브스 아쿠루 |
1 SMP | U+119A0..U+119FF | 난디나가리 | 96 | 65 | 난디나가리 |
1 SMP | U+11A00..U+11A4F | 자나바자르 광장 | 80 | 72 | 자나바자르 광장 |
1 SMP | U+11A50..U+11AAF | 소욤보 | 96 | 83 | 소욤보 |
1 SMP | U+11AB0..U+11ABF | Unified Canadian 원주민 강의 계획서 확장-A | 16 | 16 | 캐나다 원주민 |
1 SMP | U+11AC0..U+11AFF | 파우신하우 | 64 | 57 | 파우신하우 |
1 SMP | U+11B00..U+11B5F | 데바나가리 확장-A | 96 | 10 | 데바나가리 |
1 SMP | U+11C00..U+11C6F | 바이스키 | 112 | 97 | 바이스키 |
1 SMP | U+11C70..U+11CBF | 마르첸 | 80 | 68 | 마르첸 |
1 SMP | U+11D00..U+11D5F | 마사람 곤디 | 96 | 75 | 마사람 곤디 |
1 SMP | U+11D60..U+11DAF | 군잘라 곤디 | 80 | 63 | 군잘라 곤디 |
1 SMP | U+11EE0..U+11EFF | 마카사르 | 32 | 25 | 마카사르 |
1 SMP | U+11F00..U+11F5F | 카위 | 96 | 86 | 카위 |
1 SMP | U+11FB0..U+11FBF | 리수 보충제 | 16 | 1 | 리수 |
1 SMP | U+11FC0..U+11FF | 타밀 보충제 | 64 | 51 | 타밀어 |
1 SMP | U+12000..U+123FF | 설형동물 | 1,024 | 922 | 설형동물 |
1 SMP | U+12400..U+1247F | 설형수와 구두점 | 128 | 116 | 설형동물 |
1 SMP | U+12480..U+1254F | 초기 왕조 설형 | 208 | 196 | 설형동물 |
1 SMP | U+12F90..U+12FF | 키프로미노안 | 112 | 99 | 키프로 미노안 |
1 SMP | U+13000..U+1342F | 이집트 상형문자 | 1,072 | 1,072 | 이집트 상형문자 |
1 SMP | U+13430..U+1345F | 이집트 상형문자 형식 제어 | 48 | 38 | 이집트 상형문자 |
1 SMP | U+14400..U+1467F | 아나톨리아 상형문자 | 640 | 583 | 아나톨리아 상형문자 |
1 SMP | U+16800..U+16A3F | 바움 보충제 | 576 | 569 | 바움 |
1 SMP | U+16A40..U+16A6F | 므로 | 48 | 43 | 므로 |
1 SMP | U+16A70..U+16ACF | 탕사 | 96 | 89 | 탕사 |
1 SMP | U+16AD0..U+16AFF | 바사 바 | 48 | 36 | 바사 바 |
1 SMP | U+16B00..U+16B8F | Pahawh Hmong | 144 | 127 | Pahawh Hmong |
1 SMP | U+16E40..U+16E9F | 메데파이드린 | 96 | 91 | 메데파이드린 |
1 SMP | U+16F00..U+16F9F | 먀오 | 160 | 149 | 먀오 |
1 SMP | U+16FE0..U+16FF | 아이디얼 기호 및 문장부호 | 32 | 7 | 한(4자), 거란소문자(1자), 누슈(1자), 탕굿(1자) |
1 SMP | U+17000..U+187FF | 탕구트 | 6,144 | 6,136 | 탕구트 |
1 SMP | U+18800..U+18AFF | 탕구트 구성요소 | 768 | 768 | 탕구트 |
1 SMP | U+18B00..U+18CFF | 거란 소경 | 512 | 470 | 거란 소경 |
1 SMP | U+18D00..U+18D7F | 탕구트 보충제 | 128 | 9 | 탕구트 |
1 SMP | U+1AFF0..U+1AFF | 카나 익스텐디드-B | 16 | 13 | 가타카나 |
1 SMP | U+1B000..U+1B0FF | 카나 보충제 | 256 | 256 | 히라가나(255자), 가타카나(1자) |
1 SMP | U+1B100..U+1B12F | 가나 익스텐디드-A | 48 | 35 | 히라가나(32자), 가타카나(3자) |
1 SMP | U+1B130..U+1B16F | 스몰 카나 익스텐션 | 64 | 9 | 히라가나(4자), 가타카나(5자) |
1 SMP | U+1B170..U+1B2FF | 누슈 | 400 | 396 | 누슈 |
1 SMP | U+1BC00..U+1BC9F | 듀플로이언 | 160 | 143 | 듀플로이언 |
1 SMP | U+1BCA0..U+1BCAF | 축약 형식 컨트롤 | 16 | 4 | 흔한 |
1 SMP | U+1CF00..U+1CFCF | 즈나메니 음악 표기법 | 208 | 185 | 공용(116자), 상속(69자) |
1 SMP | U+1D000..U+1D0FF | 비잔틴 음악 기호 | 256 | 246 | 흔한 |
1 SMP | U+1D100..U+1D1FF | 음악 기호 | 256 | 233 | 공용(211자), 상속(22자) |
1 SMP | U+1D200..U+1D24F | 고대 그리스 음악 표기법 | 80 | 70 | 그리스어 |
1 SMP | U+1D2C0..U+1D2DF | 카코빅 숫자 | 32 | 20 | 흔한 |
1 SMP | U+1D2E0..U+1D2FF | 마야 숫자 | 32 | 20 | 흔한 |
1 SMP | U+1D300..U+1D35F | 타이쉬안징 기호 | 96 | 87 | 흔한 |
1 SMP | U+1D360..U+1D37F | 로드 번호 세는 중 | 32 | 25 | 흔한 |
1 SMP | U+1D400..U+1D7FF | 수학 영숫자 기호 | 1,024 | 996 | 흔한 |
1 SMP | U+1D800..U+1DAAF | 서튼 사인라이팅 | 688 | 672 | 사인라이팅 |
1 SMP | U+1DF00..U+1DFFF | 라틴어 확장 G | 256 | 37 | 라틴어 |
1 SMP | U+1E000..U+1E02F | 글래그리티컬 보충제 | 48 | 38 | 글래그리티컬 |
1 SMP | U+1E030..U+1E08F | 키릴 확장-D | 96 | 63 | 키릴식 |
1 SMP | U+1E100..U+1E14F | Nyiakeng Puachue Hmong | 80 | 71 | Nyiakeng Puachue Hmong |
1 SMP | U+1E290..U+1E2BF | 토토 | 48 | 31 | 토토 |
1 SMP | U+1E2C0..U+1E2FF | 완초 | 64 | 59 | 완초 |
1 SMP | U+1E4D0..U+1E4FF | 나그 문다리 | 48 | 42 | 문다리 |
1 SMP | U+1E7E0..U+1E7FF | 에티오피아 확장-B | 32 | 28 | 에티오피아의 |
1 SMP | U+1E800..U+1E8DF | 멘데 키카쿠이 | 224 | 213 | 멘데 키카쿠이 |
1 SMP | U+1E900..U+1E95F | 아들람 | 96 | 88 | 아들람 |
1 SMP | U+1EC70..U+1ECBF | 시아크 번호 표시 | 80 | 68 | 흔한 |
1 SMP | U+1ED00..U+1ED4F | 오스만 제국의 시아크 수 | 80 | 61 | 흔한 |
1 SMP | U+1EE00..U+1EFF | 아랍 수학 알파벳 기호 | 256 | 143 | 아랍어 |
1 SMP | U+1F000..U+1F02F | 마작 타일 | 48 | 44 | 흔한 |
1 SMP | U+1F030..U+1F09F | Domino 타일 | 112 | 100 | 흔한 |
1 SMP | U+1F0A0..U+1F0FF | 카드놀이 | 96 | 82 | 흔한 |
1 SMP | U+1F100..U+1F1FF | 동봉된 영숫자 부록 | 256 | 200 | 흔한 |
1 SMP | U+1F200..U+1F2FF | 동봉된 이미지 보충 자료 | 256 | 64 | 히라가나(1자), 공용(63자) |
1 SMP | U+1F300..U+1F5FF | 기타 기호 및 픽토그래프 | 768 | 768 | 흔한 |
1 SMP | U+1F600..U+1F64F | 이모티콘 | 80 | 80 | 흔한 |
1 SMP | U+1F650..U+1F67F | 장식용 딩바츠 | 48 | 48 | 흔한 |
1 SMP | U+1F680..U+1F6FF | 전송 및 지도 기호 | 128 | 118 | 흔한 |
1 SMP | U+1F700..U+1F77F | 알케미컬 기호 | 128 | 124 | 흔한 |
1 SMP | U+1F780..U+1F7FF | 기하학적 도형 확장 | 128 | 103 | 흔한 |
1 SMP | U+1F800..U+1F8FF | 추가 화살표-C | 256 | 150 | 흔한 |
1 SMP | U+1F900..U+1F9FF | 보조 기호 및 그림 | 256 | 256 | 흔한 |
1 SMP | U+1FA00..U+1FA6F | 체스 기호 | 112 | 98 | 흔한 |
1 SMP | U+1FA70..U+1FAFF | 기호 및 픽토그래프 확장-A | 144 | 107 | 흔한 |
1 SMP | U+1FB00..U+1FBFF | 레거시 컴퓨팅을 위한 기호 | 256 | 212 | 흔한 |
2 SIP | U+2만..U+2A6DF | CJK Unified Ideographs Extension B | 42,720 | 42,720 | 한 |
2 SIP | U+2A700..U+2B73F | CJK Unified Ideographs Extension C | 4,160 | 4,154 | 한 |
2 SIP | U+2B740..U+2B81F | CJK 통합아이디어스 익스텐션 D | 224 | 222 | 한 |
2 SIP | U+2B820..U+2CEAF | CJK Unified Ideographs Extension E | 5,776 | 5,762 | 한 |
2 SIP | U+2CEB0..U+2EBEF | CJK Unified Ideographs 확장 F | 7,488 | 7,473 | 한 |
2 SIP | U+2EBF0..U+2EE5F | IMT2000 3GPP - CJK 통합아이디어스 확장 I | 624 | 622 | 한 |
2 SIP | U+2F800..U+2FA1F | CJK 호환성 이미지 부록 | 544 | 542 | 한 |
3 팁 | U+30000..U+3134F | CJK Unified Ideographs Extension G | 4,944 | 4,939 | 한 |
3 팁 | U+3150..U+323AF | CJK Unified Ideographs Extension H | 4,192 | 4,192 | 한 |
14 SSP | U+E0000..U+E007F | 태그 | 128 | 97 | 흔한 |
14 SSP | U+E0100..U+E01EF | 변동 선택기 보충 | 240 | 240 | 상속 |
15 PUA-A | U+F0000..U+FFFF | 보조민간용도지역-A | 65,536 | 65,534 | 알 수 없는 |
16 PUA-B | U+100000..U+10FFF | 보조민간용도지역-B | 65,536 | 65,534 | 알 수 없는 |
|
대본
할당된 각 문자는 "스크립트" 속성에 대한 단일 값을 가질 수 있으며, 이 값은 해당 문자가 어느 스크립트에 속하는지 나타냅니다.[20] 값은 쓰기 시스템에 매핑된 ISO 15924에서 사용할 수 있는 Aaa-Zzz 범위의 네 글자 코드입니다. 스크립트의 배경 및 사용을 설명할 때를 제외하고 유니코드는 스크립트와 해당 스크립트를 사용하는 언어 간의 연결을 사용하지 않습니다. 그래서 "히브리"는 히브리 문자를 말하는 것이지 히브리어를 말하는 것이 아닙니다.
"공통"을 위한 특수 코드 Zyyy는 여러 스크립트에서 사용되는 문자에 대해 단일 값을 허용합니다. 문자와 특정 다른 특수 목적 코드 포인트를 결합하는 데 사용되는 Zinh "상속된 스크립트"라는 코드는 문자가 결합된 문자로부터 스크립트 ID를 "상속"한다는 것을 나타냅니다. (유니코드는 이전에 이 목적을 위해 개인 코드인 Qaai를 사용했습니다.) Zzz "알 수 없음" 코드는 기호 및 형식 문자와 같이 스크립트에 속하지 않는 모든 문자(기본값)에 사용됩니다. 전체적으로 단일 스크립트의 문자는 라틴 문자와 같이 여러 블록에 흩어져 있을 수 있습니다. 그리고 그 반대도 마찬가지입니다. 여러 스크립트가 존재할 수 있는 것은 단일 블록입니다. 예를 들어, 블록 문자와 같은 기호는 라틴어, 그리스어 및 공용 스크립트의 문자를 포함합니다.
스크립트가 ""(공백)일 때 유니코드에 따르면 문자는 스크립트에 속하지 않습니다. 이것은 기호와 관련이 있는데, 이는 기존의 ISO 스크립트 코드인 "Zmth"(수학적 표기), "Zsym"(심볼), "Zsye"(심볼, 이모지 변형)가 유니코드에서 사용되지 않기 때문입니다. "Script" 속성은 컨트롤, 대용품 및 개인 사용 코드 포인트와 같이 타이포그래픽 문자가 아닌 코드 포인트의 경우 공백입니다.
ISO 15924에 특정 스크립트 별칭 이름이 있는 경우 문자 이름에 사용됩니다. U+0041 라틴 대문자 A와 U+05D0 א 히브리어 ALEF.
ISO 15924 | 유니코드 문자[e] | |||||||
---|---|---|---|---|---|---|---|---|
코드 | ISO번호 | ISO 정식 명칭 | 방향성 | 유니코드 별칭[f] | 버전 | 성격. | 메모들 | 묘사 |
아둔 | 166 | 아들람 | 오른쪽에서 왼쪽으로 가는 대본 | 아들람 | 9.0 | 88 | 19.9절 | |
아팍 | 439 | 아파카 | 다르다 | [i]. | — 유니코드가 아닌 제안이 탐색됩니다||||
아흐브 | 239 | 캅카스 알바니아어 | 좌우로 | 캅카스 알바니아어 | 7.0 | 53 | 고대/역사적 | 8.11장 |
옴 | 338 | 아옴, 타이옴 | 좌우로 | 옴 | 8.0 | 65 | 고대/역사적 | 15.16장 |
아랍인 | 160 | 아랍어 | 오른쪽에서 왼쪽으로 가는 대본 | 아랍어 | 1.0 | 1,368 | 9.2장 | |
아란 | 161 | 아랍어(나스탈리크어) | 혼종의 | 아랍어의 타이포그래픽 변형( 아랍어 참조) | —||||
아르미 | 124 | 제국 아람어 | 오른쪽에서 왼쪽으로 가는 대본 | 제국 아람어 | 5.2 | 31 | 고대/역사적 | 10.4장 |
암 | 230 | 아르메니아어 | 좌우로 | 아르메니아어 | 1.0 | 96 | 7.6장 | |
아스트 | 134 | 아베스탄 | 오른쪽에서 왼쪽으로 가는 대본 | 아베스탄 | 5.2 | 61 | 고대/역사적 | 10.7장 |
발리 | 360 | 발리어 | 좌우로 | 발리어 | 5.0 | 124 | 17.3장 | |
바무 | 435 | 바움 | 좌우로 | 바움 | 5.2 | 657 | 19.6장 | |
베이스 | 259 | 바사 바 | 좌우로 | 바사 바 | 7.0 | 36 | 고대/역사적 | 19.7장 |
백 | 365 | 바탁 | 좌우로 | 바탁 | 6.0 | 56 | 17.6장 | |
벵어 | 325 | 벵골어 (방글라) | 좌우로 | 벵골어 | 1.0 | 96 | 12.2장 | |
브흐스 | 334 | 바이스키 | 좌우로 | 바이스키 | 9.0 | 97 | 고대/역사적 | 14.3장 |
블리스 | 550 | 블리스 기호 | 다르다 | [i]. | — 유니코드가 아닌 제안이 탐색됩니다||||
보포 | 285 | 보포모포 | 왼쪽에서 오른쪽으로, 오른쪽에서 왼쪽으로 대본 | 보포모포 | 1.0 | 77 | 18.3장 | |
브라 | 300 | 브라흐미 | 좌우로 | 브라흐미 | 6.0 | 115 | 고대/역사적 | 14.1장 |
브레이 | 570 | 점자 | 좌우로 | 점자 | 3.0 | 256 | 21장 1절 | |
부기 | 367 | 부기네세 | 좌우로 | 부기네세 | 4.1 | 30 | 17.2장 | |
버드 | 372 | 부히드 | 좌우로 | 부히드 | 3.2 | 20 | 17.1장 | |
칵름 | 349 | 차크마 | 좌우로 | 차크마 | 6.1 | 71 | 13.11장 | |
캔 | 440 | 캐나다 원주민 통합 강의 계획서 | 좌우로 | 캐나다 원주민 | 3.0 | 726 | 20.2장 | |
카리 | 201 | 카리안 | 왼쪽에서 오른쪽으로, 오른쪽에서 왼쪽으로 대본 | 카리안 | 5.1 | 49 | 고대/역사적 | 8.5장 |
참 | 358 | 참 | 좌우로 | 참 | 5.1 | 83 | 16장 10절 | |
체르 | 445 | 체로키 | 좌우로 | 체로키 | 3.0 | 172 | 20.1장 | |
치스 | 298 | 치소이 | 좌우로 | [ii] | — 유니코드가 아닌 제안이 성숙함||||
크리스 | 109 | 코라스미안 | 오른쪽에서 왼쪽으로, 위에서 아래로 스크립트 | 코라스미안 | 13.0 | 28 | 고대/역사적 | 10.8장 |
치마 | 291 | 써스 | 다르다 | — 유니코드에 없음 | ||||
콥트 | 204 | 콥트어 | 좌우로 | 콥트어 | 1.0 | 137 | 고대/역사, 4.1 그리스어와 통일되지 않음 | 7.3장 |
Cpmn | 402 | 키프로미노안 | 좌우로 | 키프로 미노안 | 14.0 | 99 | 고대/역사적 | 8.4장 |
심폐소생술 | 403 | 키프로스어 음절 | 오른쪽에서 왼쪽으로 가는 대본 | 키프로스어 | 4.0 | 55 | 고대/역사적 | 8.3장 |
키릴 | 220 | 키릴식 | 좌우로 | 키릴식 | 1.0 | 506 | 활자 변형 구교회 슬라보닉 포함 (§ 키르스 참조) | Ch 7.4 |
사이러스 | 221 | 키릴어 (구 교회 슬라브어 변종) | 다르다 | 문자 변형( 키릴 참조); 고대/역사 | — 키릴||||
데바 | 315 | Devanagari (Nagari) | 좌우로 | 데바나가리 | 1.0 | 164 | 12.1장 | |
디악 | 342 | 다이브스 아쿠루 | 좌우로 | 다이브스 아쿠루 | 13.0 | 72 | 고대/역사적 | 15.15장 |
도그르 | 328 | 도그라 | 좌우로 | 도그라 | 11.0 | 60 | 고대/역사적 | 15.18장 |
Dsrt | 250 | Deseret (Mormon) | 좌우로 | 사막 | 3.1 | 80 | 20.4장 | |
듀플 | 755 | 듀플로이안 속기, 듀플로이안 속기 | 좌우로 | 듀플로이언 | 7.0 | 143 | 21장 6절 | |
이그드 | 070 | 이집트의 민족주의자 | 혼종의 | — 유니코드에 없음 | ||||
이지 | 060 | 이집트 상형문자 | 혼종의 | — 유니코드에 없음 | ||||
이집트 | 050 | 이집트 상형문자 | 오른쪽에서 왼쪽으로, 왼쪽에서 오른쪽으로 스크립트 | 이집트 상형문자 | 5.2 | 1,110 | 고대/역사적 | 11.4장 |
엘바 | 226 | 엘바산 | 좌우로 | 엘바산 | 7.0 | 40 | 고대/역사적 | 8.10장 |
일렘 | 128 | 엘리마익 | 오른쪽에서 왼쪽으로 가는 대본 | 엘리마익 | 12.0 | 23 | 고대/역사적 | 10.9장 |
에티 | 430 | 에티오피아어 (게 ʻ에즈) | 좌우로 | 에티오피아의 | 3.0 | 523 | 19.1절 | |
가라 | 164 | 가레이 | 오른쪽에서 왼쪽으로 | [iii] 승인됨 | — Unicode에서 제공되지 않음, 버전 16.0으로||||
극 | 241 | Khutsuri (Asomtavruli and Nuskhuri) | 좌우로 | 그루지야인 | 유니코드는 쿠소리, 아솜타브룰리, 누스쿠리를 '조지아인'으로 분류합니다(§ 곡 참조). 마찬가지로 음케드룰리와 음타브룰리는 '조지아인'입니다 (§ 게오르 참조). | 7장 7절 | ||
게오르크 | 240 | 조지아어 (Mkhedruli and Mtavruli) | 좌우로 | 그루지야인 | 1.0 | 173 | 유니코드에는 누스쿠리(극)도 포함됩니다. | 7장 7절 |
글래그 | 225 | 글래그리티컬 | 좌우로 | 글래그리티컬 | 4.1 | 134 | 고대/역사적 | 7.5장 |
공. | 312 | 군잘라 곤디 | 좌우로 | 군잘라 곤디 | 11.0 | 63 | 13.15장 | |
곤 | 313 | 마사람 곤디 | 좌우로 | 마사람 곤디 | 10.0 | 75 | 13.14장 | |
고트 | 206 | 고딕식 | 좌우로 | 고딕식 | 3.1 | 27 | 고대/역사적 | 8.9장 |
그란 | 343 | 그란타 | 좌우로 | 그란타 | 7.0 | 85 | 고대/역사적 | 15.14장 |
그렉 | 200 | 그리스어 | 좌우로 | 그리스어 | 1.0 | 518 | 방향성은 때때로 버스터드롭다운입니다. | 7.2장 |
구즈르 | 320 | 구자라트어 | 좌우로 | 구자라트어 | 1.0 | 91 | 12.4장 | |
구크 | 397 | Gurung Khema | 좌우로 | [iii] 승인됨 | — Unicode에서 제공되지 않음, 버전 16.0으로||||
구루 | 310 | 구르무키 | 좌우로 | 구르무키 | 1.0 | 80 | 12.3장 | |
한브 | 503 | 보포모포가 있는 한(한+보포모포의 별칭) | 혼종의 | § Hani, § Bopo | — See||||
걸다 | 286 | 한글(한글, ŭ) | 왼쪽에서 오른쪽으로, 세로에서 오른쪽으로 | 한글 | 1.0 | 11,739 | 2.0으로 옮겨진 한글 음절 | 18장 6절 |
하니. | 500 | 한(한지, 간지, 한자) | 위에서 아래로, 오른쪽에서 왼쪽으로 열(역사적으로) | 한 | 1.0 | 99,030 | 18.1장 | |
하노 | 371 | Hanunoo (Hanunóo) | 좌에서 우로, 아래에서 위로 | 하누누 | 3.2 | 21 | 17.1장 | |
한스 | 501 | 한(단순 변형) | 다르다 | 한지, 간지, 한자)의 부분 집합( 하니 참조) | - Han(||||
한트 | 502 | 한(전통적 변형) | 다르다 | ZZ - 하니의 부분 집합 | ||||
해트 | 127 | 하트란 | 오른쪽에서 왼쪽으로 가는 대본 | 하트란 | 8.0 | 26 | 고대/역사적 | 10.12장 |
헤브르 | 125 | 히브리어 | 오른쪽에서 왼쪽으로 가는 대본 | 히브리어 | 1.0 | 134 | 9.1장 | |
히라 | 410 | 히라가나 | 수직 오른쪽에서 왼쪽으로, 왼쪽에서 오른쪽으로 | 히라가나 | 1.0 | 381 | 18.4장 | |
훌루 | 080 | 아나톨리아 상형문자 (루이아 상형문자, 히타이트 상형문자) | 좌우로 | 아나톨리아 상형문자 | 8.0 | 583 | 고대/역사적 | 11.6장 |
흐엉 | 450 | Pahawh Hmong | 좌우로 | Pahawh Hmong | 7.0 | 127 | 16장 11절 | |
HMNP | 451 | Nyiakeng Puachue Hmong | 좌우로 | Nyiakeng Puachue Hmong | 12.0 | 71 | 16장 12절 | |
Hrkt | 412 | 일본어 음절 (히라가나 + 가타카나의 별칭) | 수직 오른쪽에서 왼쪽으로, 왼쪽에서 오른쪽으로 | 가타카나 또는 히라가나 | See § Hira, § Kana | 18.4장 | ||
평결이 안 나는 | 176 | 옛 헝가리어 (헝가리어 룬어) | 오른쪽에서 왼쪽으로 가는 대본 | 옛 헝가리어 | 8.0 | 108 | 고대/역사적 | 8장 8절 |
인디즈 | 610 | 인더스 (하라판) | 혼종의 | [i]. | — 유니코드가 아닌 제안이 탐색됩니다||||
이탈 | 210 | 고대 이탈리아어(에트루리아어, 오스칸어 등) | 오른쪽에서 왼쪽으로, 왼쪽에서 오른쪽으로 스크립트 | 고대 이탈리아어 | 3.1 | 39 | 고대/역사적 | 8.6장 |
자모 | 284 | 자모(한글의 자모 부분집합에 대한 별칭) | 다르다 | ZZ - 행의 부분 집합 | ||||
자바 | 361 | 자바어 | 좌우로 | 자바어 | 5.2 | 90 | 17.4장 | |
Jpan | 413 | 일본어(한 + 히라가나 + 가타카나의 별칭) | 다르다 | § Hani, § Hira and § Kana | — See||||
쥬크 | 510 | 위르첸 | 좌우로 | — 유니코드에 없음 | ||||
칼리 | 357 | 카야 리 | 좌우로 | 카야 리 | 5.1 | 47 | 16장 9절 | |
카나 | 411 | 가타카나 | 수직 오른쪽에서 왼쪽으로, 왼쪽에서 오른쪽으로 | 가타카나 | 1.0 | 321 | 18.4장 | |
카위 | 368 | 카위 | 좌우로 | 카위 | 15.0 | 86 | 고대/역사적 | 17.9장 |
하르 | 305 | Kharoshthi | 오른쪽에서 왼쪽으로 가는 대본 | Kharoshthi | 4.1 | 68 | 고대/역사적 | 14.2장 |
크흐르 | 355 | 크메르어 | 좌우로 | 크메르어 | 3.0 | 146 | 16장 4절 | |
코즈 | 322 | 코지키 | 좌우로 | 코지키 | 7.0 | 65 | 고대/역사적 | 15.7장 |
키틀 | 505 | 거란대본 | 좌우로 | — 유니코드에 없음 | ||||
키트 | 288 | 거란 소문자 | 오른쪽에서 왼쪽으로 세로로 | 거란 소경 | 13.0 | 471 | 고대/역사적 | 18장 12절 |
크나다 | 345 | 칸나다 | 좌우로 | 칸나다 | 1.0 | 91 | 12.8장 | |
코리아 | 287 | 한글(한글+한글의 별칭) | 좌우로 | § Hani, § Hang | — See||||
크펠 | 436 | 크펠레 | 좌우로 | [i]. | — 유니코드가 아닌 제안이 탐색됩니다||||
크라이 | 396 | 키랏 라이 | 좌우로 | [iii] 승인됨 | — Unicode에서 제공되지 않음, 버전 16.0으로||||
크티 | 317 | 카이티 | 좌우로 | 카이티 | 5.2 | 68 | 고대/역사적 | 15.2장 |
라나. | 351 | 타이탐 (라나) | 좌우로 | 타이텀 | 5.2 | 127 | 16.7장 | |
라오 | 356 | 라오 | 좌우로 | 라오 | 1.0 | 83 | 16장 2절 | |
래트프 | 217 | 라틴어(Fraktur variant) | 다르다 | 라틴어의 타이포그래픽 변형( 라틴어 참조) | —||||
랫그 | 216 | 라틴어(Gaelic variant) | 좌우로 | 라틴어의 타이포그래픽 변형( 라틴어 참조) | —||||
라틴어 | 215 | 라틴어 | 좌우로 | 라틴어 | 1.0 | 1,481 | 참고 항목: 유니코드의 라틴어 스크립트 | 7.1장 |
레케 | 364 | 레케 | 좌우로 | — 유니코드에 없음 | ||||
렙크 | 335 | Lepcha (Róng) | 좌우로 | 렙차 | 5.1 | 74 | 13.12장 | |
사지 | 336 | 임부 | 좌우로 | 임부 | 4.0 | 68 | 13.6장 | |
리나 | 400 | 선형 A | 좌우로 | 선형 A | 7.0 | 341 | 고대/역사적 | 8.1장 |
린브 | 401 | 선형 B | 좌우로 | 선형 B | 4.0 | 211 | 고대/역사적 | 8.2장 |
리수 | 399 | 리수(프레이저) | 좌우로 | 리수 | 5.2 | 49 | 18.9장 | |
로마 | 437 | 로마 | 좌우로 | [i]. | — 유니코드가 아닌 제안이 탐색됩니다||||
리치 | 202 | 리시안 | 좌우로 | 리시안 | 5.1 | 29 | 고대/역사적 | 8.5장 |
리디 | 116 | 리디안 | 오른쪽에서 왼쪽으로 가는 대본 | 리디안 | 5.1 | 27 | 고대/역사적 | 8.5장 |
마흐즈 | 314 | 마하자니 | 좌우로 | 마하자니 | 7.0 | 39 | 고대/역사적 | 15.6장 |
마카 | 366 | 마카사르 | 좌우로 | 마카사르 | 11.0 | 25 | 고대/역사적 | 17.8장 |
맨드 | 140 | 만다이크 주 | 오른쪽에서 왼쪽으로 가는 대본 | 만다이크 | 6.0 | 29 | 9.5장 | |
마니 | 139 | 마니교 | 오른쪽에서 왼쪽으로 가는 대본 | 마니교 | 7.0 | 51 | 고대/역사적 | 10.5장 |
마크 | 332 | 마르첸 | 좌우로 | 마르첸 | 9.0 | 68 | 고대/역사적 | 14.5장 |
마야 | 090 | 마야 상형문자 | 혼종의 | — 유니코드에 없음 | ||||
메드프 | 265 | 메데파이드린 (오베리 오카임, 오베리 ɔ 카임 ɛ) | 좌우로 | 메데파이드린 | 11.0 | 91 | 19.10장 | |
수리하다 | 438 | 멘데 키카쿠이 | 오른쪽에서 왼쪽으로 가는 대본 | 멘데 키카쿠이 | 7.0 | 213 | 19.8장 | |
머크 | 101 | 메로이트 필기체 | 오른쪽에서 왼쪽으로 가는 대본 | 메로이트 필기체 | 6.1 | 90 | 고대/역사적 | 11.5장 |
메로 | 100 | 메로이트 상형문자 | 오른쪽에서 왼쪽으로 가는 대본 | 메로이트 상형문자 | 6.1 | 32 | 고대/역사적 | 11.5장 |
님 | 347 | 말라얄람어 | 좌우로 | 말라얄람어 | 1.0 | 118 | 12.9절 | |
모디 | 324 | 모디, 모 ḍī | 좌우로 | 모디 | 7.0 | 79 | 고대/역사적 | 15.12장 |
몽 | 145 | 몽골인 | 수직 좌에서 우로, 좌에서 우로 | 몽골인 | 3.0 | 168 | 몽은 클리어와 만추 문자를 포함합니다. | 13.5장 |
문 | 218 | Moon (Moon 코드, Moon 스크립트, Moon type) | 혼종의 | [i]. | — 유니코드가 아닌 제안이 탐색됩니다||||
므루 | 264 | 므로, 므루 | 좌우로 | 므로 | 7.0 | 43 | 13.8장 | |
므테이 | 337 | Meitei Mayek (Meithei, Meetei) | 좌우로 | 미테이 메이크 | 5.2 | 79 | 13.7장 | |
멀티 | 323 | 물타니 | 좌우로 | 물타니 | 8.0 | 38 | 고대/역사적 | 15.10장 |
마이미스터 | 350 | 미얀마(미얀마) | 좌우로 | 미얀마 | 3.0 | 223 | 16장 3절 | |
나그미 | 295 | 나그 문다리 | 좌우로 | 나그 문다리 | 15.0 | 42 | ||
난드 | 311 | 난디나가리 | 좌우로 | 난디나가리 | 12.0 | 65 | 고대/역사적 | 15.13장 |
나르브 | 106 | 고대 북아라비안 (고대 북아라비안) | 오른쪽에서 왼쪽으로 가는 대본 | 옛 북아라비안 | 7.0 | 32 | 고대/역사적 | 10.1장 |
은배트 | 159 | 나바태안 | 오른쪽에서 왼쪽으로 가는 대본 | 나바태안 | 7.0 | 40 | 고대/역사적 | 10.10장 |
뉴아 | 333 | 뉴아 주, 뉴아르 주, 뉴아리 주, 네팔라리피 주 | 좌우로 | 뉴아 | 9.0 | 97 | 13.3장 | |
Nkdb | 085 | Naxi Dongba (na²¹ɕi³³ to³³ba²¹, Nakhi Tomba) | 좌우로 | — 유니코드에 없음 | ||||
Nkgb | 420 | Naxi Geba (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-¹baw, Nakhi Geba) | 좌우로 | [i]. | — 유니코드가 아닌 제안이 탐색됩니다||||
응구 | 165 | N’Ko | 오른쪽에서 왼쪽으로 가는 대본 | 엔코 | 5.0 | 62 | 19.4장 | |
은슈 | 499 | 누슈 | 오른쪽에서 왼쪽으로 세로로 | 누슈 | 10.0 | 397 | 18.8장 | |
오감 | 212 | 오함 | 아래에서 위로, 왼쪽에서 오른쪽으로 | 오함 | 3.0 | 29 | 고대/역사적 | 8.14장 |
올크 | 261 | 올 치키 (올 세멧, 올, 산탈리) | 좌우로 | 올치키 | 5.1 | 48 | 13.10장 | |
오나오 | 296 | 올 오날 | 좌우로 | [iii] 승인됨 | — Unicode에서 제공되지 않음, 버전 16.0으로||||
오크 | 175 | 올드 튀르크어족, 오크혼 룬어족 | 오른쪽에서 왼쪽으로 가는 대본 | 튀르크어족 | 5.2 | 73 | 고대/역사적 | 14.8장 |
오리아 | 327 | 오리야 (오디아) | 좌우로 | 오리야 | 1.0 | 91 | 12.5장 | |
오스지 | 219 | 오세이지 | 좌우로 | 오세이지 | 9.0 | 72 | 20.3장 | |
오스마 | 260 | 오스마니야 | 좌우로 | 오스마니야 | 4.0 | 40 | 19.2장 | |
어그 | 143 | Old Uyghur | 혼종의 | Old Uyghur | 14.0 | 26 | 고대/역사적 | 14장 11절 |
손바닥 | 126 | 팔미렌 | 오른쪽에서 왼쪽으로 가는 대본 | 팔미렌 | 7.0 | 32 | 고대/역사적 | 10.11장 |
포크 | 263 | 파우신하우 | 좌우로 | 파우신하우 | 7.0 | 57 | 16장 13절 | |
프쿤 | 015 | 설형문자 | 좌우로 | — 유니코드에 없음 | ||||
펠름 | 016 | 원시 엘라마이트 | 좌우로 | — 유니코드에 없음 | ||||
파마 | 227 | 올드 퍼믹 | 좌우로 | 올드 퍼믹 | 7.0 | 43 | 고대/역사적 | 8.13장 |
패그 | 331 | 파그스파 | 좌우 수직의 | 파그스파 | 5.0 | 56 | 고대/역사적 | 14장 4절 |
필리 | 131 | 비문 팔라비 | 오른쪽에서 왼쪽으로 가는 대본 | 비문 팔라비 | 5.2 | 27 | 고대/역사적 | 10.6장 |
Phlp | 132 | Psalter Pahlavi | 오른쪽에서 왼쪽으로 가는 대본 | Psalter Pahlavi | 7.0 | 29 | 고대/역사적 | 10.6장 |
Phlv | 133 | Book Pahlavi | 혼종의 | — 유니코드에 없음 | ||||
프nx | 115 | 페니키아인 | 오른쪽에서 왼쪽으로 가는 대본 | 페니키아인 | 5.0 | 29 | 고대/역사적[g] | 10.3장 |
Piqd | 293 | Klingon (KLI pIqaD) | 좌우로 | [iv][v] 포함된 경우 거부됨 | — 유니코드에||||
Plrd | 282 | 먀오(폴라드) | 좌우로 | 먀오 | 6.1 | 149 | 18.10장 | |
프르티 | 130 | 비문 파르티아어 | 오른쪽에서 왼쪽으로 가는 대본 | 비문 파르티아어 | 5.2 | 30 | 고대/역사적 | 10.6장 |
프신 | 103 | 중아조어족 | 혼종의 | — 유니코드에 없음 | ||||
Qaaa-Qabx | 900-949 | 전용 예약(범위) | — 유니코드에 없음 | |||||
란즈 | 303 | 란자나 | 좌우로 | — 유니코드에 없음 | ||||
Rjng | 363 | 레장 (레드장, 카강가) | 좌우로 | 레장 | 5.1 | 37 | 17.5장 | |
노그 | 167 | 하니피 로힝야 | 오른쪽에서 왼쪽으로 가는 대본 | 하니피 로힝야 | 11.0 | 50 | 16장 14절 | |
로로 | 620 | Rongorongo | 혼종의 | [i]. | — 유니코드가 아닌 제안이 탐색됩니다||||
런어 | 211 | 루닉 | 좌에서 우로, 버스터드폰 | 루닉 | 3.0 | 86 | 고대/역사적 | 8.7장 |
삼르 | 123 | 사마리아인 | 오른쪽에서 왼쪽으로, 위에서 아래로 스크립트 | 사마리아인 | 5.2 | 61 | 9.4장 | |
새라. | 292 | 사라티 | 혼종의 | — 유니코드에 없음 | ||||
사르브 | 105 | 구남아라비아 | 오른쪽에서 왼쪽으로 가는 대본 | 구남아라비아 | 5.2 | 32 | 고대/역사적 | 10.2장 |
사우르 | 344 | 사우라슈트라 주 | 좌우로 | 사우라슈트라 주 | 5.1 | 82 | 13장 13절 | |
Sgnw | 095 | 사인라이팅 | 좌우 수직의 | 사인라이팅 | 8.0 | 672 | 21.7장 | |
쇼 | 281 | 샤비안 (쇼) | 좌우로 | 샤비안 | 4.0 | 48 | 8.15장 | |
슈르트 | 319 | 샤라다 주, ś 주 | 좌우로 | 샤라다 | 6.1 | 96 | 15.3장 | |
수이 | 530 | 슈슈 | 좌우로 | — 유니코드에 없음 | ||||
시드 | 302 | Siddham, Siddhaṃ, Siddhamātṛkā | 좌우로 | 싯담 | 7.0 | 92 | 고대/역사적 | 15.5장 |
시드 | 180 | 사이드틱 | 오른쪽에서 왼쪽으로 | [ii] | — 유니코드가 아닌 제안이 성숙함||||
신드 | 318 | 쿠다와디 주, 신디 주 | 좌우로 | 쿠다와디 | 7.0 | 69 | 15.9장 | |
신씨 | 348 | 신할라 | 좌우로 | 신할라 | 3.0 | 111 | 13.2장 | |
소그드 | 141 | 소그디안 | 동아시아 문자로 된 가로 세로쓰기, 위에서 아래로 | 소그디안 | 11.0 | 42 | 고대/역사적 | 14장 10절 |
소고 | 142 | 올드 소그디안 | 오른쪽에서 왼쪽으로 가는 대본 | 올드 소그디안 | 11.0 | 40 | 고대/역사적 | 14.9장 |
소라 | 398 | 소라 솜펑 | 좌우로 | 소라 솜펑 | 6.1 | 35 | 15.17장 | |
소요 | 329 | 소욤보 | 좌우로 | 소욤보 | 10.0 | 83 | 고대/역사적 | 14.7장 |
선드 | 362 | 순다네시 | 좌우로 | 순다네시 | 5.1 | 72 | 17.7장 | |
수누 | 274 | 수누와르 | 좌우로 | [iii] 승인됨 | — Unicode에서 제공되지 않음, 버전 16.0으로||||
사일로 | 316 | Syloti Nagri | 좌우로 | Syloti Nagri | 4.1 | 45 | 고대/역사적 | 15.1장 |
Syrc | 135 | 시리아어 | 오른쪽에서 왼쪽으로 가는 대본 | 시리아어 | 3.0 | 88 | 타이포그래피 변형 Estrangelo(§ Syre 참조), Western(§ Syrj) 및 Eastern(§ Syrn)이 포함됩니다. | 9.3장 |
시어 | 138 | 시리아어(Estrangelo variant) | 혼종의 | 시리아어의 타이포그래픽 변형( Syrc 참조) | —||||
시르즈 | 137 | 시리아어 (서양식 변종) | 혼종의 | 시리아어의 타이포그래픽 변형( Syrc 참조) | —||||
Syrn | 136 | 시리아어(동양어) | 혼종의 | 시리아어의 타이포그래픽 변형( Syrc 참조) | —||||
태그브 | 373 | 타그반와 | 좌우로 | 타그반와 | 3.2 | 18 | 17.1장 | |
탁르 | 321 | Takri, Ṭākrī, Ṭāṅkrī | 좌우로 | 타크리 | 6.1 | 68 | 15.4장 | |
이야기 | 353 | 타이 르 | 좌우로 | 타이 르 | 4.0 | 35 | 16.5장 | |
탈루 | 354 | 뉴타이루 | 좌우로 | 뉴타이루 | 4.1 | 83 | 16장 6절 | |
탐라 | 346 | 타밀어 | 좌우로 | 타밀어 | 1.0 | 123 | 12.6장 | |
탕 | 520 | 탕구트 | 수직 오른쪽에서 왼쪽으로, 왼쪽에서 오른쪽으로 | 탕구트 | 9.0 | 6,914 | 고대/역사적 | 18장 11절 |
타브트 | 359 | 타이 비엣 | 좌우로 | 타이 비엣 | 5.2 | 72 | 16장 8절 | |
타요 | 380 | 타이요 | 위에서 아래로, 오른쪽에서 왼쪽으로 열 | [ii] | — 유니코드가 아닌 제안이 성숙함||||
텔루 | 340 | 텔루구 | 좌우로 | 텔루구 | 1.0 | 100 | 12.7장 | |
텡 | 290 | 텡과르 | 좌우로 | — 유니코드에 없음 | ||||
Tfng | 120 | 티피나 (베르베르) | 왼쪽에서 오른쪽으로, 오른쪽에서 왼쪽으로, 위에서 아래로, 아래에서 위로 | 티피나그 | 4.1 | 59 | 19.3장 | |
Tglg | 370 | 타갈로그 (베이바인, 알리바타) | 좌우로 | 타갈로그어 | 3.2 | 23 | 17.1장 | |
타하 | 170 | 타아나 | 오른쪽에서 왼쪽으로 가는 대본 | 타아나 | 3.0 | 50 | 13.1장 | |
타이어 | 352 | 타이어 | 좌우로 | 타이어 | 1.0 | 86 | 16장 1절 | |
티벳 | 330 | 티베트어 | 좌우로 | 티베트어 | 2.0 | 207 | 1.0에서 추가, 1.1에서 제거, 2.0에서 재도입 | 13.4장 |
티르 | 326 | 티르후타 | 좌우로 | 티르후타 | 7.0 | 82 | 15.11장 | |
텐사 | 275 | 탕사 | 좌우로 | 탕사 | 14.0 | 89 | 13.18장 | |
토드르 | 229 | 토드리 | 오른쪽에서 왼쪽으로 | [iii] 승인됨 | — Unicode에서 제공되지 않음, 버전 16.0으로||||
톨스 | 299 | 톨롱스키 | 좌우로 | [ii] | — 유니코드가 아닌 제안이 성숙함||||
토토 | 294 | 토토 | 좌우로 | 토토 | 14.0 | 31 | 13.17장 | |
투그 | 341 | Tulu-Tigalari | 좌우로 | [iii] 승인됨 | — Unicode에서 제공되지 않음, 버전 16.0으로||||
우가 | 040 | 우가리트어 | 좌우로 | 우가리트어 | 4.0 | 31 | 고대/역사적 | 11.2장 |
바이 | 470 | 바이 | 좌우로 | 바이 | 5.1 | 300 | 19.5장 | |
Visp | 280 | 보이는 말 | 좌우로 | — 유니코드에 없음 | ||||
비스 | 228 | 비스쿠키 | 좌우로 | 비스쿠키 | 14.0 | 70 | 고대/역사적 | 8.12장 |
와라 | 262 | 와랑시티 (바랑크시티) | 좌우로 | 와랑시티 | 7.0 | 84 | 13.9장 | |
우초 | 283 | 완초 | 좌우로 | 완초 | 12.0 | 59 | 13.16장 | |
통 | 480 | 월라이 | 혼종의 | [i]. | — 유니코드가 아닌 제안이 탐색됩니다||||
엑스페오 | 030 | 고대 페르시아어 | 좌우로 | 고대 페르시아어 | 4.1 | 50 | 고대/역사적 | 11.3장 |
Xsux | 020 | 쿠네이폼 주, 수메로아카드 주 | 좌우로 | 설형동물 | 5.0 | 1,234 | 고대/역사적 | 11.1장 |
예지 | 192 | 예지디 | 오른쪽에서 왼쪽으로 가는 대본 | 예지디 | 13.0 | 47 | 고대/역사적 | 9.6장 |
Yiii | 460 | 이 | 좌우로 | 이 | 3.0 | 1,220 | 18.7장 | |
잔브 | 339 | 자나바자르 광장(Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, 수평 사각형 대본) | 좌우로 | 자나바자르 광장 | 10.0 | 72 | 고대/역사적 | 14.6장 |
진 | 994 | 상속된 스크립트의 코드 | 상속 | 657 | ||||
Zmth | 995 | 수학적 표기법 | — 유니코드의 '스크립트'가 아님 | |||||
Zsym | 996 | 기호 | — 유니코드의 '스크립트'가 아님 | |||||
즈시예 | 993 | 기호(이모지 변형) | — 유니코드의 '스크립트'가 아님 | |||||
Zxxx | 997 | 미작성 문서에 대한 코드 | — 유니코드의 '스크립트'가 아님 | |||||
자이 | 998 | 미확인 스크립트 코드 | 흔한 | 8,306 | ||||
즈즈 | 999 | 코드화되지 않은 스크립트의 코드 | 알 수 없는 | 964,234 | 유니코드로: 기타 모든 코드 포인트 | |||
메모들
| ||||||||
참고문헌
|
정규화 속성
분해, 분해 유형, 표준 결합 클래스, 구성 제외 등입니다.
이 구간은 확장이 필요합니다. 추가하여 도와주시면 됩니다. (2022년 3월) |
나이
Age는 코드 포인트가 처음 지정된 표준 버전입니다. 버전 번호는 번호 매기기 major.minor로 단축되지만 더 자세한 버전 번호가 사용됩니다. 버전 4.0.0과 4.0.1은 둘 다 Age로 이름이 지정됩니다. Given the releases, Age can be from the range: 1.1, 2.0, 2.1, 3.0, 3.1, 3.2, 4.0, 4.1, 5.0, 5.1, 5.2, 6.0, 6.1, 6.2, 6.3, 7.0, 8.0, 9.0, 10.0, 11.0, 12.0, 12.1, 13.0, 14.0, 15.0, and 15.1.[21] Age의 긴 값은 V로 시작하고 점 V1_1 대신 밑줄을 사용합니다.[2] 특별히 할당된 연령 값이 없는 코드 포인트는 "NA" 값을 가지며 긴 형식은 "할당되지 않음"입니다.
감가상각
일단 문자가 정의되면, 문자는 제거되거나 재할당되지 않습니다.[22] 그러나 문자는 "사용을 강력하게 권장하지 않는다"는 의미로 사용되지 않을 수 있습니다.[23] 유니코드 버전 15.1에서는 다음과 같은 15자가 권장되지 않습니다.[24]
유니코드에서 사용하지 않는 문자 | ||||
---|---|---|---|---|
코드포인트 | 캐릭터명 | 추천대안 | 언급 | |
U+0149 | 아포스트로피 앞에 라틴어 작은 글자 n | U+02BC U+006E | ʼn | |
U+0673 | 아래에 물결 모양의 햄자가 있는 아랍 문자 알레프 | U+0627 U+065F | اٟ | |
U+0F77 | 티베트 모음 부호 음성 RR | U+0FB2 U+0F81[a] | ྲཱྀ | |
U+0F79 | 티베트 모음 부호 보컬 CLL | U+0FB3 U+0F81[a] | ླཱྀ | |
U+17A3 | 크메르 독립 모음 QAQ | U+17A2 | អ | |
U+17A4 | 크메르 독립 모음 QAA | U+17A2 U+17B6 | អា | |
U+206A | 대칭 스와핑 금지 | 없음[b] | ||
U+206B | 대칭 스와핑 활성화 | 없음[b] | ||
U+206C | 인히빗 아랍IC 폼 쉐이핑 | 없음[b] | ||
U+206D | 아랍 활성화IC 폼 쉐이핑 | 없음[b] | ||
U+206E | 국가 숫자 모양 | 없음[b] | ||
U+206F | 공칭 숫자 모양 | 없음[b] | ||
U+2329 | 좌측 포인팅 각도 브래킷 | U+3008[c] | 〈 | U+27E8 ⟨ MATHICAL LEFT ANGLE BRAKET은 수학 및 기타 기술적 용도로 권장됩니다. |
U+232A | 우측 포인팅 각도 브래킷 | U+3009[c] | 〉 | U+27E9 ⟩ MATHICAL RIGHT AGLE BARKET은 수학 및 기타 기술적 용도로 권장됩니다. |
U+E0001 | 언어 태그 | 없음[d] | ||
경계
유니코드 표준은 다음과 같은 경계 관련 속성을 지정합니다.
- 그래파이트 클러스터
- 단어
- 선
- 문장.
가명
유니코드는 코드 포인트에 별칭 이름을 할당할 수 있습니다. 이러한 이름은 모든 이름(일반 이름 포함)에서 고유하므로 식별자로 사용할 수 있습니다. 별칭을 추가하는 데에는 다음과 같은 5가지 이유가 있습니다.
- 1. 약어
- 제어 코드, 형식 문자, 공백 및 변형 선택기에 대해 일반적으로 발생하는 약어 또는 두문자어입니다.
- 예를 들어, U+00A0 NO-BREAK SPACE에는 별칭 NBSP가 있습니다. 상자에 표시되는 경우도 있습니다. NBSP.
- 2. 컨트롤
- C0 및 C1 제어 기능에 대한 ISO 6429 이름과 이와 유사한 일반적으로 발생하는 이름이 문자에 별칭으로 추가됩니다.
- 예를 들어, U+0008 <control-0008>에는 별칭이 있습니다.
- 3. 정정
- 이것은 기본 문자 이름의 "심각한 문제"(보통 오류)에 대한 수정입니다.
- 예를 들어, U+2118 ℘ SCRIPT CAPTIAL P는 실제로 소문자 p이고, 따라서 가명 WEIERSTRASS ELTIPS FUNITION이 부여됩니다. "실제로 이것은 이름에도 불구하고 소문자 캘리그라피 p의 형태를 가지며, 가명을 통해 정확한 철자가 추가됩니다." 설명에서는 앞의 기호 ※를 사용합니다.
- 4. 대체
- 문자에 널리 사용되는 대체 이름입니다.
- 예: U+FEFF ZERO WIDTH NO-BREAK SPACE에는 대체 바이트 순서 표시가 있습니다.
- 5. 피그먼트
- C1 제어 코드 포인트에 대한 문서화된 여러 레이블은 어떤 표준에서도 실제로 승인된 적이 없습니다(그림 = 가짜, 허구).
- 예를 들어, U+0099 <control-0099>에는 피그먼트 별칭이 하나 있습니다. 이 이름은 ISO/IEC 10646-1의 초기 초안에서 나온 건축 개념이지만 승인 및 표준화된 적이 없습니다.
외부 링크
- 유니코드 문자 데이터베이스, 부속서 #44, 다양한 속성 설명
- 유니코드 데이터.txt – 모든 유니코드 문자 목록, 해당 속성 포함
참고문헌
- ^ a b c d e "Character Properties" (PDF). The Unicode Standard Version 15. Mountain View, CA: The Unicode Consortium. September 2022. ISBN 978-1-936213-32-0. Retrieved 2022-09-16.
- ^ a b c "Unicode Standard Annex #44: Unicode Character Database". Unicode. 2017-06-14.
- ^ "Unicode Standard Annex #44: Unicode Character Database, 4.2.3 Code Point Ranges". Unicode. 2022-09-02.
- ^ UnicodeData.txt
- ^ "UCD: Name Aliases". Unicode Character Database. Unicode Consortium. 2019-03-08.
- ^ "Character design standards – space characters". Character design standards. Microsoft. 1998–1999. Archived from the original on March 14, 2010. Retrieved 2009-05-18.
- ^ Unicode Standard 5.0, 인쇄판, p. 205; 또한 다음 웹 사이트에서 사용할 수 있습니다.
- ^ "General Punctuation" (PDF). The Unicode Standard 5.1. Unicode Inc. 1991–2008. Retrieved 2009-05-13.
- ^ Sargent, Murray III (2006-08-29). "Unicode Nearly Plain Text Encoding of Mathematics (Version 2)". Unicode Technical Note #28. Unicode Inc. pp. 19–20. Retrieved 2009-05-19.
- ^ Gillam, Richard (2002). Unicode Demystified: A Practical Programmer's Guide to the Encoding Standard. Addison-Wesley. ISBN 0-201-70052-2.
- ^ a b Hickson, Ian. "12.5 Named character references". HTML Standard. WHATWG.
- ^ Wolfram. "\[NegativeThickSpace]". Wolfram Language Documentation.
- ^ Wolfram. "\[NegativeMediumSpace]". Wolfram Language Documentation.
- ^ Wolfram. "\[NegativeThinSpace]". Wolfram Language Documentation.
- ^ Wolfram. "\[NegativeVeryThinSpace]". Wolfram Language Documentation.
- ^ Faltstrom, P., ed. (August 2010). "Zero Width Non-Joiner". The Unicode Code Points and Internationalized Domain Names for Applications (IDNA). IETF. sec. A.1. doi:10.17487/RFC5892. RFC 5892. Retrieved September 4, 2019.
- ^ Faltstrom, P., ed. (August 2010). "Zero Width Joiner". The Unicode Code Points and Internationalized Domain Names for Applications (IDNA). IETF. sec. A.2. doi:10.17487/RFC5892. RFC 5892. Retrieved September 4, 2019.
- ^ "Unicode Standard Annex #44, Unicode Character Database".
- ^ a b "Unicode Standard Annex #9: Unicode Bidirectional Algorithm". The Unicode Standard. 2017-05-14.
- ^ "Unicode Standard Annex #24: Unicode Script Property". The Unicode Standard. 2015-06-01.
- ^ "UCD: Derived Age". Unicode Character Database. Unicode Consortium. 2023-07-28.
- ^ "Unicode Character Encoding Stability Policies". Unicode. Unicode Consortium. 2017-06-23. Retrieved 2021-07-25.
Once a character is encoded, it will not be moved or removed.
- ^ "3.4: Characters and Encoding, D13: Deprecated character" (PDF). The Unicode Standard, Version 15.0. Mountain View: Unicode Consortium. 2022-09-13. ISBN 978-1-936213-32-0. Retrieved 2022-09-16.
- ^ "PropList-15.1.0.txt". Unicode. Unicode Consortium. 2023-08-01. Retrieved 2023-09-12.
- ^ "Chapter 23.3: Deprecated Format Characters" (PDF). The Unicode Standard, Version 13.0. Mountain View: Unicode Consortium. 2020-03-10. ISBN 978-1-936213-26-9. Retrieved 2021-07-25.
- ^ "23.9: Tag Characters, Deprecated Use for Language Tagging" (PDF). The Unicode Standard, Version 13.0. Mountain View: Unicode Consortium. 2020-03-10. ISBN 978-1-936213-26-9. Retrieved 2021-07-25.