베트남어와 컴퓨터

Vietnamese language and computers

베트남어는 전화나 컴퓨터로 타이핑할 때 여러 편의 숙소가 필요한 디아크리틱스(diacritic)로 라틴어 문자로 쓰여진다. 소프트웨어 기반 시스템은 베트남어를 쓰는 가장 인기 있는 형태다. 텔렉스는 베트남어를 인코딩하기 위해 고안된 가장 오래된 입력방식이며, 전화기와 터치스크린 장치의 가상 키보드에서 디폴트로 설정되는 경우가 많다. 다른 입력 방법에는 VNIVIQR이 포함될 수 있으며, VNI는 물리적 개인용 데스크톱 컴퓨터 또는 랩톱에 더 적합하다.

VNI방법은 VNI 코드페이지와혼동해서는 안 된다 입력.

역사적으로 베트남어 역시 오늘날에는 의례적, 전통적 목적으로 사용되고 있는 historiansnm으로 쓰여 역사학자와 문예학자의 분야에 남아 있다.

글꼴 및 문자 인코딩

베트남 문자

단일 베트남 모음에는 2개의 분음 부호가 배치되는 것이 일반적이다. 일부 글꼴은 이러한 분음 부호를 쌓는 반면 다른 글꼴은 톤 표시를 상쇄한다.

베트남 알파벳을 나타내는 46개의 문자 부호화가 있다.[1] 유니코드는 뛰어난 호환성과 소프트웨어 지원으로 인해 세계의 많은 쓰기 시스템에서 가장 인기 있는 형태가 되었다. Iacritics는 라틴 확장 A, 라틴 확장 B, 라틴 확장 추가 블록 사이에 흩어져 있는 결합 문자 또는 사전 컴파일된 문자로 인코딩할 수 있다. 베트남어 đng 기호는 통화 기호 블록으로 인코딩되어 있다. 역사적으로 베트남어는 현대 알파벳을 넘어 다른 문자를 사용했다. 라틴어 확장-D 블록에는 번성(ꞗ性)이 있는 중베트남 문자 B가 포함되어 있다. 정점은 유니코드에 포함되지 않지만 U+1DC4 ◌◌ MARKA-ACUT를 결합한 대략적인 근사치로 작용할 수 있다.

유니코드의 초기 버전에서는 베트남어 타이포그래피에서 흔히 볼 수 있듯이 이러한 표시를 곡절 옆에 놓을 목적으로 U+0340 ◌̀ BING GRAV TONE MARKU+0341 BING ARCHTON MARK라는 문자를 할당하였다. 이 두 글자는 더 이상 사용되지 않았다. U+0301 acute 급성 액센트와 U+0300 COMBING GRAVICE COMBING GRAVICE는 현재 어떠한 현재 곡절과 관계없이 사용되고 있다.[2]

유니코드에 대한 지원이 부족한 시스템의 경우, 수십 개의 8비트 베트남어 코드 페이지가 설계되었다.[1] 이 중 가장 많이 사용된 것은 VISCII, VSCII(TCVN 5712:1993) VNI, VPS윈도우즈-1258이었다.[3][4] 일반 텍스트 전자우편에서 가독성을 보장할 때와 같이 ASCII가 필요한 경우, 월드 와이드 웹에서 유니코드를 채택한 이후 어느 한 변수 폭의 방식 사용량이 급격히 감소하였음에도 불구하고 베트남 문자들은 흔히 VIQR(Vinternational Included-Readable) 또는 VSCII Mnemonic(VSCII-MNEM)에 따라 인코딩된다.[5] 예를 들어, 위에서 언급한 모든 8비트 인코딩에 대한 지원은 Windows-1258을 제외하고 2014년에 Mozilla 소프트웨어에서 삭제되었다.[6]

데스크탑 퍼블리싱을 위한 많은 베트남 글꼴은 VNI 또는 TCVN3(VSCII)로 인코딩되어 있다.[4] 이러한 글꼴을 "ABC 글꼴"[7]이라고 한다. 인기 있는 웹브라우저는 베트남어 인코딩 전문에 대한 지원이 부족하기 때문에 이 글꼴을 사용하는 모든 웹페이지는 설치되지 않은 시스템에서 이해할 수 없는 모히바케로 나타난다.

오른쪽, 작은 부분을 유지하는 i.

베트남 사람들은 종종 분음 부호를 쌓기 때문에 서체 설계자들은 쌓인 분음 부호가 인접한 문자나 선과 충돌하지 않도록 주의해야 한다. 톤 마크를 다른 디아크리트와 함께 사용할 때 톤 마크를 오른쪽으로 상쇄하면 일관성이 유지되고 사카데의 속도가 느려지는 것을 방지한다.[8] 광고 간판과 필기체 필기체에서, 분음 부호는 종종 다른 라틴어 알파벳에 익숙하지 않은 형태를 취한다. 예를 들어 소문자 I는 ì, , ĩ, í, i로 tittle을 유지한다.[9] 이러한 뉘앙스는 컴퓨팅 환경에서 거의 설명되지 않는다.

접근

베트남어 쓰기는 이미 ASCII에 존재하는 52개의 문자 외에 134개의 추가 문자(두 경우 사이)가 필요하다.[10] 이는 기존의 확장 ASCII 인코딩에서 사용할 수 있는 128자의 추가 문자를 초과한다. 가변 폭 인코딩(UTF-8이 하는 것처럼)을 사용하여 해결할 수 있지만, 베트남어를 지원하지 않고 다른 인코딩에 의해 다음과 같은 여러 가지 접근법이 사용되어 왔다.

  • 베트남어에서는 흔하지 않거나 ISO 646 또는 DOS용 VNI에서와 같이 DEC NRCS에서[10] 비반복성을 위해 선택된 최소 6개의 ASCII 문자를 교체하십시오.
  • 가장 자주 사용되지 않는 대문자 [10]또는 톤 표시가 있는 모든 대문자를 삭제하십시오(VSCII-3(TCVN3)). 이 글자들은 여전히 전자본 글꼴로 제공될 수 있다.[11]
  • Y라는 글자 양식을 톤 마크와 함께 떨어뜨려 그러한 상황에서 I라는 글자를 사용해야 한다. VISCII의 설계자들은 문자 부호화가 철자 개혁 문제를 해결하려고 시도해서는 안 된다는 근거로 이 접근법을 거부하였다.[10]
  • 최소 6개의 C0 제어 문자(VISCII, VSCII-1(TCVN1) 및 VPS)를[10] 교체하십시오.
  • 결합 문자를 사용하여, 일련의 문자(VNI, VSCII-2(TCVN2, Windows-1258ANSEL)를 사용하여 억양이 있는 하나의 모음을 완전히 나타낼 수 있도록 하십시오.

ch넴

𬖾
phởnôm 문자.[12]

유니코드는 유니코드의 레퍼토리인 CJK 통합이데오그래프의 일부로 1만 n overm 이상의 문자를 포함하고 있다. 이 중 1만82자는 CJK 통합 한자 확장 B블록에서 찾을 수 있으며, 나머지는 CJK 통합 한자 확장 A, CJK 통합 한자 확장 C블록 사이에 분포되어 있다. Tay 언어 특유의 400자 이상을 포함한 1,028개의 문자가 CJK 통합 한자 확장 E 블록에 인코딩된다. 문자는 베트남 표준 TCVN 5773:1993TCVN 6909:2001[TCVN 6056:1995?에 대한 오류]과 한노름연구소 및 기타 단체의 연구 결과에서 따온 것이다.[13] TCVN 5773:1993의 모든 문자와 TCVN 6909:2001[TCVN 6056:1995?에 대한 오류]의 약 95%는 유니코드 5.1에 해당하는 코드 포인트가 있지만 TCVN 5773:1993 자체는 대부분의 문자를 유니코드의 개인 사용 영역에 매핑했다.[14] 유니코드 13.0은 chữ Nôm에서 차용 문자를 나타내기 위해 일반적으로 사용되었던 두 개의 분음문자를 Ideographic 기호문장 부호 블록에 추가했다.[15][16]

가장 포괄적인 두 의 n fontsm 글꼴은 베트남 Nôm 보존재단Nôm Na Tống Light[17] 커뮤니티가 개발한 HANNOM A/HAN NOM B로, 둘 다 개인용도구역에 표준화되지 않은 문자를 다수 배치한다.[18]

유니코드 컨소시엄의 유니한 데이터베이스는 일부 문자의 베트남어 판독값을 포함하지만 중-베트남어 판독치와 n readingsm 판독치를 구분하지 않는다.

다른 CJKV 문자 체계와 마찬가지로 전통적으로 ch Nôm은 위에서 아래로 그리고 오른쪽에서 왼쪽으로 수직으로 쓰여진다.

Chữ HanChữ Nôm루비 문자를 사용하여 주석을 달 수 있는데, 이는 베트남어의 chữ quốc ngữ과 같다.[19]

텍스트 입력

순수하게 물리적인 베트남어 키보드는 알파벳의 문자-직각-직각 조합의 수(예: á, a, á, ả, ã, ã, etc, etc 등) 때문에 비현실적일 수 있다. 대신 베트남 입력은 공식 소프트웨어 기반 키보드 레이아웃, 가상 키보드 또는 입력 방법(IME라고도 함)에 의존한다.

키보드 레이아웃

Microsoft Windows에는 TCVN 6064:1995를 기반으로 한 베트남어 자판 배열이 포함되어 있다.
AZERTY 기반 베트남어 타이프라이터 자판 배열

베트남의 키보드 레이아웃은 다이아크리틱스로 문자를 구성하기 위해 데드 키에 의존한다. 대부분의 데스크톱 운영 체제에는 베트남 국가 표준인 TCVN 6064:1995[vi]와 유사한 베트남어 자판 배열이 포함되어 있다. 이전에 타이프라이터는 AZERTY 기반의 베트남어 레이아웃을 사용했다.[20]

입력 방법

유닉스 시스템의 X 입력 방법 프레임워크와 호환되는 IME인 xvnkb는 6개의 문자 인코딩으로 출력을 지원한다.

가장 일반적인 베트남 입력 방법은 텔렉스, VNI, VIQR이다. 텔렉스는 단어의 끝에 나타날 것 같지 않은 문자를 사용하여 분음 부호를 나타내며, VNI는 숫자 키나 기능 키를 용도 변경하고 VIQR은 다양한 구두점을 용도 변경한다. 텔렉스(Telex)와 VIQR(ViQR) 규약은 각각 텔렉스 기계와 타이프라이터의 초기 시대에 시작되었다.

이러한 입력 방법에 대한 지원은 베트남어로 b literallyg terms, 문자 그대로 "피커" 또는 "영향"으로 알려진 IMEs(입력 방법 편집자)에 의해 제공된다. IME는 운영체제에 의해 제공되거나, 타사 애플리케이션으로 설치되거나, 브라우저 확장으로 설치되거나, 스크립트의 형태로 개별 웹사이트에 의해 제공될 수 있다. 일반적인 타사 애플리케이션에는 GoTiengVet, UniKey, VietKey, VPSKees, WinVNKey 및 xvnkb가 포함된다. 유닉스 유사 운영체제에서 IBusSCM 프레임워크는 모두 베트남어를 지원한다. AVIM, Mudim, VietTyping과 같은 IME 스크립트는 대부분의 베트남어 메시지 게시판, 베트남어 위키백과 및 기타 텍스트 집약적인 웹사이트에서 찾을 수 있다. 베트남 웹 브라우저 Cốc Cốc에는 입력 방법이 내장되어 있다.

입력 방법은 키보드 레이아웃이 허용하는 것보다 더 유연한 순서로 단어를 구성할 수 있다. 예를 들어 TCVN 6064:1995 키보드 레이아웃을 사용하여 "viết" 단어를 입력하려면 이 순서대로 를 입력해야 한다. 대조적으로 대부분의 IME는 사용자가 단어의 끝에 Telex, VNI 또는 VIQR에 분음부 삽입을 허용한다. 일부 IME는 심지어 기본 문자 앞에 분음 부호를 입력할 수 있도록 허용한다. IME의 구현에 따라 단어를 다시 입력하지 않고도 기존 단어의 분음 부호를 편집할 수도 있다.

중국어 입력 방식에서 공통적으로 사용되는 특징을 빌리면 일부 베트남 IME는 분음 부호를 모두 건너뛰고 대신 기본 문자를 입력한 후 후보 목록에서 악센트 단어를 선택할 수 있다. 이 자동 완성 목록을 제공하기 위해 IME는 웹 서비스와 통신해야 할 수 있다. 일부 IME는 또한 후보 목록을 사용하여 사용자가 베트남 알파벳에서 chữ Nôm으로 텍스트를 변환할 수 있도록 한다. 왜냐하면 알파벳 단어와 nmm 문자 사이에 일대일 서신이 없기 때문이다.

기타 고려사항

전형적인 베트남어 텍스트는 복합어 비율이 높다. 복합어는 현대 용어로 하이픈을 사용하지 않기 때문에 철자 검사기는 통계 언어 모델을 참조하지 않는 한 개별 음절을 확인하는 것으로 제한된다.

베트남어는 철자 규칙이 엄격하고 예외가 거의 없기 때문에 텍스트 음성 변환 엔진은 외국어를 접할 때를 제외하고는 사전 검색을 피할 수 있다. TTS 엔진은 베트남어 의미에 필수적인 을 설명해야 한다. 예를 들어 ma(mother)는 ma(그러나)와 다른 단어다.

참고 항목

참조

  1. ^ Jump up to: a b Ngô Đình Học; Trần Tư Bình (July 21, 2014). "Express Manual for WinVNKey". WinVNKey. Retrieved October 5, 2014.
  2. ^ "Combining Diacritical Marks". Unicode 7.0 Character Code Charts. Unicode Consortium. June 16, 2014. Retrieved October 5, 2014.
  3. ^ Ngo, Hoc Dinh; Tran, TuBinh. "5. Why Having Vietnamese Charset (Character Set – Encoding) Conversion?". Some special functions of WinVNKey.
  4. ^ Jump up to: a b "Chọn Font chữ, bảng mã để gõ tiếng Việt". Bộ gõ tiếng Việt.Com (in Vietnamese). MangVN. 2009. Archived from the original on November 20, 2010.
  5. ^ Lunde, Ken (2009). CJKV Information Processing (2nd ed.). O'Reilly Media. pp. 47–49. ISBN 978-0-596-51447-1 – via Google Books.
  6. ^ Sivonen, Henri (2014-09-26). "Character encoding changes in m-c require c-c action". mozilla.dev.apps.thunderbird.
  7. ^ Hoàng Tô; Nguyễn Quan Sơn; Nguyễn Sơn Tùng; Phan Quang Minh; Phạm Thúc Trương Lương; Nguyễn Quang Hiệp; Bùi Văn Kiên; Nguyễn Ích Vinh (20 July 2014). Sử ký Tinh Vân: 20 năm sẻ chia và sáng tạo [History of Tinhvan: 20 years of sharing and creating] (in Vietnamese). 1. Tinhvan Group. p. 37 – via Google Books.
  8. ^ Trương, Donny. "Design Challenges". Vietnamese Typography. Retrieved April 10, 2018.
  9. ^ 예를 들어 다음을 참조하십시오.
  10. ^ Jump up to: a b c d e "2. Review Of Current Conventions". Vietnamese Character Encoding Standardization Report - VISCII And VIQR 1.1 Character Encoding Specifications (Technical report). Viet-Std Group. 1992. p. 10.
  11. ^ "Unicode & Vietnamese Legacy Character Encodings". Vietnamese Unicode FAQs. TCVN3 is not double-byte, but due to the nature of its encoding, capital letters (vowels) are mapped to a separate, capital font that is similar to the normal, lowercase one.
  12. ^ Trần Văn Kiệm (2004). "phở". Giúp đọc Nôm và Hán Việt (in Vietnamese) (4th ed.). [1]
  13. ^ Nguyễn Quang Hồng. "Giới thiệu Kho chữ Hán Nôm mã hoá" [Hán Nôm Coded Character Repertoire Introduction] (in Vietnamese). Vietnamese Nôm Preservation Foundation.
  14. ^ 룬드 2009, 페이지 152-153.
  15. ^ Collins, Lee; Ngô Thanh Nhàn (6 November 2017). "Proposal to Encode Two Vietnamese Alternate Reading Marks" (PDF).
  16. ^ "Proposed New Characters: The Pipeline". Unicode Consortium. 8 May 2019. Retrieved 26 May 2019.
  17. ^ "Nôm Font". Vietnamese Nôm Preservation Foundation. Retrieved October 5, 2014.
  18. ^ Đỗ Quốc Bảo; Tô Minh Tâm; Thiền Viện Viên Chiếu (December 8, 2005). "UNICODE Han Nom Font Set". Retrieved October 5, 2014.
  19. ^ 룬드 2009, 페이지 529.
  20. ^ Duncan, John William (2005-12-22), VietNamese Typewriter, retrieved 2020-07-11

추가 읽기

외부 링크