漢字排檢法
漢字排檢法就是排序和檢索漢字的方法,對于工具書條目的排檢、圖書和檔案目錄的編查,人名地名的排列,各種字表的編排,計算機字符集編碼與文字檢索等等,都是不可或缺的。 [1]
英文等文字只用幾十個拉丁字母,排序非常簡易:字母表直接規定了字母序,而詞語也是通過字母順序來排列的。 漢字是語素文字,字數繁多,結構複雜,字序排列相當艱巨。 爲了方便學習和使用,漢語的字序排列必須利用漢字本身的屬性特徵。 漢字有形、音、義等方面的屬性,相應的就有形序、音序和義序排檢法。這些方法各有所長。[1]
形序排檢法
编辑形序法是基于漢字的形體特徵來編排和檢索漢字的方法。常用的形序法有部首法、筆畫法和號碼法。[2]
部首排檢法
编辑《說文解字》部首法
编辑最早的形序法是東漢人許慎在編寫《說文解字》時首創的部首法。《說文解字》(簡稱《說文》)寫作于公元100年至121年,是中國第一部字書。
《說文》收字9,353個(篆體字形),把有相同表義偏旁的字彙集在一起,建立爲一部,每一部就用那個相同偏旁作爲代表,叫做部首。 全書共分540部,也就有540個部首。形體相似或意義相近的部首排在一起,每一部內的字基本上是按“以類相從”的方法排列。例如水部字,大致上是先列水名,後列與水有關的動詞和形容詞。 《說文》嚴格依照傳統六書的體系,同一意旁的字隸屬同一部首,具有文字學的理據。但從後世的檢索來看,《說文》的據義歸部法不够方便。爲查一字,往往需要采用“地毯式的”檢索方法。[3]
《康熙字典》部首法
编辑明代梅鷹祚編《字彙》,將部首减爲214部,按照筆劃數排列部首和部首內的字。在字的歸部上,采取據形歸部的原則。 清代的《康熙字典》沿用了《字彙》的部首法。進入20世紀後,《中華大字典》(1915)、《辭源》(1915)、《辭海》(1936)和 Unicode 中的CJK漢字集等都以《康熙字典》部首法爲基礎。[4]
以《康熙字典》部首法爲代表的傳統字序法,用現代科學的眼光來看仍有許多缺點。據王雲五(1928)在《四角號碼檢字法 自序》中所指出的,這些缺點包括: 對于大型的字典,同一部同一筆劃數的字都可能有數百之多。 部首的界綫不分明:例如“夜”屬夕部,“滕”歸水部,“求”歸水部,“年”歸干部,都是難以捉摸的。 筆劃的連筆和分筆沒有一定的規則。[5]
《漢字部首表》
编辑《漢字部首表》規範 [6]規定了漢字的部首表及其使用規則,主部首201個,附形部首共100個。 《漢字部首表》是中國現行的部首規範,從2009年5月1日起實施。 《漢字部首表》 以現存有代表性有影響的《康熙字典》《辭海》《新華字典》《現代漢語詞典》等字書的部首表爲基礎和依據設立部首。首先考慮現行漢字檢索的需要,依據現行漢字的字形特徵確立主部首和處理主附關係;同時爲適應更大範圍漢字楷書字形檢索的需要,增設附形部首幷允許變通處理。 最近出版的新華字典第11、12版 和現代漢語詞典第6、7版都已經轉用《漢字部首表》規範。
部首法的優點主要是支持大字符集的漢字檢索,可用於查找不知讀音的字。 缺點有:部首的位置不固定,在不同的字中可能位於上、下、左、右、内、外等部位。 各辭書的立部歸部不統一。 部首之間的排列和同部首的單字的排序以及難檢字表都需要借助其他排檢法。[7]
就現階段來說, 港澳臺多采用《康熙字典》的214部(或稍作删改), 內地多采用《漢字部首表》的201部。 還有其他的變化,一般都是以康熙部首爲基礎,例如Unicode的漢字表。[8]
筆劃排檢法
编辑筆劃排檢法是根據漢字的筆畫屬性來排序和檢索漢語字詞的方法。筆劃排檢法包括筆劃數法和筆劃數-筆順法等。[9]
筆劃數法根據漢字筆劃數的多寡來排序,筆畫少的漢字排在多的漢字的前面。 例如,“汉字笔画, 漢字筆劃” 中的不同漢字的排序是“汉(5)字(6)画(8)笔(10)[筆(12)畫(12)]漢(14)”,圓括號內是筆畫數。 [10]
筆劃數-筆順法,也稱筆畫筆形法,其基本原理是:先按筆畫數從少到多排序,同筆畫數的兩個字按筆順第一筆的“橫、竪、撇、點、折”(中國大陸和香港澳門等) 或“點、橫、竪、撇、折”(台灣和香港澳門等)筆形順序排列。如果第一筆屬同一類筆形,則按第二筆排列,以此類推。[11]
在上一節的例子中,繁体字“筆” 和 “畫” 都是 12 筆劃。“筆”的第一劃是 “㇓”屬於撇類, “畫”的 第一劃是 “㇕”,屬於折類, 根據排列順序,“撇”在“折”之前,所以漢字“筆”排在“畫”之前。於是, "汉字笔画, 漢字筆劃" 中不同漢字的最終排序是 "汉(5)字(6)画(8)笔(10)筆(12)畫(12)漢(14)"。
GB13000.1字符集漢字字序(筆畫序)規範 是中國内地的國家標準,由國家語言文字工作委員會於1999年發布,是傳統筆畫數-筆順排檢法的增強版本。[12]
根據這個標準,兩個漢字首先按筆畫數排序。 若筆畫數相同,則依筆順(橫、竪、撇、點、折 五類)排序。 如果漢字筆順也相同,則依照筆畫主次排序。 例如,“子”和“孑”的筆畫數和筆順都相同(“㇐”和“㇀”都屬於橫類),但根據主次筆畫規則,主筆畫“㇐”在次筆畫“㇀”之前。 所以“子”在“孑”之前。 若兩漢字筆畫數、筆順、主次筆畫相同,則依筆畫組合方式排序。 筆劃相離先於筆劃相接,筆畫相接先於筆劃相交。 例如:“八”在“人”之前,“人”在“乂”之前。 標準中還有其他排序規則,可以實現更準確的排序。[12]
一二三漢字筆順排檢法[13]根據筆順和一個有序的筆畫表
"㇐ ㇕ ㇅ ㇎ ㇡ ㇋ ㇊ ㇍ ㇈ ㇆ ㇇ ㇌ 飞(首筆) ㇀ ㇑ ㇗ ㇞ ㇉ ㄣ ㇙ ㇄ ㇟ ㇚ ㇓ ㇜ ㇛ ㇢ ㇔ ㇏ ㇂"
來給漢字排序,原理與拉丁文字的字母順序排檢法(alphabetical order)完全一致。例如, "汉字笔画, 漢字筆劃" 中不同漢字的一二三排序是 "画畫筆笔字漢汉"。
與傳統筆畫排檢法相比,該排檢法免除了數算筆畫和歸并筆畫(為五類)的負擔,但保持了排檢的精確度。[14]
號碼法
编辑號碼法實質上是形序法的代碼化,一般是把筆形轉化爲數字代碼,根據代碼來排檢。 影響最大的號碼法是王雲五1925年提出來的四角號碼查字法。 現在還有一些工具書提供這種查字法,例如《新華字典》大字本(2011年版) 。[15]
四角號碼查字法把漢字四個角的筆形分爲十種,用0到9表示:取角的順序是左上、右上、左下、右下。例如:端0212、香2060、港3411。爲了减少重碼字,可取右下角上方貼近而露鋒芒的筆形爲第五角,稱爲“附角號碼”。例如:香20609、港34117。[16]
1964年中國政府組織的漢字查字法工作小組公布的《四角號碼查字法(草案)》對原有的方法作了幾處改動,習慣上稱之爲“新四角號碼查字法”。 [17]
四角號碼的優點是:不用部首、不用計算筆劃數、不用筆順、不用知道字的讀音、號碼字序固定等。 缺點是:筆形和號碼之間的對應沒有理據,需要死記。另一個缺點是重碼字較多。例如在《新華字典》(2012年大字本)中,代碼爲44227的字有57個。需要借助其他排序法來處理。[18]
音序法排檢法
编辑音序法根據讀音來排列字詞。最早采用音序排字法的工具書是韵書。韵書的産生是爲了滿足寫作詩賦的需要。 韵書一般用反切標音。 根據記載,最早的韵書産生于三國,但較有代表性的是《廣韵》。 《廣韵》,全名《大宋重修廣韵》,是中國第一部官修韵書。 《廣韵》按四聲分出206韵:上平聲28韵,下平聲29韵,上聲55韵,去聲60韵,入聲34韵。 同一個韵裏的字按照聲母或介音的异同分出完全同音的字組,叫做小韵。 現代人使用《廣韵》這類韵書查字幷不容易。 [19]
現代比較通用的音序法有漢語拼音音序法和注音字母音序法
注音字母音序法
编辑注音字母是1913年召開的讀音統一會制定的,1918年由民國政府教育部公布實施。 1919年,教育部公布《注音字母音類次序》。 1928年政府大學院公布國語羅馬字注音法式,作爲國音字母第二式。注音字母也就成爲國音字母第一式,1930年更名爲注音符號。[20]
使用注音字母音序的辭書包括 《國語常用字匯》。教育部國語統一籌備委員會編,1932年公布,用注音字母和國語羅馬字注音。字條按注音符號的順序排列。同音字中常用的排前面。 《國語辭典》,1937~1945年出完全部四册。1980年臺灣出版《重編國語辭典》,現今是《教育部國語辭典》。書中各詞按照注音符號排序,同音之字按聲調爲序。調也相同則按筆劃數由少到多排列。 [21]
漢語拼音音序法
编辑1958年2月,中國政府發布實施《漢語拼音方案》後,內地的音序排字法大多采用漢語拼音,如《新華字典》、《現代漢語詞典》、《中國大百科全書》等。[22]
單字條目的排列是,先按照聲韵母的字母順序排列。聲韵母相同的,按照聲調陰平、陽平、上聲、去聲、輕聲排列。 聲韵調相同的字現在一般是借助筆劃法排列。
多字條目通常是逐字按拼音排列。 先按第一個字的拼音音節排列,第一個字相同的詞聚在一起,按照第二個字的音節排列,以此類推。例如:[23]
底層 (dǐcéng), 地標 (dìbiāo), 地表 (dìbiǎo), 地租 (dìzū), 電燈 (diàndēng)
《現代漢語詞典》(2012,2016)等采用這種排法。
音序法的優點是簡單易用,與國際通用的字母順序原理一致。音序法的局限包括,要瞭解所查字的正確讀音。還要掌握所用的拼音系統,例如:注音符號、漢語拼音、粵語拼音。此外,同音字(包括繁簡異體字)的排列需要借助其他排檢法來解决。[24]
義序排檢法
编辑義序法是一種基于字詞意義的排序方法。古代的義序法以《爾雅》爲代表。《爾雅》成書于戰國末年,是最先采用義序法編著的字書。《爾雅》是一部故訓彙編,把前人傳下來的有關經義的解釋彙集在一起,供人使用。 現存的《爾雅》共三卷,把要解釋的語詞根據意義分爲十九類, 每類一篇,每一篇有許多條,每條是一組同義詞,先列出需要解釋的詞語,然後用一個常用詞來解釋。例如:“ 林、烝、天、地、皇、王、後、辟、公、侯,君也”。 [25]
在《爾雅》之後産生的和《爾雅》性質相同的著作有《小爾雅》、《釋名》和《廣雅》等。 漢代揚雄著的《方言》是古代方言詞匯彙編,也采用同《爾雅》類似的義序法。不同的是,對于同屬一個條目的一組同義詞,還要說明它們各屬什麽方言。例如: 黨、曉、哲、知也。楚謂之黨,或曰曉。齊宋之間謂之哲。 [26]
在義序法的具體設計中,應該把詞語分爲多少類、類間如何排列次序、類內詞語如何排列,都有很大的任意性。使得使用者對詞語的分類和排列的瞭解,難以做到和編書人的想法完全一致,因此在檢索時常常遇到困難。
現代也有用義序編排的辭書,例如《同義詞詞林》[27],《實用廣州話分類詞典》[28],分類比古代精密得多,但仍需要附上漢語拼音、部首或筆劃索引。這說明義序法在很講究工作效率的今天已經很難作爲一種獨立的排檢法來使用了。
參見
编辑參考資料
编辑引用
编辑- ^ 1.0 1.1 苏 2014,第183頁.
- ^ 王 2003,第20頁.
- ^ 苏 2014,第186頁.
- ^ 王 2003,第22-23頁.
- ^ 苏 2014,第187-188頁.
- ^ 国家语委 2009a.
- ^ 詹 2008,第20頁.
- ^ Unicode Consortium 2013.
- ^ 王 2003,第23-25頁.
- ^ 王 2003,第23-24頁.
- ^ 李 2013,第326頁.
- ^ 12.0 12.1 国家语委 1999.
- ^ 存档副本. [2023-12-05]. (原始内容存档于2023-12-13).
- ^ 张 2013.
- ^ 苏 2014,第203頁.
- ^ 王 2003,第25-26頁.
- ^ 王 2003,第26頁.
- ^ 苏 2014,第205頁.
- ^ 苏 2014,第188-189頁.
- ^ 苏 2014,第197-198頁.
- ^ 苏 2014,第198-199頁.
- ^ 苏 2014,第200頁.
- ^ 王 2003,第27頁.
- ^ 苏 2014,第202頁.
- ^ 蘇 2014,第184頁.
- ^ 苏 2014,第185頁.
- ^ 梅 1996.
- ^ 麥 1997.
引用文獻
编辑- 国家语委, 国家语言文字工作委员会. GB13000.1字符集汉字字序(笔画序)规范 (PDF). 上海: 上海教育出版社. 1999 [2023-12-05]. (原始内容存档 (PDF)于2023-05-23) (中文).
- 国家语委, 国家语言文字工作委员会. 漢字部首表 (The Table of Indexing Chinese Character Component). 北京: 語文出版社. 2009a.
- 李, 大遂. 简明实用汉字学 3rd. 北京: 北京大學出版社. 2013. ISBN 978-7-301-21958-4 (中文).
- 麦, 耘 (麦耘,谭步云). 实用广州话分类词典. 广州: 广东人民出版社. 1997. ISBN 978-9-620-70305-8 (中文).
- 梅, 家驹 (梅家驹等). 同义词词林. 上海: 上海辞书出版社. 1996. ISBN 978-7-532-60396-1 (中文).
- 苏, 培成. 现代汉字学纲要 3rd. 北京: 商务印书馆. 2014. ISBN 978-7-100-10440-1 (中文).
- 王, 寧 (王寧 和 鄒曉麗). 工具書. 香港: 和平圖書有限公司. 2003. ISBN 962-238-363-7 (中文).
- 杨, 润陆. 现代汉字学. 北京: 北京师范大学出版社. 2008. ISBN 978-7-303-09437-0 (中文).
- 詹, 德优 (詹德优等). 中文工具書使用法. 北京: 商務印書館. 2008. ISBN 978-7-100-01510-3 (中文).
- 张, 小衡 (张小衡,李笑通); et al. 一二三笔顺检字手册. 北京: 语文出版社. 2013. ISBN 978-7-80241-670-3 (中文).
- Unicode Consortium. Unicode Standard, Version 15.1.0.. Mountain View, CA: Unicode Consortium. 2023 [2023-12-07]. (原始内容存档于2024-02-13) (英语).