我們分析比較中英文的基本元素時(shí),認(rèn)為與英文的基本元素字母相對(duì)應(yīng)的是漢字筆畫(huà),而不是漢字本身。各漢字相互分開(kāi)不粘連,這雖與字母之間的關(guān)系相同,但不相互對(duì)應(yīng)。認(rèn)字的這種分割應(yīng)與英文字相互之間用空格分開(kāi)相對(duì)應(yīng)。漢字和英文字在數(shù)量上相當(dāng),其信息量——熵函數(shù)-∑Pilog2Pi相近,都有新創(chuàng)的、古老的、死滅不用的字,都有字典可查意義。字母和筆畫(huà)則是最穩(wěn)定不變的,數(shù)目多少相當(dāng),其信息量亦相近,都是字的最少組成部分。
但是漢字筆畫(huà)與英文字母之間存在著明顯的差別:
?。?、字母之間不相連,漢字筆畫(huà)則不僅可以相互連成一串,還可相交(重疊)。但是中國(guó)人卻很容易把兩個(gè)連成一體的筆畫(huà)區(qū)分為兩個(gè)不同的筆畫(huà),區(qū)分(的)原則是:筆畫(huà)運(yùn)行方向必須是從上到下,從左到右,除了筆尾很短的帶筆勾及挑(提),決不能取相反方向;斜向的筆畫(huà),以從上到下為住,即只允許從右上到左下的撇,不許從下向上;勾雖從下向上,但是筆尾,很短,且須提筆成尖;挑是向右上勾的特例,雖非筆尾,但亦必須短而尖。在這樣的筆畫(huà)原則下,首尾可連的都應(yīng)連成一筆。如“乃”字,第一筆撇從上向下,無(wú)論如何不(能)與第二筆“乃勾”連成一筆,而第二筆雖四次改變運(yùn)筆方向,卻首尾相連成一筆。
2、字母是按一定不變的次序線性排列成英文字,而漢字筆畫(huà)是分布在平面上的,雖然有筆順原則:先橫后豎、先撇后捺、從上到下、從左到右、從外到內(nèi)、先里頭后封口、先中間后兩邊”,筆畫(huà)順序有時(shí)還可以變化。如“乃”字,一般第一筆是撇,但第二筆“乃勾”起筆高于撇,也在撇之左,可先寫(xiě)。問(wèn)題是,以不同順序?qū)懗龅姆綁K字是一樣的,識(shí)別漢字用不著筆順信息。但要讓電腦自動(dòng)由筆畫(huà)形成完整的漢字時(shí),必須有確定不變的順序,而且要研究筆順與每筆落筆點(diǎn)的確定不變的關(guān)系,才能生成正確的漢字來(lái)。
?。?、漢字筆畫(huà)遠(yuǎn)比字母簡(jiǎn)單。除了個(gè)別象“乃勾”一樣(的)筆畫(huà)比英文中最簡(jiǎn)單的字母“L”復(fù)雜點(diǎn)外,漢字筆畫(huà)幾乎都是單劃,不是字,而英文字母即使是一筆寫(xiě)成的,也是“字”。漢字筆畫(huà)的簡(jiǎn)單,由漢組成漢字時(shí)平面位置的“復(fù)雜性”得到了充分的補(bǔ)償,使?jié)h字的信息量高于英文字,這是漢字的高明處。
?。础⒆钍谷梭@奇的是,漢字筆畫(huà)中沒(méi)有圓弧形的,而52個(gè)英文字母中,有2/3以上是有圓弧部分的。要知道,西歐人以前用的羽毛筆,那是不適合于畫(huà)圓形的。而中國(guó)人用的毛筆則很容易畫(huà)圈,草書(shū)中也不乏圈點(diǎn),但正楷、宋體等正式文書(shū)和印刷品中卻都沒(méi)有弧形筆畫(huà),連“點(diǎn)”也不是圓的。這一現(xiàn)象應(yīng)在各自的文字發(fā)展史中得到解釋。是不是因?yàn)槲鞣轿淖制鹪从谀喟迳蠈?xiě)的釘頭字:釘頭字顯然是一種長(zhǎng)桿在泥板上壓成的,桿頭寬且深,尾端尖且淺。用切斷的中空的植物莖桿,也容易壓出圓形來(lái),配以同樣易于壓出來(lái)的短橫,從而形成字母。漢字則是用刀刻在竹木板(竹簡(jiǎn))上,最難刻的是圓形,所以正式的字沒(méi)有圓弧,只有直線了。同樣,宋體字之所以豎粗橫細(xì),是不是在竹木板上刻橫筆易細(xì)(在木板上順著木紋刻凸字,用于印刷)或刻橫不易而只劃一細(xì)線(在竹板上豎直于竹紋刻陰文字)之故呢。這僅是我的猜想而已。
我們對(duì)于漢字筆畫(huà),尚未進(jìn)行充分的研究。古代幾乎只在書(shū)法上認(rèn)識(shí)和研究不同的筆畫(huà),目的是為了寫(xiě)好字。近代為了字典的檢索和漢字用筆畫(huà)碼輸入,才區(qū)分不同的筆畫(huà)。為此目的,幾乎都只把筆畫(huà)區(qū)分為五種“橫豎點(diǎn)撇折”,這里都把“捺”歸于“點(diǎn)”,“挑”歸于“橫”,其他均歸為“折”.這樣歸并的5類筆畫(huà),除了“橫”多一些外,基本上很均衡,倒很適于輸入法和漢字檢索的需要。據(jù)我的統(tǒng)計(jì),其間的分布如下表(按漢字出現(xiàn)的頻率加權(quán)的統(tǒng)計(jì)結(jié)果列于第二行):
筆劃 橫 豎 點(diǎn) 撇 折 合計(jì)
按字統(tǒng)計(jì)30.5 26.9 16.5 16.9 19.2 100.0
按字頻加權(quán)29.9 16.7 16.9 16.7 19.8 100.0
實(shí)際筆畫(huà)數(shù)目在30種左右,但不同作者的劃分和名稱大有出入,我歸納于下表。(表中第一列的筆畫(huà)名稱是我擬的,那些很別扭的長(zhǎng)名,都用出現(xiàn)該筆畫(huà)的常用字命名之。該名前附一個(gè)編號(hào),按此編號(hào)可從附圖查到筆畫(huà)形狀。)
漢字筆畫(huà):
作者 1 劉志成 2 楊洪清 3 小學(xué)生字典
1 橫 橫 橫 橫
?。病 ∝Q 豎 豎 豎
3 撇 撇 撇 撇
?。?1 橫 撇 橫 撇
?。?2 豎 撇 豎 撇
?。础 ↑c(diǎn) 點(diǎn) 點(diǎn) 點(diǎn)
4-1 豎 點(diǎn) 豎 點(diǎn)
5 捺 捺 捺 捺
5-1 平捺
?。丁 √帷 √帷 ?歸于橫) 提
7 橫折 橫折 橫折 橫折
?。浮 ∮制病 M撇 橫撇 橫撇
9 橫鉤 橫鉤 橫鉤 橫鉤
?。保啊 ≌坫^ 橫折鉤 橫折鉤 橫折鉤
?。保薄 ⊙蕴簟 M折提 橫折提 橫折提
12 風(fēng)鉤橫 折斜鉤 橫折 斜鉤
12-1 橫彎 橫折彎 橫折彎 橫折彎
12-2 凹折 橫 折 折
12-3 九鉤 橫折彎鉤 橫折(右)彎鉤橫折彎鉤
12-4 乙鉤 橫撇(右) 彎鉤
?。保场 《^ 橫撇彎鉤 橫撇(左)彎鉤橫撇彎鉤
13-1 走之 橫撇 (左)彎
14 建折 橫折折撇 橫折折撇 橫折折撇
?。保怠 ∧算^ 橫折折折鉤 橫折折折鉤 橫折折折鉤
15-1 凸折 橫折 折折折
15-2 易鉤 橫撇折 折鉤
?。保丁 ∝Q提 豎提 豎提 豎提
?。保贰 ∝Q折 豎折 豎折
17-1 豎彎 豎彎 豎彎 豎彎
18 豎鉤 豎鉤 豎鉤 豎鉤
?。保埂 恒^ 豎彎鉤 豎彎鉤 豎彎鉤
20 馬鉤 豎折折鉤 豎折折鉤 豎折折鉤
20-1 專折 豎折撇 豎折撇 豎折撇
20-2 鼎 折 豎折 折
?。玻薄 ∑颤c(diǎn) 撇點(diǎn) 撇點(diǎn) 撇點(diǎn)
?。玻病 ∑舱邸 ∑舱邸 ∑舱邸 ∑舱?br> 23 斜鉤 斜鉤 斜鉤 斜鉤
23-1 心鉤 臥彎鉤 臥彎鉤
?。玻础 濄^ 彎鉤 彎鉤 彎鉤
總數(shù) 39 31 31 28
注:1.見(jiàn)劉志成<漢字學(xué)>163頁(yè)天地出版社2001年7月
2.見(jiàn)楊洪清.朱新蘭<現(xiàn)代說(shuō)文解字字典>365-270頁(yè)群眾出版社1999年7月
?。常夹戮幮W(xué)生詞典>袖珍本,744頁(yè)人民教育出版社1989年7月
從上表即可看到不一致的一般性,尤其有些筆畫(huà)名稱太長(zhǎng),太別扭,我為他們另起了一個(gè)形象好記的或以它出現(xiàn)在某個(gè)常用字中字命名的兩個(gè)字的名字。第1列就是我擬的筆畫(huà)數(shù)最多的全部39種筆畫(huà)?,F(xiàn)在出現(xiàn)兩個(gè)問(wèn)題,第一個(gè)問(wèn)題是這些筆畫(huà)出現(xiàn)頻率差異很大,有些筆畫(huà)如“專折”頻率只有0.00005.而鼎折,凸折,凹折幾乎只出現(xiàn)在這幾個(gè)字中,所以作了適當(dāng)?shù)暮喜?。而筆畫(huà)“橫”則頻率太高,我把它分為兩種;與其他相交的“橫”稱為“交橫”.第二個(gè)問(wèn)題是,有些字的一些筆畫(huà)可選用二種不同的筆畫(huà)而不影響該字的形狀,如外圈“囗”的第二筆,可以寫(xiě)成“橫折”或“折鉤”,我想基本上可以該部的大小來(lái)決定:大的,尤其是作為整個(gè)字的外圈時(shí),用“折鉤”。
到底應(yīng)分成幾種筆畫(huà)為好,我認(rèn)為應(yīng)考慮把漢字植根于電腦的需要。一些出現(xiàn)頻率很小,可以合并為一種,只要由筆畫(huà)序列生成漢字時(shí),可以用極簡(jiǎn)單的條件語(yǔ)句選用其中某一種正確的。這樣可以不用全部39種不同的筆畫(huà),最好選26種以下,以便把它們安排在現(xiàn)有的字母鍵上,(甚至)還可以留出1~2個(gè)作結(jié)構(gòu)鍵用?! ∥疫x了24種,第一種“橫”拆分為兩種,共25種。現(xiàn)按這25種筆畫(huà)統(tǒng)計(jì)出現(xiàn)頻率并計(jì)算信息量(熵),同時(shí)附上英文字母的出現(xiàn)頻率和相應(yīng)的信息量作對(duì)照,詳見(jiàn)下表:
筆畫(huà) 頻率 加權(quán)頻率 字母 頻率
橫 0.173 0.182 e 0.130
交橫 0.104 0.098 t 0.092
豎 0.169 0.165 a 0.082
撇 0.165 0.164 o 0.078
點(diǎn) 0.140 0.132 i 0.070
捺 0.030 0.039 n 0.069
提 0.028 0.022 s 0.068
橫折 0.064 0.057 k 0.062
又撇 0.016 0.019 h 0.050
橫鉤 0.010 0.009 e 0.042
折鉤 0.023 0.032 d 0.035
言挑 0.002 0.002 c 0.030
風(fēng)鉤 0.003 0.002 u 0.028
耳鉤 0.004 0.006 w 0.026
建折 0.0005 0.001 f 0.023
乃鉤 0.0006 0.0003 y 0.020
豎挑 0.009 0.006 p 0.020
右折 0.008 0.004 q 0.019
豎鉤 0.015 0.021 w 0.019
兒鉤 0.010 0.013 b 0.015
馬鉤 0.004 0.002 v 0.011
撇點(diǎn) 0.004 0.002 k 0.007
撇折 0.012 0.016 x 0.002
斜鉤 0.004 0.005 j 0.001
彎鉤 0.002 0.0007 q 0.001
信息量 3.43 3.43 4.16
因?yàn)檫@里的字母頻率,不包括空格,數(shù)值是我自己從大學(xué)英語(yǔ)課文統(tǒng)計(jì)的,頻率有所不同,熵值也較大.
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。