Site Network: um_bloggers | imagebank | videoworks | essence | business home

Welcome to the official blog of Uncle Ming's Gallery

I have always been among those who believed that the greatest freedom of speech was the greatest safety, because if a man is a fool the best thing to do is to encourage him to advertise the fact by speaking. (我以為讓愚蠢的人自暴其醜, 正是最大之言論自由所以是最安全的主因)

WOODROW WILSON (編輯組譯)


1. 資科人看世界之29


中英文語法差異和優劣

Grammar and the Pros & Cons of Language Grammar

-19/7/2018

無極 PoleZero


註:  以下內容, 純屬作者一般個人意見,不能視為有法律約束力之專業意見,凡涉及如投資、法律、會計、建築或醫療等受法律規管行業之專業問題,如有疑問請自行向具專業操守 之相關專業顧問或從業員查 詢

免 責條款 DISCLAIMER




從資訊科技的角度看語言

每種文字都有一定的習慣語法(grammar),中英文的語法有顯著分别,精於英文的,會覺得中文語法混亂,語意含糊,傾向認為英文較嚴謹清晰,中文則只能在文學意境表達上較為優勝,科學或法律的表達則差勁。

從資訊科技的角度來看,在日常應用中,中英文這個差異確實存在,其實這個差異源於兩種語文的使用習 慣。語言(language)相當於一種通訊協定 (protocol),是訊息載體(carrier),也是編碼(code)的一種,作用是攜帶和貯存訊息。中文語系是世上唯一流傳和應用至今的表意文字 (ideogram),英文屬拉丁語系,是拼音文字(phonogram),也是全球應用最廣泛的文字系統。

語言结構

語言(language)由發音系統(speech)書寫系統(writing)構成。

發音系統

人類發音器官相同,語音元素(speech sound elements)基本一致,包括二十個左右的輔音(consonant)和數個元音(vowel)組成,輔音和元音再組合成複合輔音複合元音, 合計大概有廿多個輔音和廿個元音,輔音加元音或元音本身構成獨特單音節的聲音,理論上可有四百多個,再按音調高低而能倍增,例如廣東話有九聲,理論上能將 聲音元素再增大9倍,普通話只有4聲,倍增量較少,英文一般只分輕重音。現存語言大多只利用了全部音素的一部份,在數量上也有差異。

phonemic chart

Source: https://www.englishclub.com/images/pronunciation/Phonemic-Chart.jpg

書寫系統

書寫系統則分為表意和拼音兩種,表意文字以中文為代表,每字都是單音節;文字基本元素是約二百個的基 本字,稱為部首(radical),是抽像化了的表意圖像(logogram), 每個都代表了某種事物;所有文字都是用這二百多的部首以二維的形式拼合而 成,包含部首由一個至十多個不等,每一個文字便等同了一個平面拼圖,能表達複雜含義,搞文藝的老朋友稱之為意境;有些時候部首位置會影响意義,有時卻又不 相關,例如「秋」字古文字可禾火互調位置,「音」和「昱」便是兩個不同的字。經過數千年的演化,現存中文字共有5萬個左右,還在用的繁體字一萬多,常用字四千多,日 常用字實際可少至數百個左右。因為單字出現同音機會大,為減少口語 (verbal communication)上的誤解,複合詞語增多,利用音串(string of syllables)來識别不同事物,這點和拼音文字相同,理論上總數是聲音元素數量的平方,可達十多萬個排列,實際上考慮到音串要符合意義,當然不可能 有這麽多可用詞語。書寫更加不成問題,因為表意文字望文生義,縱然見字不知讀音,也能猜中大概,那是何以「語不同音」但「書能同文」的原因。

[隱藏]部次部首(變體)筆畫英譯拼音/注音字例
11oneyī / ㄧ丁、七、三
21linegǔn / ㄍㄨㄣˇ中、丰、串
31dotzhǔ / ㄓㄨˇ丸、凡、丹
4丿1slashpiě / ㄆㄧㄝˇ乂、乃、久
51secondyǐ / ㄧˇ九、乞、也
61hookjué / ㄐㄩㄝˊ了、矛、事
72twoèr / ㄦˋ亍、于、云
82lidtóu / ㄊㄡˊ亡、亢、交
92manrén / ㄖㄣˊ什、仁、仇
102legsrén / ㄖㄣˊ兀、允、元
112enterrù / ㄖㄨˋ內、全、兩
122eightbā / ㄅㄚ公、六、兮
132widejiōng / ㄐㄩㄥ冇、冊、冉
142cloth covermì / ㄇㄧˋ冗、冠、冥
152icebīng / ㄅㄧㄥ冬、冰、冶
162tablejī / ㄐㄧ凪、凰、凱
172receptaclekǎn / ㄎㄢˇ凶、凸、凹
182knifedāo / ㄉㄠ刁、刃、分
192powerlì / ㄌㄧˋ加、功、劣
202wrapbāo / ㄅㄠ勺、勻、勾
212spoonbǐ / ㄅㄧˇ化、北、匙
222boxfāng / ㄈㄤ匜、匝、匠
232hiding enclosurexì / ㄒㄧˋ匹、匼、匽
242tenshí / ㄕˊ千、卅、升
252divinationbǔ / ㄅㄨˇ卞、占、卡
262seal (device)jié / ㄐㄧㄝˊ卬、卯、卮
272cliffhǎn / ㄏㄢˇ厄、原、厚
282privatesī / ㄙ厹、去、參
292againyòu / ㄧㄡˋ叉、及、友
303mouthkǒu / ㄎㄡˇ叱、古、只
313enclosurewéi / ㄨㄟˊ囚、四、囝
323earthtǔ / ㄊㄨˇ圠、圣、圭
333scholarshì / ㄕˋ壬、狀、垂
343gozhǐ / ㄓˇ夃、夅、夆
353go slowlysuī / ㄙㄨㄟ夌、复、夏
363eveningxī / ㄒㄧˋ外、夗、多
373bigdà / ㄉㄚˋ太、天、夭
383womannǚ / ㄋㄩˇ奴、奶、如
393childzǐ / ㄗˇ孑、孓、孔
403roofmián / ㄇㄧㄢˊ宁、它、宄
413inchcùn / ㄘㄨㄣˋ寺、封、射
423smallxiǎo / ㄒㄧㄠˇ尐、少、尖
433lamewāng / ㄨㄤ尤、尥、尨
443corpseshī / ㄕ尺、尼、尻
453sproutchè / ㄔㄜˋ屯、屰
463mountainshān / ㄕㄢ屴、屵、屹
473riverchuān / ㄔㄨㄢ川、州、巟
483workgōng / ㄍㄨㄥ左、巧、巨
493oneselfjǐ / ㄐㄧˇ已、巳、巴
503turbanjīn / ㄐㄧㄣ巿、帀、市
513drygān / ㄍㄢ开、平、年
523short threadyāo / ㄧㄠ幻、幼、幽
53广3dotted cliffyǎn / ㄧㄢˇ庀、庂、庄
543long strideyǐn / ㄧㄣˇ廵、廷、延
553archgǒng / ㄍㄨㄥˇ廿、弁、弄
563shootyì / ㄧˋ弌、弍、弎
573bowgōng / ㄍㄨㄥ弔、引、弗
583snoutjì / ㄐㄧˋ彔、彖、彗
593bristleshān / ㄕㄢ形、彤、彥
603stepchì / ㄔ㣔、彴、彷
614heartxīn / ㄒㄧㄣ必、忉、忌
624halberdgē / ㄍㄜ戊、戉、戌
634doorhù / ㄏㄨˋ戹、戼、戽
644handshǒu / ㄕㄡˇ才、扎、扐
654branchzhī / ㄓ攰、攱、攲
664rap, tappū / ㄆㄨ收、攷、攸
674scriptwén / ㄨㄣˊ斉、斌、斐
684dipperdǒu / ㄉㄡˇ料、斚、斛
694axejīn / ㄐㄧㄣ斥、斧、斨
704squarefāng / ㄈㄤ㫃、於、㫄
714notwú / ㄨˊ既、旣、旤
724sunrì / ㄖˋ旦、旨、早
734sayyuē / ㄩㄝ曲、曳、更
744moonyuè / ㄩㄝˋ有、朋、服
754treemù / ㄇㄨˋ未、末、本
764lackqiàn / ㄑㄧㄢˋ次、欣、欥
774stopzhǐ / ㄓˇ正、此、步
784deathdǎi / ㄉㄞˇ歺、死、歿
794weaponshū / ㄕㄨ段、殷、殺
804do notwú / ㄨˊ母、每、毐
814comparebǐ / ㄅㄧˇ毖、毗、毘
824furmáo / ㄇㄠˊ毡、毣、毧
834clanshì / ㄕˋ氐、民、氓
844steamqì / ㄑㄧˋ氕、氘、氚
854watershuǐ / ㄕㄨㄟˇ永、氷、氾
864firehuǒ / ㄏㄨㄛˇ灰、灯、灶
874clawzhǎo / ㄓㄠˇ爬、爭、爰
884fatherfù / ㄈㄨˋ爸、爹、爺
894Trigramsyáo / ㄧㄠˊ爼、爽、爾
904split woodqiáng/ㄑㄧㄤˊ牀、牁、牂
914slicepiàn / ㄆㄧㄢˋ版、牉、牌
924fangyá / ㄧㄚˊ㸦、㸧、牚
934cowniú / ㄋㄧㄡˊ牝、牟、牠
944dogquǎn / ㄑㄩㄢˇ犮、犯、犰
955profoundxuán / ㄒㄩㄢˊ玅、率、玈
965jadeyù / ㄩˋ王、玊、玎
975melonguā / ㄍㄨㄚ瓝、瓞、瓟
985tilewǎ / ㄨㄚˇ㼚、瓮、瓫
995sweetgān / ㄍㄢ甚、甜、甛
1005lifeshēng / ㄕㄥ甡、產、甥
1015useyòng / ㄩㄥˋ甩、甫、甬
1025fieldtián / ㄊㄧㄢˊ由、甲、申
1035bolt of clothpǐ / ㄆㄧˇ疌、疏、疎
1045sicknesschuáng / ㄔㄨㄤˊ疔、疚、疝
1055footstepsbō / ㄅㄛ癸、癹、発
1065whitebái / ㄅㄞˊ百、皀、皁
1075skinpí / ㄆㄧˊ皯、皰、皴
1085dishmǐn / ㄇㄧㄣˇ盂、盃、盅
1095eyemù / ㄇㄨˋ盯、盱、盲
1105spearmáo / ㄇㄠˊ矜、矞、矟
1115arrowshǐ / ㄕˇ矣、知、矧
1125stoneshí / ㄕˊ矸、矻、矼
1135spiritshì / ㄕˋ礼、礽、社
1145trackróu / ㄖㄡˊ禹、禺、离
1155grainhé / ㄏㄜˊ禿、秀、私
1165cavexué / ㄒㄩㄝˋ究、穸、空
1175standlì / ㄌㄧˋ竑、竒、竘
1186bamboozhú / ㄓㄨˊ竺、竽、竿
1196ricemǐ / ㄇㄧˇ籸、籹、籽
1206silkmì / ㄇㄧˋ系、糾、紀
1216jarfǒu / ㄈㄡˇ缸、缺、缽
1226netwǎng / ㄨㄤˇ罔、罕、罘
1236sheepyáng / ㄧㄤˊ羋、羌、美
1246featheryǔ / ㄩˇ羿、翀、翁
1256oldlǎo / ㄌㄠˇ考、者、耆
1266andér / ㄦˊ耍、耎、耏
1276plowlěi / ㄌㄟˇ耔、耕、耖
1286earěr / ㄦˇ耴、耵、耷
1296brushyù / ㄩˋ肄、肆、肅
1306meatròu / ㄖㄡˋ肊、肋、肌
1316ministerchén / ㄔㄣˊ臤、臥、臧
1326selfzì / ㄗˋ臬、臭、臯
1336arrivezhì / ㄓˋ致、臷、臺
1346mortarjiù / ㄐㄧㄡˋ臾、臿、舁
1356tongueshé / ㄕㄜˊ舍、舐、舑
1366opposechuǎn / ㄔㄨㄢˇ舜、舝、舞
1376boatzhōu / ㄓㄡ舠、舡、舢
1386stoppinggēn / ㄍㄣˋ良、艱
1396colorsè / ㄙㄜˋ艳、艴、艵
1406grasscǎo / ㄘㄠˇ艽、艾、芃
1416tigerhū / ㄏㄨ虎、虐、虒
1426insecthuǐ / ㄏㄨㄟˇ虬、虯、虱
1436bloodxiě / ㄒㄧㄝˇ衁、衂、衃
1446walk enclosurexíng / ㄒㄧㄥˊ衍、衎、衒
1456clothesyī / ㄧ初、表、衫
1466coveryà / ㄧㄚˋ西、要、覂
1477seejiàn / ㄐㄧㄢˋ規、覓、視
1487hornjiǎo / ㄐㄧㄠˇ觓、觔、觕
1497speechyán / ㄧㄢˊ訂、訃、計
1507valleygǔ / ㄍㄨˇ谹、谽、谿
1517beandòu / ㄉㄡˋ豇、豈、豉
1527pigshǐ / ㄕˇ豗、豚、豜
1537badgerzhì / ㄓˋ豺、豻、豹
1547shellbèi / ㄅㄟˋ貞、負、財
1557redchì / ㄔˋ赦、赧、赨
1567runzǒu / ㄗㄡˇ赳、赴、赶
1577footzú / ㄗㄨˊ趴、趵、趷
1587bodyshēn / ㄕㄣ躬、躭、躰
1597cartchē / ㄔㄜ軋、軌、軍
1607bitterxīn / ㄒㄧㄣ辜、辝、辟
1617morningchén / ㄔㄣˊ辱、農、辴
1627walkchuò / ㄔㄨㄛˋ边、巡、迂
1637cityyì / ㄧˋ邕、邗、邘
1647wineyǒu / ㄧㄡˇ酊、酋、酌
1657distinguishbiàn / ㄅㄧㄢˋ采、釉、釋
1667villagelǐ / ㄌㄧˇ重、野、量
1678goldjīn / ㄐㄧㄣ釓、釔、釕
1688longcháng / ㄔㄤˊ镺、镻、镼
1698gatemén / ㄇㄣˊ閂、閃、閆
1708moundfù / ㄈㄨˋ阞、阡、阢
1718slavedài / ㄉㄞˋ𨽻、隷、隸
1728short-tailed birdzhuī / ㄓㄨㄟ隻、隼、隽
1738rainyǔ / ㄩˇ雩、雪、雯
1748blueqīng / ㄑㄧㄥ靖、静、靚
1758wrongfēi / ㄈㄟ靟、靠、靡
1769facemiàn / ㄇㄧㄢˋ靤、靦、靧
1779leathergé / ㄍㄜˊ靭、靮、靳
1789tanned leatherwéi / ㄨㄟˊ韌、韍、韎
1799leekjiǔ / ㄐㄧㄡˇ韰、韲、䪢
1809soundyīn / ㄧㄣ竟、章、韵
1819leafyè / ㄧㄝˋ頂、頃、頄
1829windfēng / ㄈㄥ颩、颭、颮
1839flyfēi / ㄈㄟ䬡、飜、飝
1849eatshí / ㄕˊ飡、飢、飣
1859headshǒu / ㄕㄡˇ馗、䭫、馘
1869fragrantxiāng / ㄒㄧㄤ馝、馞、馡
18710horsemǎ / ㄇㄚˇ馭、馮、馯
18810bonegǔ / ㄍㄨˇ骫、骭、骯
18910tallgāo / ㄍㄠ髚、髛、𩫛
19010hairbiāo / ㄅㄧㄠ髠、髡、髢
19110fightdòu / ㄉㄡˋ鬦、鬧、鬨
19210sacrificial winechàng / ㄔㄤˋ鬰、鬱
19310cauldronlì / ㄌㄧˋ鬳、鬴、鬵
19410ghostguǐ / ㄍㄨㄟˇ鬾、魁、魂
19511fishyú / ㄩˊ魟、魠、魦
19611birdniǎo / ㄋㄧㄠˇ鳦、鳧、鳩
19711saltlǔ / ㄌㄨˇ鹹、鹺、鹼
198鹿11deerlù / ㄌㄨˋ麀、麁、麂
19911wheatmài / ㄇㄞˋ麨、麩、麪
20011hempmá / ㄇㄚˊ麼、麾、黁
20112yellowhuáng / ㄏㄨㄤˊ黈、䵍、黌
20212milletshǔ / ㄕㄨˇ黎、黏、黐
20312blackhēi / ㄏㄟ墨、黓、黔
20412embroideryzhǐ / ㄓˇ黺、黻、黼
20513frogmǐn / ㄇㄧㄣˇ黿、鼀、鼁
20613tripoddǐng / ㄉㄧㄥˇ鼏、鼐、鼒
20713drumgǔ / ㄍㄨˇ鼕、鼖、鼗
20813ratshǔ / ㄕㄨˇ鼢、鼥、鼩
20914nosebí / ㄅㄧˊ鼽、鼾、齁
21014evenqí / ㄑㄧˊ齋、齌、齍
21115toothchǐ / ㄔˇ齔、齕、齖
21216dragonlóng / ㄌㄨㄥˊ龏、龑、龔
21316turtleguī / ㄍㄨㄟ䶰、龝、龞
21417fluteyuè / ㄩㄝˋ龡、龢、龤

Source: https://zh.wikipedia.org/wiki/%E9%83%A8%E9%A6%96

拼音文字的書寫元素是字母(alphabet),直接將口語的字彙詞語發音用一串線性排列的標音 字母(syllable series)代表,字母串和字詞的發音對應。在中文輸入法未成熟時,拼音文字的好處是能用QWERTY鍵盤輸入,書寫系統和語音系統基本一致,學習門檻 低,但缺點亦隨著字彙的增加而出現,主要是線性排列的音串令人和機出現系統過載;獨立詞語不斷增加,雖然部份也用上了字根來組合,但需要硬記的數量仍然驚 人,Google 的搜尋器已登錄超過一百萬個英文字,以人類正常的記憶能力,只能掌握十多萬個獨立字彙的串法、讀音和意義,換言之,用線性字串文字學習會構成學習障礙,一 般人只能掌握本身專科的術語(terminology),從字音上很難理解知識範圍外的新事物;盡量用現有字根(root/prefix/suffix) 來造新字是提高辨識程度的辨法,但在音素的運用效率和貯存效率上仍是差得多,而且字根的數量比部首(約200個)更多,也只能循一個維度排列,過長會 影响可讀性(readability)。

qwerty keyboard

Source: https://zh.wikipedia.org/wiki/QWERTY%E9%8D%B5%E7%9B%A4#/media/File:Qwerty.svg

早期比較拼音文字的線性排列和表意文字的二維排列訊息處理能力時,很多人都不易明白其中分别和利弊, 當二維碼(QR Code)出現後,差距便明顯得多了。中文文字本質是人類可理解的二維碼,英文這類的拼音文字是人類能理解的一維條碼(bar code),無論訊息存量和資源使用效率都遠遠低於前者。以聯合國不同文字的文件比較,無論電腦版本或印刷版本,中文版本都是最小的最短的。

訊息承載能力

以上説的主要是個别字詞的訊息承載能力,但不代表表意文字文章在大量訊息的承載能力一定更高,這裡還涉及到意念表達的三個問題:

1. 準確度(accuracy)- 傳送時文字的還原程度 ;

2. 清晰度(clarity)- 文字訊息沒有歧義; 和

3. 簡潔程度(simplicity)- 文字裝載訊息數量。

通訊協定 (protocol)中,HTTP(hyper text transmission protocol)  在經過優化前,大型檔案傳送都採用FTP(file, transmission protocol) ,避免大型檔案訊息封包丟失問題。在語言應用來説,就是語法結構問題(grammar)。以資訊科技角度看,語法有點像編碼(coding)的格式 (syntax/coding pattern)和壓縮原理(compression algorithm)。從資科角度理解,第1和2點是容錯(tolerance and correction of error)和邏輯架構(logical structure)問題,第3點是資訊壓縮(data compression)問題。

語文規範和容錯的取捨

學資訊科技的,大都懂一種以上的編程語言,以結構來説,都是各有優劣。中英文都是人類語言,由實際生 活溝通自然發展而來;語法一方面通過約定俗成的方法而產生,另一方面通過權力機關加以界定,當政府處於有效管治時,會利用文教和考試來規範語言文字的格 式,減少官民和民民間協議的爭執。

可是中文是有數千年歷史沉澱累積的語言文字,要完全規範(formalized)根本沒有可能。英文 則不同,形成語文的過程至多是一千年左右,官方一直以拉丁文為官方語言, 牛頓的論文都是用拉丁文發表的,真正成為一種語言文字應是莎士比亞之後,所以出現歧義(一字多義 ambiguity)的情況較少,而且可借用拉丁文這種死文字來減少歧義。

error handling of language

個人認為,語言的規範和容錯關係是一種倒U形關係。沒有規範的語言容易令人誤解,容錯能力低,隨著規 範增加,意義含混的機會減少,容錯程度提高,但隨著規範增多,容錯能力減少。容錯能力意味著知識普及變得困難,專門術語規範程度高,訊息量亦大,所以難掌 握。即使是二維的表意文字,複雜的訊息還是要以線性排列方式將字詞依序發出,也要因應人類的理解能力而斷句,由於中文每個單音節的字或詞的訊息量線性文字 大,所以句子通常較短,而且能容納較多的修飾語。例如説用中英文説牛頓的萬有引力理論:

中:

牛頓的萬有引力理論(9音節和18byte)

英:

i. Newton's Gravity Theory(不計純輔音是8音節23byte) 或

ii. Newton's Theory of Gravity(9音節26byte)


傳送小量訊息時分别還不大,但如作更多修飾如下:

中:

牛頓在1687年發表了萬有引力的理論(18音節34/36byte)

英:

i. Newton published the Gravity Theory in 1687 (18音節41byte) 或

ii. Newton published the Theory of Gravity in 1687(19音節44byte)


訊息再增多,分别會再擴大:

中:

i. 牛頓在1687年發表了解釋天體運行的萬有引力理論(24音節48/46byte) 或

ii. 牛頓在1687年發表了萬有引力理論來解釋天體運行(24音節48/46byte)

英:

i. Newton published the Gravity Theory in 1687 for the explanation of planet movement(29音節82byte):

ii. Newton published the Theory of Gravity in 1687 for the explanation of planet movement (30音節85byte)

iii. Newton published the Theory of Gravity in 1687 to explain the planet movement.(29音節77byte)


同樣的訊息,英文句子的音節數量會多很多,如果用上 which 或 that這類 relative pronoun 來寫,英文的表達便更加冗長,所以英文須要更多的規則來規範(regulate)文字的表達方式. 不嚴格規範便會令意義不明確,口語用上太長句子,一般人更不易理解,相當於掉了訊息封包。中文沒有時式,大可加入時間描述而不會令句子太長,但英文會很累 贅,時式是更有效規範的方法。

其實中文不是沒有文法,只是文學創作或日常一些能憑常識自我修復缺失的表達方式,令一般人以為中文沒有規範的規則。文學創作中,有擬人法或名詞作動詞或形容詞的用法,有些時省略了主語也能讓人明白,久而久之,寫作時不嚴謹,英文同樣發生,例如主語混淆便很常見:

中:

地鐵原來設計的每日流量是xxxx人次

英:

i. The original capacity of traffic designed by MTR is xxxx passengers per day.

ii The orginal designed capacity of MTR is xxx passengers per day


上面中文的表達方式非常普通,地鐵作為一個機構,可以視作有集體意志的組織,英文同樣可以,實際上是 地鐵的控制人員在操作安排,但大家憑常識便明白,沒有必要説得那麽準確。表達上,中文是包含兩個句子,一般中國人不大利會誰是主句,英文文法規定只有一個 主句,流量多少為主訊息的話,設計者是地鐵的訊息部份便是子句,用來修飾或進一步形容流量的特性是由地鐵設計的(designed by MTR),如一定要將MTR 作主語(subject),可以這樣寫:

中:

地鐵原來設計的每日流量是xxxx人次

英:

The MTR originally designed a rail network having (with) a capacity of xxxx passengers per day.


當然,那一句英文更能和中文句的原意一致也許很難説,勉強要將英文主句和子句觀念套入中文並非不可以,只是不符中文習慣的語法。

語言的訊息壓縮能力

要表達更大量和複雜的訊息,要將訊息分割發出,人的聽力或理解力有限,每次接收的訊息大概在數十音節 內,所以要斷句,那就是句子或片語的長度,以人類自然理解力為上限。還有是英文音節還包含尾音,尾音有時實際是包含元音的輕音音節,如計算在內便更長。要 留意英語中的句子(sentence)定義不同中文的斷句,長句要分割成子句或片語,那才相當於中文的斷句。

正如在資訊傳訊中,用上包裹式方法將大量訊息分割以封包(packet)發出,封包的檔頭 (header)和檔尾(footer)都要清晰定義序號(data id)以便接收者能正確按次序重組還原原來訊息,互聯網用的packet switching 技術基本原理便是這樣。

封包大小便相當於句子或片語的長度上限,受制於人類的接收理解力,所以,能將訊息壓縮 (compress)打包的話,每一封包的訊息承載量便增加。中文文字採用二維編造,等同高度壓縮,每一相同音節的句子能裝載更多訊息,能更快有效傳送同 樣的資訊。如下面一段來自地鐵網站的中英文版介紹文字:

英:

As another example, the East Rail Line during the morning peak hours will operate 12-car trains, each with a capacity for 3,750 passengers, run at 2.5 minute intervals, carrying 86,000 passengers per hour per direction between Lo Wu or Lok Ma Chau and Hung Hom. (261byte)

中:

又以東鐵綫為例,在早上繁忙時段會安排共12個車卡,可載3,750名乘客的列車來往羅湖或落馬洲至紅磡,每2.5分鐘一班,單向軌道每小時載客量為86,000人次。(158byte,數字和標點符號當全型字)

Source:

https://www.mtr.com.hk/en/corporate/operations/detail_worldclass.html

https://www.mtr.com.hk/ch/corporate/operations/detail_worldclass.html

對照之下,明顯是先有英文才有中文,所以遂節對繹,中文的版本依英文的思維邏輯寫出,即使是這樣,中文的音節和字元數量仍是少於英文。實際上,依中文習慣語法還可以改寫縮短如下:

又以東鐵綫為例,在早上繁忙時段,每2.5分鐘便有一班可容3,750名乘客的12卡列車來往羅湖或落馬洲至紅磡,每小時單向載客量達86,000人次。(144byte,數字和標點符號當全型字 )


語言及思維邏輯的關係

在上例中,英文以「東鐵」為主語(subject),「安排」 (operate)作主句動詞(verb),為清楚敍述這行車線的特點,包括時間,間隔,長度,容量等,如果有必要放在一句中,冠在事物前便會太長,超過 一般人的聽力或理解力,唯有在其後用了幾個片語(phase)或子句(clause)來補充描述列車缐屬性;中文同音節的訊息量大得多。例如上面中文描述改 寫後的第三句雖然略長(36音節),但仍然能清晰表達大部份屬性,大家不妨比較英文版的音節數量,便明白為何要用子句或片語方式補綴在後面。

當然,無論中英文,發送大量的訊息時,表達方式都是是線性排列,但英文受制於音素壓縮能力弱,唯有先 確定主句,再對部份需要修飾的事物附加上片語或子句作補充描述,硬要將這些修飾訊息冠在那事物前面會做成非常冗長而無法卒讀的句子,所以主次要分 得清楚,先主後次,更加著重線性邏輯的嚴謹程度,思維上是一維度的(one dimension),然後才再加第二維度擴充。中文勝在文字是二維結構,同一意義的字或詞在長度和音節上平 均短了三份一以上,思維上快了之外,還是是二維度或以上的,以全方位的方式將意念表達出來,隨了主敍事物,也能橫向地將事物的其他重要屬性一併説出,聽者 能較快掌握事物的多方面特性。

加上表意文字的直觀(visual literacy)縱觀(panoramic view)能力較強,中文有高度的容錯能力 (error handling capacity),主語不清或文字序次出了小錯失的句子,讀者都能在思維上進行潛意識的自動修復。這些特性,日常溝通是優點,但會做成一般人行文過於草 率的習慣,事實上,如有需要,中文一樣可以定義清晰,只要大家參考一下兩岸用中文寫成的法律文件,清晰度還是非常高的。本地中文是翻譯居多,思維上是英式的,不能作 準。所謂中文不適合作為科技或法律語言的説法,從資訊科技角度來看是沒有依據的。

- 完 -


Reference:

1. Ideogram:

- https://en.wikipedia.org/wiki/Ideogram

- https://www.collinsdictionary.com/zh/dictionary/english/ideogram

- https://linguistics.stackexchange.com/questions/26918/difference-between-ideogram-and-logogram

2. phonogram:

- https://www.merriam-webster.com/dictionary/phonogram

- https://www.britannica.com/topic/phonogram

- https://zh.wikipedia.org/wiki/%E8%A1%A8%E9%9F%B3%E6%96%87%E5%AD%97

3. speech elements:

- https://www.logicofenglish.com/resources/phonogram-list

- https://www.londonschool.com/blog/phonetic-alphabet/

4. protocol:

- https://en.wikipedia.org/wiki/Communication_protocol

- https://www.computerhope.com/jargon/p/protocol.htm

5. compression:

- https://en.wikipedia.org/wiki/Data_compression

- https://medium.com/@chavanmayur996/data-compression-techniques-bf1a7c1085f4

- https://en.wikibooks.org/wiki/Data_Coding_Theory/Data_Compression

6. error handling:

- https://en.wikipedia.org/wiki/Error_detection_and_correction

- https://en.wikipedia.org/wiki/Exception_handling

- https://en.wikipedia.org/wiki/Error-tolerant_design


小傳 Biography

自小即獨鍾情科技,小學時已遍讀「十萬個為什麼」,初中物理課講授古典力學 F=ma 之時,私下卻神遊愛恩斯坦狹義相對論之 E=mcc  (即 E=mc2 ), 對經史子集,嗤之以鼻,以為古中國之科技無足稱道,豈料高中某日於圖書館中抱讀廣義相對論、正苦思不解時,偶翻老子道德經以解悶,驚為天書,繼而再閱莊 子, 易經,更嘆為觀止,近代科學之多個劃時代之理論,竟已為古人一一論述,諸如「太極生兩儀,兩儀生四象四象生八卦,八卦生萬物」,惋如將宇宙起源,正反物質 之誕生,基片粒子之結構以至元素周期之規律濃縮為密碼般,再翮閱雜書如周髀算經,以至小說神話如山海經,搜神記,乃知古中國之科技知識及國人之想像力,並 非如想像之不濟,不過為政者重文輕理,獨貴仕而輕農工商,寧務虛而不務實,上有好之者下必有甚然,故聰明才智之仕,盡委身於儒法之學,勤習治人之術,奇兵 利器能工巧藝皆目為形而下者之雕蟲小技,盡皆凐沒在民問,凡與實際生活及經濟生產有關之工藝技術,唯有賴師徒制口授耳聞,代代相傳,有系統整理立於文字 者僅聊聊可數如天工開物,凡涉抽像科學概念之理論,更混合超自然之想像, 化身為比形而上學更形而上之玄學如風水命理等,有見及比,從此自號無極,誓以課餘工餘時間,疏理古代文 獻, 還中國古代科技發展之本來面目

monopole