中文的突围,从打字机到人工智能
中文的突围,从打字机到人工智能
读了被中国媒体大捧的《中文打字机》,比较失望。这本书的作者是斯坦福大学教授Thomas Mullaney(墨磊宁)。全书少学术,多历史,价值不高。仅仅是中文打字机的叙事史,缺乏深刻的洞察和分析。作者停留在基于政治正确的评价,用社会达尔文主义大帽子抨击一切对立主张,拒绝对文化优劣和对语言本质的评价。西方的一些学者喜欢站在两个文化的接缝上,左右逢源,投机取巧。
达尔文进化论的核心观点是物竞天择,适者生存。这个观点在社会学上,认为文化有优劣,落后的文化会被淘汰,并没有错。我们反对优生学和种族灭绝的同时,也不应该保护被进化淘汰的落后文化。而作者认为:“语言在表达人类思想的能力上是无差别的,至少每种语言都有能力或潜力来表达其使用者想要表达的东西”。不承认文化差别,不承认象形文字和字母文字的差别,会对文化和文明的发展存在影响,表明了作者的多元文化主义立场。
本书反映了一种矛盾心态。中国和世界接轨还是让世界适应中国。当中国不适应世界体系时,是改造中国,还是改造世界现有的体系。中国和外部世界总是格格不入。中国人永远处于接轨还是自成体系的矛盾中。如果中国不适应,就认为不是中国有问题,而是现有系统有问题,是伪普世。中国对世界不适应,就说世界对中国有围剿。我不能融入你,是你的问题。你要对我的不能融入负全责。谁叫你先发,我后发呢?
在计算机发明之前,发明和英文打字机等效的中文打字机是不可能的任务。或者是打字速度,或者是覆盖内容,或者是成本,或者是复杂性方面,中文打字机不能做到和英文打字机的等效。这是因为中文主要是表意的语素文字,相对于26个英文字母,基本汉字就有三四千。英文打字工作一般是秘书兼职,而中文打字员几乎都是专业的,因为后者对操作的技能有很高的要求,英文打字机很普及,能够便携,而中文打字机笨重,基层单位几乎没有。插队时,北京供电局是我们公社的厂社挂钩单位,供电局的一个姓吕的中文打字员派驻我们村。当时搞批林批孔运动,我被选到不脱产的公社理论队伍。县里交下任务,让写一篇《历史上劳动人民的反孔斗争》。要求两万字,一星期交稿。写完后,要打印上交到县里。公社没有中文打印机,吕师傅把我的文章带回单位打出来后,需要校对。我专门回到北京,住在前门附近的电力局招待所。那是我第一次看见中文打字机,庞大笨重,可以说是一台活字书写机器。我改了错字后,吕师傅在蜡纸打印稿用修改液涂抹掉错字,并在铅字盘添加了常用汉字之外的一些铅字,在打印机上修改。文革时,红卫兵组织林立,都搞宣传。主要的方式就是大字报和手工刻印的传单,很少人用中文打字机。那时写一手漂亮的毛笔字和钢笔字是很吃香的。
汉语和汉字不是一回事儿。在通过复合词造出新词、词序自由度高,语法简单等方面,汉语和英语相似,都发展比较成熟。这里主要比较书面汉语和字母文字。中国语言学家周有光认为文字有三个阶段:原始(形意)时期,古典(意音)时期和字母(表音)时期。汉字处于古典时期。文字的进化进程是:符形从图符到字符到字母,语段从语词到音节到音素,表达法从表形到表意到表音。汉字是当今世界上唯一的语素文字,一个活化石。
为什么中文没有向拼音文字转化?主要原因是:第一,汉字的发展历史短,汉字比楔形文字晚两千多年。当甲骨文出现时,地中海已经发展出字母文字;第二,秦始皇的大一统,书同文的结果是各种口语的人使用统一的文字,导致文字和口语分离。缺乏不同文字的交流和互相学习的环境,错失了向字母系统发展的机会;第三,汉字覆盖的方言太多,发音差别过大,向表音文字发展阻碍大;第四,底层文盲多,文字只是部分有闲阶层的需要。没有动力向简化发展。而拉丁字母的起源--腓尼基文字是商人们发明的,他们需要一种简化的符号记账和贸易,不可能去学习复杂的楔形文字;第五,古代汉语发展出很多优秀的文学作品,而这些文字遗产成为字母化的负担。因为字母化意味着断层;第六,汉语普通话410个音节,约1300多个读音。常用汉字有三四千个。造成同音多字,向表音文字进化比较困难。
中国的口语与书面语处于严重分裂状态;这种分裂影响了中国在逻辑、哲学、法律和科学等领域的发展和进步,仅有文学和书法不受影响,保持了畸形的繁荣。因为书写成本高,中文力求简约。与大多数字母文字相比,中文具有更强大的信息容量和压缩能力。同样的内容,汉语比英文要减少30%以上的页面。同时汉字数量庞大、笔画复杂、意音断裂、多音多意、语境微妙,使汉语成为世界上几乎最难以掌握的文字。至今偏远农村仍有很多人是文盲。大量中国人能识一些基本汉字,但不能阅读和写作,处于半文盲状态。语言是工具,中国人成长过程中,掌握工具的时间远远超过使用字母文字的人群,相对减少了学习知识的时间。
非拼音的汉字是至今中国的方言多且差异大的原因。由于字母文字的读音和口语是一致的,字母文字带动了统一方言的标准化;因此使用字母文字的民族和国家,口语基本上是统一的。日本和朝鲜使用了字母文字以后,口语基本上统一了。表音文字的蒙古文和满文促进了中国北方口语向北方官话统一;而用汉字的中国南方,方言多而差异大。
非字母的中文,在中国现代化进程中受到不断地挑战。打字机困境只是第一个,汉字由于在输入输出,编码和检索等方面,效率较字母文字明显低下,成为了教育及信息化上的瓶颈。幸亏后来有了计算机和汉字输入方法,解救了中文。虽说还有一些问题,但中文基本度过了第一个挑战。
人工智能可能是中文要面临的第二个现代化挑战。汉语的歧义多和高度依赖语感使计算机的语言识别和理解比字母文字更困难。中文没有大小写,单字间没有空格,不容易像英文一样区分单词,专有名词和缩写,容易产生歧义。比如“乒乓球拍卖完了”到底是“乒乓球拍”卖完了,还是“乒乓球”“拍卖”完了?下面几幅图是百度AI软件文心一言生成的图片,就是由于不能正确解析中文单词产生了歧义。当然这不是很难的问题,应该可以解决。还有许多类似的问题。这个实例是用来说明:许多在英文不是问题的问题,在中文就可能是问题,对人工智能提出了更高更难的要求。
图片来自网络