思芦

注册日期:2013-09-24
访问总量:2773495次

menu网络日志正文menu

中文的突围,从打字机到人工智能


发表时间:+-

中文的突围,从打字机到人工智能

读了被中国媒体大捧的《中文打字机》,比较失望。这本书的作者是斯坦福大学教授Thomas Mullaney(墨磊宁)。全书少学术,多历史,价值不高。仅仅是中文打字机的叙事史,缺乏深刻的洞察和分析。作者停留在基于政治正确的评价,用社会达尔文主义大帽子抨击一切对立主张,拒绝对文化优劣和对语言本质的评价。西方的一些学者喜欢站在两个文化的接缝上,左右逢源,投机取巧。

达尔文进化论的核心观点是物竞天择,适者生存。这个观点在社会学上,认为文化有优劣,落后的文化会被淘汰,并没有错。我们反对优生学和种族灭绝的同时,也不应该保护被进化淘汰的落后文化。而作者认为:“语言在表达人类思想的能力上是无差别的,至少每种语言都有能力或潜力来表达其使用者想要表达的东西”。不承认文化差别,不承认象形文字和字母文字的差别,会对文化和文明的发展存在影响,表明了作者的多元文化主义立场。

本书反映了一种矛盾心态。中国和世界接轨还是让世界适应中国。当中国不适应世界体系时,是改造中国,还是改造世界现有的体系。中国和外部世界总是格格不入。中国人永远处于接轨还是自成体系的矛盾中。如果中国不适应,就认为不是中国有问题,而是现有系统有问题,是伪普世。中国对世界不适应,就说世界对中国有围剿。我不能融入你,是你的问题。你要对我的不能融入负全责。谁叫你先发,我后发呢?

在计算机发明之前,发明和英文打字机等效的中文打字机是不可能的任务。或者是打字速度,或者是覆盖内容,或者是成本,或者是复杂性方面,中文打字机不能做到和英文打字机的等效。这是因为中文主要是表意的语素文字,相对于26个英文字母,基本汉字就有三四千。英文打字工作一般是秘书兼职,而中文打字员几乎都是专业的,因为后者对操作的技能有很高的要求,英文打字机很普及,能够便携,而中文打字机笨重,基层单位几乎没有。插队时,北京供电局是我们公社的厂社挂钩单位,供电局的一个姓吕的中文打字员派驻我们村。当时搞批林批孔运动,我被选到不脱产的公社理论队伍。县里交下任务,让写一篇《历史上劳动人民的反孔斗争》。要求两万字,一星期交稿。写完后,要打印上交到县里。公社没有中文打印机,吕师傅把我的文章带回单位打出来后,需要校对。我专门回到北京,住在前门附近的电力局招待所。那是我第一次看见中文打字机,庞大笨重,可以说是一台活字书写机器。我改了错字后,吕师傅在蜡纸打印稿用修改液涂抹掉错字,并在铅字盘添加了常用汉字之外的一些铅字,在打印机上修改。文革时,红卫兵组织林立,都搞宣传。主要的方式就是大字报和手工刻印的传单,很少人用中文打字机。那时写一手漂亮的毛笔字和钢笔字是很吃香的。

汉语和汉字不是一回事儿。在通过复合词造出新词、词序自由度高,语法简单等方面,汉语和英语相似,都发展比较成熟。这里主要比较书面汉语和字母文字。中国语言学家周有光认为文字有三个阶段:原始(形意)时期,古典(意音)时期和字母(表音)时期。汉字处于古典时期。文字的进化进程是:符形从图符到字符到字母,语段从语词到音节到音素,表达法从表形到表意到表音。汉字是当今世界上唯一的语素文字,一个活化石。

为什么中文没有向拼音文字转化?主要原因是:第一,汉字的发展历史短,汉字比楔形文字晚两千多年。当甲骨文出现时,地中海已经发展出字母文字;第二,秦始皇的大一统,书同文的结果是各种口语的人使用统一的文字,导致文字和口语分离。缺乏不同文字的交流和互相学习的环境,错失了向字母系统发展的机会;第三,汉字覆盖的方言太多,发音差别过大,向表音文字发展阻碍大;第四,底层文盲多,文字只是部分有闲阶层的需要。没有动力向简化发展。而拉丁字母的起源--腓尼基文字是商人们发明的,他们需要一种简化的符号记账和贸易,不可能去学习复杂的楔形文字;第五,古代汉语发展出很多优秀的文学作品,而这些文字遗产成为字母化的负担。因为字母化意味着断层;第六,汉语普通话410个音节,约1300多个读音。常用汉字有三四千个。造成同音多字,向表音文字进化比较困难。

中国的口语与书面语处于严重分裂状态;这种分裂影响了中国在逻辑、哲学、法律和科学等领域的发展和进步,仅有文学和书法不受影响,保持了畸形的繁荣。因为书写成本高,中文力求简约。与大多数字母文字相比,中文具有更强大的信息容量和压缩能力。同样的内容,汉语比英文要减少30%以上的页面。同时汉字数量庞大、笔画复杂、意音断裂、多音多意、语境微妙,使汉语成为世界上几乎最难以掌握的文字。至今偏远农村仍有很多人是文盲。大量中国人能识一些基本汉字,但不能阅读和写作,处于半文盲状态。语言是工具,中国人成长过程中,掌握工具的时间远远超过使用字母文字的人群,相对减少了学习知识的时间。

非拼音的汉字是至今中国的方言多且差异大的原因。由于字母文字的读音和口语是一致的,字母文字带动了统一方言的标准化;因此使用字母文字的民族和国家,口语基本上是统一的。日本和朝鲜使用了字母文字以后,口语基本上统一了。表音文字的蒙古文和满文促进了中国北方口语向北方官话统一;而用汉字的中国南方,方言多而差异大。

非字母的中文,在中国现代化进程中受到不断地挑战。打字机困境只是第一个,汉字由于在输入输出,编码和检索等方面,效率较字母文字明显低下,成为了教育及信息化上的瓶颈。幸亏后来有了计算机和汉字输入方法,解救了中文。虽说还有一些问题,但中文基本度过了第一个挑战。

人工智能可能是中文要面临的第二个现代化挑战。汉语的歧义多和高度依赖语感使计算机的语言识别和理解比字母文字更困难。中文没有大小写,单字间没有空格,不容易像英文一样区分单词,专有名词和缩写,容易产生歧义。比如“乒乓球拍卖完了”到底是“乒乓球拍”卖完了,还是“乒乓球”“拍卖”完了?下面几幅图是百度AI软件文心一言生成的图片,就是由于不能正确解析中文单词产生了歧义。当然这不是很难的问题,应该可以解决。还有许多类似的问题。这个实例是用来说明:许多在英文不是问题的问题,在中文就可能是问题,对人工智能提出了更高更难的要求。




图片来自网络


浏览(15443)
thumb_up(29)
评论(28)
  • 当前共有28条评论
  • 思芦 回复 啥都中

    认识到规律就好,就不会到处吹嘘历史悠久,博大精深,源远流长。中文比地中海文字晚发展至少2000年以上。人家发明字母文字时,甲骨文才刚开始。

    屏蔽 举报回复
  • 啥都中

    是的,也许最终有某种homogenization as equifinality。英语可能当此。其实,统一在0和1的数字化世界中早已实现。再比如,在货币体系中,Mastercard和Visa出现之际,对于终端用户而言,全球货币实质上可以等同于通用了,都是数字的转换而已。我的初始评论中,强调的就是你说的博弈,是empirical question,属于概率的范畴,但不是inevitable的铁律。

    屏蔽 举报回复
  • 思芦 回复 啥都中

    表意文字向表音文字进化,不仅是事实,而且是文字和口语统一的规律。也是奥卡姆剃刀原理决定的。中文会不会走这条路,决定于规律和传统文化之间的互博。可能是一个漫长的时期,不是几代人能看到的。

    有人说,也许世界语言会统一于一种拼音化文字,比如英语。就像你在评论里不得不夹杂许多英文,才能说清楚。也许就是向英语过渡的一个例证。


    屏蔽 举报回复
  • 啥都中 回复 思芦

    基本上可以接受你的所有观点。只建议考虑一个slight possibility:汉语是authentic的original。日韩越南是derivative的imitative。他们既然可以学汉语,自然也可以学字母文字。中文作为一种unique being,或许,just maybe,找到一个自己现代化和数字化的路径。虽然我倾向于赞成字母化(我只会用拼音打字),但没有足够的理由去categorically deny我上述的alternative,however slim the chance is。埃及日韩越所有的N-1象形文字向字母转型,也无法推定N全部向着一个特定范式转型,logically speaking。你说的发展规律,目前只是一个dominant pattern or overwhelming tendency,yet。

    屏蔽 举报回复
  • 思芦 回复 无理

    你遗憾鲁迅吗?你知道鲁迅怎么批评中文吗?哈哈哈。

    屏蔽 举报回复
  • 无理

    我怎么感觉你搞中文挺遗憾的?呵呵。

    屏蔽 举报回复
  • 思芦 回复 色香如故

    计算机只解决了汉字输入的瓶颈。全世界活的语言除中文外都拼音化了,包括以前使用象形文字的埃及和地中海地区和汉字圈的日本、韩国和越南。说明这是发展的规律。口语和文字统一,文字表音反映了语言的本质。汉字是当今世界上唯一的语素文字,一个活化石。

    屏蔽 举报回复
  • 色香如故

    難道只看到拼音文字的好處而看不到象形文字的優勢才正常麽?拼音文字爲何產生流行?就是因爲那時沒有計算機。現在有了,中文算是一種回歸,沒有問題啊!速食面方便,但科技讓傳統大餐也一樣方便時,喜歡它有錯麽?當然也不能因此反對有人喜歡速食面。

    屏蔽 举报回复
  • 无云夜空

    哈哈,人工智能的智力不足。

    屏蔽 举报回复
  • thesunlover

    好文,学习了!中文不利于逻辑思维,造成国人的逻辑思维能力普遍低下。AI时代来临,中文世界面临严峻考验,危机就在眼前。

    屏蔽 举报回复