【书摘】 2024 年 8 月 2 日 来源:思想坦克
第六章
进入电脑时代(一九七九年)
转换输入与输出
即使看不到七月的阳光,支秉彞(Zhi Bingyi)也能感觉后背和被汗湿透的薄草席之间的闷热感觉。只有一公分厚的草席是房里唯一的家具。在这间临时搭建的「牛棚」里,时间无疑过得极为缓慢。那是一九六八年,文化大革命已经爆发两年了。上海正逢反常的热浪,人们咒骂着这只「秋老虎」。除了炎热,支秉彞还得担心更多的事情。他被贴上「反动学术权威」的标签。在文化大革命期间,数百万人被罗织各种罪名而枉死或被送去劳改,上述的标签便是其中一种罪名。支秉彞还认为自己是人民中的一员吗?难道他没有像别人告诉他的那样背叛了群众吗?
就在四年之前,支秉彞还担任政府第一机械工业部新成立的上海电工仪器研究室主任,这是当年最有保障的职位之一,而他每天都按时到班。新中国成立初期,第一机械工业部负责制造重型工业机器,尔后分出四机部,主管电子通讯技术。支秉彞的专业是度量电:提高一台设备各个零件的性能来专注于精密仪表和电子建模。
支秉彞安静谨慎,坚忍不拔,资质也颇高。他获得了德国莱比锡大学的物理学博士学位,但为了返回中国而拒绝了美国的工作机会。支秉彞曾在中国的两所大学任教,后来协助制定中国具有里程碑意义的十二年科学技术发展规画。这项计画将电子、电脑科技、自动化和遥控作为发展目标。科学家和技术人员被认为能替国家指导的社会主义经济做出贡献。对他们而言,这是充满希望的时期。
支秉彞在一九六八年七月被捕,此后便不得从事研究、阅读新闻与联系挚爱的德国妻子。他以前习惯与同事一起研究方程式和工程问题,但此情此景不再,唯一陪伴他的,乃是牢房墙壁的八个大字,提醒身为囚犯的他在面对看守者时唯有两种选择:「坦白从宽,抗拒从严。」
问题不在于是否坦白,而是坦白什么和坦白多少。许多囚犯学会了承担错误,深入探索自身灵魂,仔细检查每一项记忆,以便找出可能的不当行为,譬如:拉高嗓子对学生吼叫,研究时无意间传播亵渎的西方意识形态,以及不尊重上级。毛泽东一九五一年的早期思想改革鼓励这种意识形态的自我改造,并且在文化大革命期间大规模推广。写着阶级口号和谴责话语的大字报占满了公共场所。大学演讲厅、图书馆与实验室被工作坊、工厂和农场取代,遵循教学、研究、生产结合的政治宗旨。随着课堂教学停止,某些校园便成为公开认罪的场所。学生批斗老师,朋友斗争朋友,孩子批判父母。老师被迫跪在学生(如今是毛泽东的年轻红卫兵)面前,承认他们的资产阶级思想罪行。被告者遭到群众审问,群众会对有罪者拳打脚踢。他们只要无法正确背诵毛主席语录,便会被大声呵斥、吐口水和掌掴。这些人的脖子上挂着厚重木牌,挂着牌子的细铁丝已经嵌进他们的肉里。就连老人或病患也未能幸免于这些恶名昭彰的「批斗大会」。
对知识分子阶级的清算才刚开始,任何受过教育的人都必须屈服于阶级斗争的信条以及「四人帮」(共产党的激进集团)的意志。许多人被送到农村接受艰苦的劳改。他们捡拾粪便,顶着炎热天气和雨水翻犁休耕地,但几乎没有口粮可吃。他们得在身兼再教育中心的营地里遵守最严格的军事纪律。毛泽东的反知识分子运动极为成功,此举激励了柬埔寨共产党总书记波尔布特(Pol Pot)。他在一九七五年至一九七九年之间在柬埔寨发动了一场类似的运动,杀死了所有戴眼镜的人,因为眼镜是资产阶级知识分子的罪证。
支秉彞在牛棚里盯着墙上的八个大字。有一天,他看到的不再是不祥讯息,而是构成这些讯息的笔画和汉字。他开始注意每个汉字末端的墨水在哪里变粗、出现大片污渍或逐渐消失。每一笔都在他眼中重新出现,每一笔都是充满新谜语的谜团。支秉彞发现,尽管字由人手所写,但每个汉字本质上都是重复组合相同抽象的笔画和点。
「俾斯麦.杜」可能会根据这项发现,依照笔画的方向、长度和外观相似度对笔画进行分组。然而,支秉彞的下一个想法却激发出不同的点子。如何将这些人造笔触转译成可以输入电脑的编码语言(coded language)?当然,这并非第一次有人想将汉字有系统地转换为电码。在一个多世纪以前,在另一座监狱,亦即北京皇城被尿液浸透的牢房里,德.埃斯卡伊拉克伯爵也思考过同样的问题。一九二五年,王景春在巴黎的大理石大厅里将编码语言视为国家主权问题而进行激烈的辩护,张德彝和威基杰则尝试将其作为电报加密。然而,这些人都不曾想到要为机器(电脑)提出解决方案。他们的解决方案都是针对人类:如何组织汉字,让人更容易书写和学习,以及减少记忆或查询汉字时的负担和耗费的时间。支秉彞脑海里却想着不同的问题:如何用电脑可以读取的语言(二进位码的零和一)来呈现中文?支秉彞习惯为他的电气设备建立电脑模型,所以会多次想起这个问题。
为了赶上一九七〇年代先进世界的技术水平,中国已经开始制造能够处理大规模计算、筛选大量资讯并协调复杂操作的机器。首先必须收集用于计算和控制飞行路径、军事目标和地理定位或追踪农业和工业产出的数据。然而,所有现存的纪录、文件和报告都以中文撰写。汉字若想融入计算时代,显然必须以数位方式呈现。西方的计算科技也正朝着正文处理(text processing)和通讯的方向发展,而不仅是进行大规模的计算。将人类语言转换为数位形式,乃是下一个尖端领域。苏联和美国在冷战期间进行军备竞赛,双双提高了计算科技的水准。要让中文融入电脑,确保中国不会被排除在外,这点至关重要。
电脑需要精确的输入,不能容忍不一致和例外异常。所有阻碍早期创新者的汉字特质,譬如:字库规模庞大,有复杂的笔画、声调、同音异义词,以及难以分割,这些再再为汉字数位化带来了新的挑战。可执行指令只能为「是」或「否」的形式,亦即流经电脑控制板电路电流的开启或关闭。中国无法依靠任何局部解方或补丁来渡过这个难关。在支秉彞被监禁期间,中国正陷入历来最大的社会和政治动荡,几乎无法替未来投入资源。然而,对于中国这个远远落后西方世界的国家而言,科学和技术不仅是障碍,它们也被认为至关重要,可以帮助国家摆脱落后的情况以及加速现代化进程。中国在探索计算时代方面投入了双倍资金,它在前进的道路上有无数的障碍,而且可能在推动雄心勃勃的计画之前,就惨遭汉字扼杀。
挑战是多方面的:要设计一套易于人类记忆和使用的代码,并且可以透过打孔带或键盘输入机器;要找到一种方法,让机器能够储存识别和复制汉字所需的大量资讯;要能够在纸上或萤幕上精确检索和重建汉字。
支秉彞知道他可以解决第一步,也是关键的一步:如何以最好的方式将中文输入机器。这就表示要找到一种方法让操作员和机器都能理解的语言来表示每个汉字:作为一组有限的零和一,直接输入机器,或以电脑程式语言已经建构的字母形式输入。后者似乎更可行。然而,将汉字映射到字母会立即引发其他的问题:需要用多少个字母才能以唯一的方式编码一个汉字?汉字的拼写是否应该像首字母缩略字一样缩写?缩略字的基础应该是什么?汉字、部件或笔画?
支秉彞需要一支笔和纸来检验每项假设,但看守者连卫生纸都不给他,更别说让他写字了。他环顾四周,看到了牢房里唯一能用的物体:一个茶杯。支秉彞用这个朴素的祭祀器皿,开始了朝圣之旅。他每天用偷来的笔,尽可能在哑光陶瓷杯盖上刻下汉字,然后用一组可能的罗马字母去测试每个汉字,最后再将杯盖擦干净。他一次将几十个汉字挤到曲面上,依靠记忆来追踪愈来愈多的汉字。
他打算让每个汉字都与代表它的字母代码有某种直观但独特的关系。有两种已知的方法可以办到这一点,亦即透过声音或形状。支秉彞的前辈,比如「俾斯麦.杜」、王云五和林语堂,更喜欢基于形状的分析,将笔画和部件重新排列成可分类的类别,但拼音的采用使拼音法成为国家和国际语言的标准化政策。
虽然拼音解决了拼音标准化的问题,但并未解决旧问题。其一,它使同音异义词的问题变得更糟,因为现在有很多汉字拼写以后有同样的字母形式。字母只有二十六个,不同汉字发音的拼写方法就只有这么多,所以比数千个单独的不同汉字会更快消耗殆尽。支秉彞决定利用最好的语音罗马化和基于形状的线索,让他的编码过程尽量可预测与合乎逻辑。这种想法注定不会在监狱里腐烂。
一九六九年九月,支秉彞被释放。十四个月以后,他还是没能证明自己有足够的罪责。或许他的书面供词平淡无奇。宽待他有好几个原因,其一是支秉彞与菁英学术科学机构(中国科学院)没有密切的联系。尽管科学院最初享有毛泽东的福泽,但到了一九六〇年代,学院的辉煌几乎全部褪去。它是大规模迫害和恐怖活动的目标,仅在一九六八年就至少有二十名学者和科学家自行了结性命。学院成员人数锐减,只剩下原来的一小部分,人不是被清洗,就是惨遭监禁。幸存者被送到乡下去喂猪和种稻。随着受教育的菁英大量减少,中国的高水准科研普遍陷入停滞,但国防技术除外,这些技术大多是秘密开发的。
为了重归社会,支秉彞释放后被分配到低级岗位,负责扫地、在工厂研磨工具,以及在仓库前站哨。他发现自己成为无名小卒是一件幸事,于是又回头钻研编码方案。他把仓库当成书房,存放他搜刮的外国期刊文章与报纸。他得知日本在解决这个问题上有所进展,因此甚感兴奋。就像中文打字机所做的那样,他们使用部首来定位和检索汉字,并将其打在电脑萤幕上。然而,日语键盘有三千六百多个汉字,每个字占用一个键,根本不切实际。澳洲的一家公司也使用部首系统去检索汉字。他们使用更普通的三十三个键的键盘,透过一个键去随时撷取将近二百个汉字,这比日语键盘更为进步,但对于中文来说仍嫌不够。然后,美国的实验模型使用四十四个键,正如支秉彞后来所知,麻萨诸塞州的文字基金会(Graphic Arts Research Foundation)正在进行一项更雄心勃勃的计画,打算将中文印刷电脑化。同时,台湾学者也在发展繁体字输入系统。
支秉彞深受鼓舞。他的独立工作与前述的计画齐头并行。然而,多数方案仍然无法摆脱笨重的键盘。他们要输入整个汉字或部首,因为他们没有像拼音这种真正标准的罗马化系统(拼音在海外尚未广为人知)或其他将汉字分开并重新组合的更为一致方式。将汉字拆解为部件,对于特定的汉字检索索引和打字机键盘设计确实有用,但并未直接转换为处理计算机的程序。
支秉彞记得基于形状方法的优点,其汉字偏旁有助于直接识别整个汉字。 「俾斯麦.杜」先前展示过如何使用笔画来组织图书馆的卡片目录,而林语堂的方案则根据汉字的书写方式,确立了不同的笔画模式。支秉彞为了将那套有用的原则整合到他的编码方案,决定根据汉字部件(表意文字中更简单的字符)去检索汉字,方法是使用每个部件拼音的第一个字母。
这个想法又花了两年才得以落实。汉字通常可拆解为二到四个部件,总共有三百至四百个部件。杜定友在一九三〇年代曾指出,多数汉字可以拆分为垂直或水平两半以及其他的几何形状。这便替每个汉字产生两到四个字母的字母代码,表示每个汉字在传统的英文键盘上最多只需要按四次键。相较之下,英语单字的平均长度接近四点八个字母。因此,支秉彞让字母在处理单一的表意文字时比处理英语更有效率。这套系统也巧妙解决了方言差异和同音异义词的问题。由于代码只采用第一个字母,而非汉字的完整读音,因此多数的区域语音变化并不重要。四字母代码的作用如同汉字不同部分的首字母缩略字。支秉彞基本上使用字母作为代理,透过部件而非单字去拼写。
他按照手写顺序去排序每个汉字的部件。按部件进行编码,提供了脉络和重要线索,故可减少歧义和重复代码的风险。两个汉字具有相同部件(甚至以相同字母开头的部件)且这些部件以完全相同的顺序出现的可能性极低。
支秉彞透过字母化的部件去索引汉字,让人更容易输入中文(只要你知道如何书写汉字),并且创建了更系统化的人机介面(human-machine interface)。例如,在他的系统中,有十三个笔画的「路」字可以分解为四个部件:口、止、攵和口。分离每个部件的第一个字母,便可得到KZPK的字元码(character code)。兹举「吴」这个常见姓氏为例,它可以快速拆解为口和天,产生KT的字元码。
字母拼字一旦由汉语以这种方式介导,便不再属于语音系统,而是语义拼字系统,每个字母其实代表一个汉字,而非声音。这种索引法也能扩展,用来表示汉字组。兹以「社会主义」(shehui zhuyi)为例。这个短语包含四个汉字,标记每个汉字的第一个字母,便可以将其编码为四字母序列,亦即SHZY。我们也可考虑另一个常被引用的短语,亦即组成「中华人民共和国」(Zhonghua renmin gongheguo)的七个汉字,可以编码成ZHRMGHG,非常简单。
支秉彞的编码系统也可能包括不全然是语音的属性。附加字母可以将整个汉字的发音或其形状模式添加到基于部件的基本四字母代码中。 「路」的读音为「lu」,因可分为垂直的两半,所以具有左右结构。这两个特征都可以用扩充代码KZPKLZ来表示。对汉字资讯的编码愈精确,代码就愈有用。支秉彞系统的这些扩充对于机器翻译以及从储存资料中检索资讯的中文应用程式极为重要。
一九七八年,支秉彞在中国的科学期刊《自然杂志》上正式介绍他的「见字识码」(On-Sight)编码系统。他将这套系统描述为拓扑系统(topological system),而所谓拓扑,便是从部件的几何形状去推断。使用二十六个字母的四字母代码,组合搭配之后可产生四十五万六千九百七十六个唯一代码。支秉彞声称他的系统具有类似于摩斯电码的效率,亦即快速、直觉且易懂。
毛泽东于一九七六年去世之后,人们热中于追求科学和技术,因此这项壮举便传扬开来。一九七八年七月十九日,上海《文汇报》的主编在头版欣喜宣布:「汉字进入了计算机」。
电脑终于可以「理解」方块字了。中国历经十多年的孤立,如今终于有机会与世界沟通,并以数位方式管理自己的资讯流。支秉彞的发明也大大鼓舞了士气。毛泽东已死,「四人帮」则被指控犯下叛国罪和反革命罪。中国需要疗愈伤口,人民则需要一个理由,相信共产党仍然可以带领他们前进。新领导人邓小平很快便宣布「四个现代化」,其中三个领域是农业、工业和国防,第四个则是科学技术,而科学技术将决定前三者最终能否成功,并且成为共产党的新意识形态的试金石。
操作员可以透过支秉彞的代码将中文输入计算机。然而,这只是数位化过程的三分之一。在支秉彞的时代,电脑终端机缺乏现今常见的互动式图形萤幕,因此它们被编程为可接受使用者的命令来执行自动化任务。使用者在键盘上输入字母或字元码,然后终端机会将其转换为对应的位址码(address code)。位址码会告诉电脑的字元产生器(character generator)应该输出什么点阵图(bitmap,小方块网格),它可以输出电脑萤幕上的像素(pixel),也可以输出成墨点(dots of ink,亦即点阵〔dot matrix〕)。
为中文开发输入输出系统仍有两个障碍。输入代码的方案很快便会在中国和世界各地如雨后春笋般冒出来。当时最能让MacBook与PC通讯的方式,莫过于普遍共享的内部程式码。无论收件人身在何处、使用何种设备或口操何种语言,要确保他们可以阅读文件档案或文字讯息将是另一项艰巨的任务,需要一个由敬业的电脑工程师组成的国际团队持续努力到二十一世纪方能完成。
支秉彞提出创新方案之后,中文编码的研究便呈现爆炸式增长,足以和先前汉字索引竞赛的狂热媲美,而研究中文编码,旨在解决处理汉字的另一项挑战。此时,昔日的汉字和索引改革者大多已经不在。多数人不是死亡,便是流亡在外。不少人自诩为民族主义者:王景春在加州波摩纳去世;林语堂于一九六〇年代和一九七〇年代分别在台湾和香港任教;文化大革命爆发之际,「俾斯麦.杜」正在病床上疗养,当时全国大学教育皆已停办,他心爱的图书馆也已关闭。支秉彞在文化大革命黑暗十年的知识荒原上重新点燃了火炬,为解决输入汉字的问题指明了道路。下一个难题是要如何将汉字转换为数位输出(digital output)。
◎二○一六年古根汉奖得主
◎现任耶鲁大学东亚语言文学与比较文学系教授
◎北美华语语系文学研究的重量级学者
◎文化史学家、现代中国文学专家
毕业于哈佛大学东亚语言与文学系、现任教于耶鲁大学东亚语言文学与比较文学系的石静远教授,是北美汉语研究圈的重要学者之一。她除了是耶鲁大学东亚研究中心委员会成员,也是耶鲁北京中心顾问委员会及美国华人博物馆董事会的成员。其教学方向主要为中国现当代文学和华语语系文学,研究兴趣广泛涵盖离散与华语语系研究、区域研究、比较文学和中国科技史。石静远与史书美、王德威等三位教授均提倡成立「华语语系文学」,以期华语文化圈多元的创作风貌能从而获得彰显。石静远丰硕的学术成果广获学界赞赏,包含哈佛学会、德国洪堡基金会、美国梅隆基金会、哈佛大学拉德克利夫高等研究院,以及史丹佛大学行为科学高等研究中心、普林斯顿高等研究院及古根汉基金会等组织的殊荣及赞誉。着有《失败、国家主义与文学:中国现代文化认同的建构》(Failure, Nationalism, and Literature: The Making of Modern Chinese Identity)、《中国离散境遇里的声音和书写》(Sound and Script in Chinese Diaspora )等;曾主编《全球华文文学》(Global Chinese Literature: Critical Essays)。
书名:《汉字王国:从打字机键盘、拼音系统到电脑输入法的问世,让汉字走向现代的百年语言革命》
作者:石静远(Jing Tsu)
出版社:麦田
出版时间:2024年7月