2006~2008年,笔者申请到了国家自然科学基金面上项目——锡伯文、满文传媒出版技术研究,并担任项目主持人,与潍坊北大青鸟华光照排有限公司合作,通过项目研究,在Windows系统上研发出“易文通办公系统”和“超捷排版系统”两套软件。项目批准号:60563006;项目代号:F0206。该两套软件目前主要应用于锡伯文报纸《察布查尔报》和新疆人民出版社锡文室锡伯文图书的录入和排版当中,解决了这些用户缺少锡伯文软件的瓶颈。现就软件的研发和应用情况如下。
一、基本情况
锡伯文、满文均属拼音文字,行款自上而下,自左至右。锡伯文是由新疆维吾尔自治区语言文字主管部门管理的6种现行民族文字之一,应用于锡伯族自治地方和传统文化、新闻出版、广播电视、双语教学及社会用字、族内交际等领域。锡伯文来自于满文,是在充分保留满文的语音信息和文字结构的基础上,于1947年对满文的一部分字母形体进行简化而形成。在信息技术 信息交换用字符集编码中,锡伯文与满文的所有字符只有元音字母“i”的词中式、辅音字母“k”的词中式和词尾式、辅音字母“ng”的词尾式、辅音字母“k”与元音字母“e”拼写时的词中式和词尾式等在形体上的区别。也就是说,锡伯文和满文之间只有5个字符有形体上的区别,但两者表达的语音信息、正字书写及信息处理要求完全一致,因而锡伯文保留和传承着满文的诸多文献语言与文化信息。
有关锡伯文、满文信息处理技术的研发与应用,1995年曾经制定七位和八位编码表示的《信息处理交换用锡伯文编码图形字符集》(代号:GB—36044)、《信息处理交换用锡伯文字符集键盘的字母区布局》(代号:GB—36045)、《信息处理交换用锡伯文点阵字模集与数据集》(代号:GB—36046)等三项国家标准,用于锡伯文与数据通信系统之间的信息交换和软件研发。1994~1996年,实施并完成新疆维吾尔自治区星火科技项目“锡伯文、满文文字处理与轻印刷系统”研究,在DOS系统上研发出锡伯文、满文办公系统和排版系统软件,软件投入应用于后,改写了全国惟一的一份锡伯文报纸《察布查尔报》活字铅印的历史;同时也结束了新疆人民出版社、新疆教育出版社和新疆民族古籍办的锡伯文图书、教材和满文古籍手抄出版状况,使之进入电子印刷出版的时代。此外,上世纪90年代初,北大方正在DOS系统上以外挂方式开发了满文排版软件;近几年蒙柯立公司开发了锡伯文、满文办公软件等。但总体上看,由于锡伯文和满文使用人数和软件用户甚少,且没有任何市场利润等原因,国内高科技企业大都不愿投资开发,致使该类文种的信息技术出现瓶颈,目前在国内外还没有基于国际编码和Windows操作系统的用于出版物排版的软件,这种状况严重制约着锡伯文、满文传媒电子出版技术面向信息化、现代化的发展。
本文所述《锡伯文、满文传媒出版技术研究》,作为国家自然科学基金资助项目(项目批准号:60563006;项目代号:F0206),2006~2007年,由新疆维吾尔自治区民族语言文字工作委员会、潍坊北大青鸟华光照排有限公司合作完成研发工作。研制出的系统软件成果有:锡伯文、满文公文排版系统,锡伯文、满文书刊排版系统,锡伯文、满文报纸排版系统等3套应用软件。
本系统的研发,得到了项目合作单位潍坊北大青鸟华光照排有限公司的全方位一的技术支持,该公司长年致力于我国少数民族出版业的软件研发,早在1989年就参与开发我国少数民族文字处理系统,具有深厚的技术底蕴和精诚的服务体验,拥有众多的顾客群,用户已超过6000家,遍布全国31个省、市、自治区。华光公司以排版软件为切入点,研制开发了适合少数民族文字特点的全线产品,为用户提供了全方位的解决方案,在专业出版领域享有盛誉。华光少数民族文字的电子出版系统产品线包括:华光蒙古文电子出版系统、华光藏文电子出版系统、华光维吾尔、哈萨克文电子出版系统、华光朝鲜文电子出版系统、华光彝文电子出版系统、华光傣文电子出版系统、华光傈傈文电子出版系统以及本次研发的锡伯文、满文电子出版系统等。华光研发的技术成果获得了权威部门的认可,产生了积极的社会效益。先后荣获国家科技进步奖、国际软件博览会金奖、王选新闻科技奖、针伟长中文信息科学技术奖等。其中与新疆民语委和云南西双版纳合作的“基于10646的维、哈、柯、傣文电子出版系统研发”项目于2007年11月荣获国家新闻出版行业最高科学技术奖—王选科学技术一等奖。锡伯文、满文的电子出版系统就是借助于华光高科技先进的出版技术进行研发。笔者作为项目负责人,现将研究情况简述如下。
二、信息技术 信息交换用锡伯文、满文国际编码标准制定
计算机信息处理技术的实现首先要解决的是编码标准问题,而编码标准的制定关系到语言文字信息处理工作自身的发展,也关系到整个民族文化、教育、科技事业的发展。这是一项既严肃又复杂的系统工程。锡伯文、满文与蒙古文同为坚向显示和书写的拼音文字,其编码的编制工作归类于蒙古文国际编码标准序列之中,而蒙古文字符集编码国际标准的制定工作,是在中国、蒙古国、德国、日本、美国、中国台北等许多国家和地区研制或使用的条件下开始的。1993年至2000年,中国和蒙古共和国共同成立专家组,开展了信息处理 信息交换用蒙古文ISO/ICE 10646国际编码标准的制定工作。期间多次召开国际、国内会议讨论编码方案,该标准于2000年得到国际标准化组织和Unicode技术委员会的认可。同时用汉文、西里尔(Cyrillic)蒙古文和英文公布《关于蒙古文编码系统实现的用户协定》。蒙古文ISO/ICE 10646编码与国际上通用的Unicod编码相一致,文种包括传统蒙古文(胡都木文)、托忒文、锡伯文、满文以及蒙、托、满三种文字用于转写藏文和梵文的阿里嘎礼(Ali Gli)字母等5种文字的字母、标点符号、数字和控制符。该编码采用“只对名义字符编码”,大于一个字母单位的强制性合体字及小于一个字母单位的字素不予编码的原则。由于上各文种大部分字母根据它们在词里的位置(词首、词中、词尾)大都有不同的变体形式,有时一个字母可能有八九个或十来个变体形式,因而根据ISO/IEC 10646 的编码原则,只对这些变体形式中的一个字符进行编码,称其为“基本字符”。认同后的基本字符名称按蒙、托、锡、满的顺序,以认同排列中的第一个字母名称命名。其中锡伯文单独使用的字母与满文共用的字母名称冠以“MONGOLIAN LETTER SIBE”;满文单独使用的字母名称冠以“MONGOLIAN LETTER MANCHU”;锡、满文单独使用的标点符号的名称冠以“MONGOLIAN SIBE”和“ MONGOLIAN MANCHU”等。
锡伯文、满文传媒出版系统就是基于蒙古文编码国际标准序列中的锡伯文、满文编码,根据《关于蒙古文编码系统实现的用户协定》,以增补、确认和定位的方式,研究制定了锡伯文、满文通用的名义字符、变形显现字符、复合字、合体字及通用标点符号、专用符号、数码、英文等共479个字符集的编码标准,其中名义字符56个,变现字符 250个,英文、数字、标点符号、专用符号173个,它们与国际编码标准接轨,通用于锡伯文、满文信息技术的研发。该编码的研究制定,对与蒙古文同属一个编码序列的锡伯文、满文的信息处理具有里程碑意义,将对这两个民族的语言文化利用信息化手段,取得长远发展起到积极的推进作用。
三、锡伯文、满文OpenType 字库的研制
民族文字的信息化离不开显现用的字库,民族文字的字库是民族文信息化中字形规范和编码标准的载体,再好看的版面也要通过各种字体表现出来,因而字库是计算机系统中重要的不可缺少的组成部分,也是计算机信息技术应用的前提和基础。
锡伯文和满文都是一种复杂的文体,绝大多数字母都有四种形式,即词首形式(Initial Form)、词中形式(Medial Form)、词尾形式(Final Form)和独立形式(Isolated Form),这四种形式在上下文中又呈现多种变体形式,比如元音字母 “U”的词尾就呈8种变体形式。因而,需要对锡伯文、满文字符的四种形式、多种变体形式和复合字、合体字都要逐一添加脚本,而添加脚本的过程就是分辨每一个字母形体的过程,需要将它们每一个字母的基本区(0x06 — 0xff)代码和变形显现字符(0xfb00 — 0xfeff)代码之间的对应关系,通过添加脚本的方式编写出来。
OpenType 格式的字体是在TrueType字体结构的基础上,增加一些高级文字特征的新一代垮平台字体格式。其文字特征放在OpenType Table(布局表)中,这种特征对复杂文字的处理提供了很好的支持。由于锡伯文和满文的书写格式完全一致,所以锡伯文、满文OpenType 字体的研制,采用Microsoft 公司提供的Volt 工具来添加锡伯文、满文字体中的OpenType Table,最终研制出了16套用于电子出版印刷的OpenType格式的字体。其中锡伯文、满文正文白体5种,标题小黑体2种,标题大黑体2种,手写体2种,美术体2种,行书体1种,篆书体1种,奏折体1种。这16套OpenType字库,都基于ISO/IEC 10646编码标准,以国际通用的Unicode编码为基础,融合了Postscript字体技术,集中了TrueType曲线轮廓字型的描述信息,完全符合TrueType、OpenType字库的技术规范,可以在Windows系统以及Linux的操作系统以及各种排版软件上使用,支持通用文字处理系统和外部设备上输出。其中正文白体适用于报纸、书刊及文件材料的输入、编辑和排版;小黑体种适用做正文的标题;大黑体适用于大标题;手写体适用于书刊杂志排版;美术体适用于广告、标题;行书体、奏折体、篆书体等适用于刊物、广告、注解、名片、修饰等。
在锡伯文、满文传媒出版系统OpenType字库研制过程中,我们对锡伯文、满文字体如何才能符合原字稿设计的特征和风韵,作了深入研究、推敲和分析。为使锡伯文、满文版面效果整齐,对所有的字符统一调整了基准线,所研制的字型符合国际标准和国家规范,达到编码字型完全正确,风格完全统一,结构合理,重心平稳,粗细、黑白处理得当,输出大字光滑不变形,小字清晰不模糊,使之具有最佳的均衡性、易读性和实用性。
四、锡伯文、满文输入法研究与技术实现
本系统在解决锡伯文、满文输入、输出问题时,根据该2 种文字的正字规则,从文字学角度对其内体结构进行了解剖式的研究,在掌握元音和谐律的基础上,结合计算机的特点,实现了比较先进的自动选形输入法。由于锡伯文、满文的词首式、词中式和词尾式都有字形不同的变体显现形式,自动选形输入法在技术上采用“一对多、多对一”的实现方法。所谓“一对多”即为:被选中输入的某一个字符可能与几个变显现字符相对应,在选择输入条件时,它们按个自的连接规则,在词中或词末实现自动选择和连接;“多对一”即为:多个变显字符与被选取输入的某一个字符在词中或词末产生连接关系时,它们也要按照各自的选择条件,实现自动选择和连接。本系统在Windows操作系统中生成了IME方式的锡伯文、满文自动选形输入法,实现了准确无误地输入。
本系统根据自动选形输入法键盘布局的要求,设置了锡伯文键盘布局、满文键盘布和锡伯文、满文特殊符号键盘布局。锡伯文键盘布局在选择锡伯文输入法状态下使用。满文键盘布局在选择满文输入法状态下使用。特殊符号键盘布局在选择“符号”状态下使用。锡伯文、满文键盘布局,在英文键盘上分别安排这2个文种各自对应的Unicode 编码名义字符,然后设定其键盘处理程序的名称。在健面上设置的锡伯文、满文字符名称与通用键的英文字母名称相基本对应,只对个别字符作了上档或键控制键处理。另外还设置了特殊符号的扩展键盘,按ALT+CTL选择使用。这种合理的键盘设置,可使用户在极短的时间内就能熟练地掌握和使用锡伯文、满文的输入法。
五、锡伯文、满文传媒出版系统的技术实现
锡伯文、满文传媒出版技术研究的成果,现已研发出办公系统、书刊系统和报版系统等3套应用软件。这些软件是基于ISO/IEC 10646国际编码标准,使用先进的OpenTyp字库,运行在 Win NT/Win2000/XP 等操作系统上的所见即所得的多页交互式软件,集录入、编辑、排版、版面显示于一身,用于锡伯文、满文书刊、科技书籍、杂志、报纸等各类出版物的排版。软件研究解决的主要技术技术创新点有;
(一)锡伯文、满文排版规则的技术实现
1.同一版式的对齐规则:在同一版式中,锡伯文、满文的所有独立词和标点、数字等处在一条垂直的直线上,要求上下左右对齐,版面整齐美观;在同一版式的同一行中,标点符号不能在行首出现,移行时标点符号须在行末出现;数字、小数点、分数、百分比及各类数理化符号等不从中间切分,符号的前半个不能出现在行首,须以整体形式出现在行末、行中或行首;元音字符“i”不在行首出现,须在行中或行末出现;分段时起首行缩进2个字空,但使用专为锡伯文、满文设置的字间距空(词书排版时要求起首行不缩进,从第二行以下的其余各行均缩进一个字空对齐);大32开文本坚排时,一般默认值为29行(3号字),或者能够部分叠加;文本行内的默认对齐是中线对齐,特别是锡伯文、满文与、英文、汉文混合排版时,尤其重要;页眉页脚不仅可以出现在页的上下,也可以在左右。若是在上下边,文字为横向;若是在左右边,文字为竖向;竖排中既有左右侧页码显示需求,也有上下显示页码需求。奇偶页页码设置为不同位置(双面打印时需要重叠)。
2.字间距处理规则:在同一版式的上下文中,各独立词之间的字间距按四分之一空距处理,标点符号和数字的间距与字符间距相一致,并要求其处在独立词下面正中的位置(不在右下角出现);
3.换行音节切分版式对齐规则:换行时行末或行首切分音节,是达到版式对齐、整齐、美观效果的一个重要规则;换行时如果单个词的长度大于行高,需要按音节切分;换行时行末如是元音(音节)字符,则从其词首式、词中式处均可切分,如:A/(元/) AA/(元元/) BA/(辅元/) AA/B(元元/辅)、BAA/BA(辅元元/辅元)等,以此类推;换行时元音和辅音音节字符词尾式不切分,在行末以其整体形式出现;换行时行末单音节的独立词不切分;换行时如元音字符后面缀连2个或2个以上的辅音,或辅音在前、元音夹中,则从其辅音处切分,如:AB/B (元辅/辅) BAB/B(辅元辅/辅) AB/BA(元辅/辅元) BAB/BA(辅元辅/辅元)等;辅元音节的切分规则:独立词前面是辅音,后面是元音,元音后面又是辅音,则从其元音下面的辅音处切分,如:BA/BAA/BA (辅元/辅元元/辅元)BA/BA/BAB/BA(辅元/辅元/辅元辅/辅元等。
4.横排规则:锡伯文、满文在与汉英文混排的论文、著作等相关文本中,按汉文的自左至右要求进行混排时,汉文中间的锡伯文、满文需左向卧排(字头向左);外文及数字、小数点、分数、百分比及各类数理化符号等,在文行中右向卧排;标题排版,有时需要锡伯文、满文竖向横排,即以独立词形式自左至右横向排列,数字、标点、特殊符号等也与此相对应。
5.文字表格的竖排规则:若页面为竖排时,表格的默认排版方向为竖向;页面为横排时,表格的默认排版方向为横向;竖排中各类对齐方式的默认值应上对齐和下对齐;同时也要注意锡伯文、满文边界分析,保持字母间的衔接,不能出现断字。
(二)系统支持的锡伯文、满文主要排版功能
系统支持锡伯文、满文与汉文、英文等多文种的混合输入、输出、编辑和排版;支持锡伯文(满文)单文种与汉文、英文竖向排版、横向排版;具有Word、Office等通用公文处理软件及其文本相互转换的功能;具有完善的版面设计功能,为用户提供了一个良好的页面组版环境,拥有各种功能的菜单、工具箱、滚动条、页面规格的描述以及版心设置信息等;支持多页排版,在版面上可直接插入文字、修改文字、复制、删除、粘贴等;提供上百种国际标准调色板,可进行立体字、勾边字、题线、延线等的颜色变换操作;系统具有强大的文字处理、标题处理、目录编排,文字、图片、图形多重粘贴的功能;支持标题的各种修饰;支持分栏、不等分栏;支持多种规则及不规则图形;系统支持多种类型的图片,包括TIF、EPS和JPEG等常见格式;具有支持报纸排版的小样输出、功能、替代功能、模板管理、报纸页面设置、小样管理功能;在分区内可利用工具箱的工具,方便地生成各种图形、图表、表格、艺术字等;系统具有方便简捷的工具窗口。用户界面符合新一代Windows平台软件的界面特点。具有操作简单、方便、快捷,功能实用的特点,易于掌握和使用。
六、锡伯文、满文传媒出版技术的应用价值
我国是一个多民族国家,锡伯文、满文作为传承我国和世界满—通古斯语族语言文化的载体,加强其信息化方面的研究,不但是保护和传承满—通古斯语言与传统文化的需要,也是该种语言文字新的研究领域的开拓。阿尔泰语系的诸民族,包括满—通古斯语族的各民族,其语言与文化在中国的现代化建设进程中占有重要地位,在加强中国与世界各国文化交流方面起着重要作用。目前,它们作为世界阿尔泰学的组成部分,已经向跨学科的综合性研究发展,由此阿尔泰语系的民族、语言、历史、文化也成为一种跨学科的研究。
当前,在全球经济一体化、信息化浪潮中,在强势语言文化的冲击下,我国满—通古斯语族的语言文化面临着前所未有的冲击,其濒危和消亡速度在加快。如果满语满文的衰退、消亡前后经历了单语化(入关前的满语)—双语化(入关后的满汉双语)—单语化(清朝后期始转用汉语)300多年时空的话,而锡伯语文也经历着这一同样的过程。新中国建立以来,锡伯语文大致经历了两起两落的四个阶段。即50年代的上升期(黄金期)、60—70年代的中断期、80—90年代中旬的恢复期、90年代下旬以来的衰退期等四个阶段。目前,锡伯语文在公务活动中的应用,学校锡、汉双语教学、图书教材出版等重要领域普遍出现萎缩,锡伯语文对本民族传统文化的影响力、创造力减弱,本民族群体对本民族语文的认知态度淡化等一系列新的变化,其总的趋势呈下降、衰败迹象,生存环境在一步步恶化。在这种背景下,利用信息技术保存和传承该种文字的信息尤为重要。一个民族文字的信息化进程不仅仅是技术进程,更重要的是文化进程。文化信息化进程是指通过语言文字的信息化,进而通过互联网整合现有文化信息并进行传播的过程。锡伯文和满文只有实现保存形式的现代化、研究手段的现代化,参与虚拟空间的竞争,不但要去占领真实空间,还要去占领虚拟空间,在传统任务上增加信息化任务,才能使以该种文字为载体的文化发扬光大。因此,我们首先应将锡伯文、满文的各种符号都要信息化,然后向文化、教育、经济、科技领域延伸,实现跨越式的发展。
有鉴如此,专家在对本项目的论证中指出:“该项目作为我国少数民族语言文字信息处理技术应用的一个重要组成部分,拟解决锡伯文和满文的文字处理、图书报刊排版等方面的技术和应用问题,具有非常好的应用前景。项目最后一定要做到实用化,真正解决锡伯文和满文传媒出版的实际问题,为此需要在很多排版技术上实现技术创新。”“锡伯文与满文差别不大,因此,锡伯文和满文的传媒出版技术可以同时研究,这样,也有利于满文文献的研究。”“锡伯文和满文都是我国的濒危文种,属于国家民族语言文字抢救保护工程。目前,国内尚无通用的锡伯文和满文信息处理系统,该项目研究锡伯文和满文的编码技术、字型与输入法、视频技术、排版技术和电子办公、出版技术,抓住了中文信息处理的关键。技术路线清楚,对关键技术分析合理。提出了为实现项目目标拟采取的六条研究方案,环环相扣,层次分明,清晰可行。该项目的核心是排版技术,创新点在于能够在锡伯文和满文中实现跨媒体出版,能够在出版界推广应用。建议该项目借鉴国内民族文字信息处理已经成熟的技术,结合项目的所涉及的语言文字特征,采用合理的技术路线,按期完成预期研究结果。”
(本文原载《国家民族事务委员会双语示范试点县察布查尔锡伯自治县第二期锡伯语言环境建设培训班资料汇编》,中共察布查尔锡伯自治县县委宣传部编印,2008年10月)