【
百道网薛学彦专栏】
结构化无疑是内容描述的一种有效方法,语义化描述更可以为日后查询提供准确的条件,是数据回收利用的保障。但是,目前,多数网站的内容加工并没有结构化,或者结构化工作混乱。本人认为,这是目前网络出版过程中最大的问题。这个问题带来的信息资源浪费实在可惜。
一、几个概念
内容加工(content processing)在传统出版中指编辑、排版、校对、修改、核红、定稿的过程,内容类型主要包括文字和图片;数字内容加工(digital content processing)指传统纸质文本内容结构化和现有数字文本内容(即基于二进制方式创作内容)结构化(XMLization)。数字化(digitizing/digitization)指非二进制内容(包括纸质内容、胶片、模拟视频、模拟音频等)转二进制过程,此概念不一定强调文本内容的结构化处理。内容管理系统(content management system)是进行内容管理的计算机程序,包括“出版、编辑及修改”,是协作环境下的工作流(workflow)管理系统[1]。这个概念仍然模糊。假如内容管理系统仅仅是对某个数字化后的数字文档进行管理的话,那么它非常有可能不包括文本结构化处理过程,亦即简单的、传统意义上的数据库。
本文涉及的文本内容加工是指内容结构化过程。
二、文本内容结构化
XML是可扩展标记语言,它是灵活但又有严格句法的标记语言。不同用户可根据内容需要设计自己的标签集(tagsets,最好是语义化标签集),出版人则根据标签集和结构设计程序,最终进行数字出版。它也是目前数字化工作的首选标记技术。
目前,文本内容结构化主要包括两种方法:所见即所得方法和代码编辑方法。前者弊端多多,不值得讨论。这里讨论代码编辑方法。
编程领域有句众所周知的话,编程最好的工具是文本编辑器(plain text editor)。这话并非危言耸听,不仅在编程界如此,文本处理和结构化亦如此。
本人在1997年至1999年制作网页曾使用DreamWeaver和FrontPage,使用过程表明,网页编写并不能象科印或华光排版语言那样随心所欲。当时,本人没有注意代码(即HTML)。后来偶然看了一眼代码,发现其原理和华光排版语言基本一样,区别在于华光基本没有“链接”概念,也不包括多媒体编辑。随即,自己很快学会和熟练了HTML,并使用文本编辑器对网站内容进行重构和编辑。这种方式不仅随心所欲,而且效率很高。
今天,结构化仍然有象XMLSpy这样的编辑工具,这些authoring tools有优点,例如可以随时提醒编辑过程中的句法错误(syntax errors),但实践表明,它仍然不是首选的内容结构化工具,首选工具仍然是文本编辑器或者文本编辑类工具。
结合Regular Expression(regex),文本编辑器可以使工作更加准确、更有效率、更少错误、更高质量。
对计算机来讲,非标记的文本表现虽然无序,但对regex来讲,文本仍然是有规律的。各种各样的列表肯定是行首有序号的行;章节名称也肯定有“第……章”之类的字眼。
英文文本处理尤其适合于regex。常见的单选题,无论有多少个,在结构化过程中,均可以点击鼠标后一次完成,其效率是无法想象的:
待处理文本:
使用的regex(这里使用OS X平台下的BBEdit编辑器):
查找:
^(\d+.) ?(.*?)\ra\. (.*?)\rb\. (.*?)\rc\. (.*?)\rd\. (.*?)$
替换为:
<multiple_choice>\r\t<choice_stem>\2</choice_stem>\r\t\t<choice key="0">\3</choice>\r\t\t<choice key="0">\4</choice>\r\t\t<choice key="0">\5</choice>\r\t\t<choice key="0">\6</choice>\r</multiple_choice>
处理结果:
其中的key的值可以使用预处理时的标记进行修改。这里是<key/>。
这种结构化方法几乎不存在标签错误。
Regex是被成为“魔鬼”(daemon)的一种文本编辑辅助工具,它使用为数不多的几个符号和字母对内容进行描述,并允许完成查找、替换、内容移位、内容复制、信息提取、文本处理辅助等工作。流行的几款专业文本编辑器均支持regex,业界还有一些内嵌regex引擎的文本处理工具。限于篇幅和主题,这里不对regex展开讨论。
总之,代码编辑方式并不可怕,编辑们的业务转型也没有那么复杂或困难,编辑也没有必要通晓所有的XML技术,当然,代码方法也是结构化的首选方法。
三、目前网络出版过程中的问题
结构化无疑是内容描述的一种有效方法,语义化描述更可以为日后查询提供准确的条件,是数据回收利用的保障。
但是,目前,多数网站的内容加工并没有结构化,或者结构化工作混乱。本人认为,这是目前网络出版过程中最大的问题。这个问题带来的信息资源浪费实在可惜。
参考文献:
[1]"Content management system." Wikipedia. 16June.2012
http://en.wikipedia.org/wiki/Content_management_system.