薛学彦:编辑角色和外语教育数字出版
作者:薛学彦 时间:2012年12月12日 来源:百道网·薛学彦专栏
订阅《新出版日报》 分享到微博:收藏
微博评论
(点击图片 进入论坛)
【百道网薛学彦专栏】 高精确度一直是计算机语言学界追逐的目标,从赋码到写作测评,不少机构和个人都在研究准确率。在数字环境下,计算机对外语教育有着巨大的辅助作用,但计算机所能够做的达不到教育数字出版的要求,这主要表现在准确率方面。
近二十年来,随着计算机的发展,语料库语言学也发展很快。在西方出版界,有“教育图书一定要基于语料库”的说法。而自从“柯林斯”系列字典之后,“朗文”等基于语料库的字典相继问世,这些字典和传统字典完全不同。尽管如此,我们不能说计算机在数字出版过程中的角色是完美的。
高精确度一直是计算机语言学界追逐的目标,从赋码到写作测评,不少机构和个人都在研究准确率。一般来讲,词性码赋码准确率较高。“英国国家语料库”报告有 97% 的准确率,其它词性码赋码器的准确度大同小异。句法码赋码基于词性码赋码结果,这决定句法码赋码结果没有词性码准确率高。
信息提取和这两种赋码结果非常相关。在没有一个 100% 的赋码结果中进行信息提取,其“噪音”是明显的,而且语言的结构相对复杂,这也增加了信息提取准确率的难度。“朗文”字典涉及的例句提取工作尽管有多种算法,但其结果也一定需要编辑工作。所以,要依靠程序完成某项教育数字出版工作,必须通过观察并建立一个“临界点”,以达到教育数字出版要求。但是,假如人为干预程序结果,也势必影响语言使用的“真实性”。
另外一种准确度表现在测试领域。一套测试系统的算法是基于题目的基本数据,尽管难度、区分度等可以由程序慢慢调整,但语言点、测试目的等的描述直接涉及题目推送的准确率。一套良好的测试系统不仅要经过反复和大量的使用,前期的编辑加工工作也相当重要。
写作评测则是更加困难的数字出版模块。在全球范围内,ETS 机构做的可能相对较好,但若让其评价系统指出写作内容中的错误,可能相对困难,因为写作过程评价不仅涉及语言,还涉及修辞、文化等更复杂、更抽象的层面。一个写作评测可以有足够多的维度,它也可能有比“人”更准确、更一致、更合理的评价结果,但是,因为写作过程中语言的复杂性,要让写作评测程序完全达到“人”的工作效果,可能性是几乎没有的。
篇章难度判断也同样存在类似的问题。目前,不少西方的数学模型大都从语言的自然特征方面着手,对篇章难度进行估算。这虽然有一定的道理,能够某种程度上服务于教育数字出版,但就中国国情来讲,影响难度的因素不仅仅是西方学术界所研究的内容。语法、生词则是中国外语教学中判断篇章难度的两个重要因素。照搬西方的模型,也只是起到了辅助的作用。
教育数字出版过程中的准确率是非常重要的因素,我们既不能因为准确率的高低而抹杀计算机的作用,也不能完全依靠一套程序、一个算法。假如教育数字出版的关键在数据库的话,那么,建库过程中的编辑作用仍然是最重要的。就这一点来讲,出版人的责任仍然任重道远。
(点击图片 进入论坛)
点击图片 查看详情
点击图片 查看详情