薛学彦：编辑角色和外语教育数字出版-百道网

您现在的位置：专栏

薛学彦：编辑角色和外语教育数字出版

作者：薛学彦时间：2012年12月12日来源：百道网·薛学彦专栏

     【百道网薛学彦专栏】高精确度一直是计算机语言学界追逐的目标，从赋码到写作测评，不少机构和个人都在研究准确率。在数字环境下，计算机对外语教育有着巨大的辅助作用，但计算机所能够做的达不到教育数字出版的要求，这主要表现在准确率方面。

    近二十年来，随着计算机的发展，语料库语言学也发展很快。在西方出版界，有“教育图书一定要基于语料库”的说法。而自从“柯林斯”系列字典之后，“朗文”等基于语料库的字典相继问世，这些字典和传统字典完全不同。尽管如此，我们不能说计算机在数字出版过程中的角色是完美的。

高精确度一直是计算机语言学界追逐的目标，从赋码到写作测评，不少机构和个人都在研究准确率。一般来讲，词性码赋码准确率较高。“英国国家语料库”报告有 97% 的准确率，其它词性码赋码器的准确度大同小异。句法码赋码基于词性码赋码结果，这决定句法码赋码结果没有词性码准确率高。

    信息提取和这两种赋码结果非常相关。在没有一个 100% 的赋码结果中进行信息提取，其“噪音”是明显的，而且语言的结构相对复杂，这也增加了信息提取准确率的难度。“朗文”字典涉及的例句提取工作尽管有多种算法，但其结果也一定需要编辑工作。所以，要依靠程序完成某项教育数字出版工作，必须通过观察并建立一个“临界点”，以达到教育数字出版要求。但是，假如人为干预程序结果，也势必影响语言使用的“真实性”。

    另外一种准确度表现在测试领域。一套测试系统的算法是基于题目的基本数据，尽管难度、区分度等可以由程序慢慢调整，但语言点、测试目的等的描述直接涉及题目推送的准确率。一套良好的测试系统不仅要经过反复和大量的使用，前期的编辑加工工作也相当重要。

    写作评测则是更加困难的数字出版模块。在全球范围内，ETS 机构做的可能相对较好，但若让其评价系统指出写作内容中的错误，可能相对困难，因为写作过程评价不仅涉及语言，还涉及修辞、文化等更复杂、更抽象的层面。一个写作评测可以有足够多的维度，它也可能有比“人”更准确、更一致、更合理的评价结果，但是，因为写作过程中语言的复杂性，要让写作评测程序完全达到“人”的工作效果，可能性是几乎没有的。

    篇章难度判断也同样存在类似的问题。目前，不少西方的数学模型大都从语言的自然特征方面着手，对篇章难度进行估算。这虽然有一定的道理，能够某种程度上服务于教育数字出版，但就中国国情来讲，影响难度的因素不仅仅是西方学术界所研究的内容。语法、生词则是中国外语教学中判断篇章难度的两个重要因素。照搬西方的模型，也只是起到了辅助的作用。

    教育数字出版过程中的准确率是非常重要的因素，我们既不能因为准确率的高低而抹杀计算机的作用，也不能完全依靠一套程序、一个算法。假如教育数字出版的关键在数据库的话，那么，建库过程中的编辑作用仍然是最重要的。就这一点来讲，出版人的责任仍然任重道远。

标签：教育数字出版语料库薛学彦专栏写作评测外语数字教育赋码

发表评论

发表评论？[请登录]

版权声明

北京百道世纪网络信息技术有限公司及其平行公司北京百道世纪教育科技有限公司下属的网络媒体平台百道网、百道网微信、帮书店微信，以及百道学习APP和小程序等平台上发布的文章，版权属于北京百道世纪网络信息技术有限公司所有，或北京百道世纪网络信息技术有限公司与著作权人共同拥有，严禁转载。任何纸媒、网媒或社交媒体需要发布或转载，请与版权专员联系（service@bookdao.biz），获得授权后，方可转载。对于任何未经授权的转载，我们将依法追究其侵权责任。

扫描二维码分享文章