您现在的位置: 第十三届韬奋论坛征文
2024年09月30日 来源:韬奋出版人才论坛征文参评办公室
时间:
【摘 要】以ChatGPT 为代表的生成式人工智能异军突起,并凭借强大的内容生成能力席卷各行各业。出版业在生成式人工智能的影响下,机器内容生产、人机协同创作、智能编辑校对、智能知识服务等成为可能。但是,出版伦理、数据安全、同质化等问题随之出现,这就对出版人才素养提出了更高的要求,本文对此进行探讨。
【关键词】生成式人工智能 出版 人才素养
2022年11月30日,美国人工智能公司Open AI推出了一款聊天机器人程序,ChatGPT。它能通过自然语言处理工具,收集用户需求,集成大语言模型内容并通过不断训练的模式扩充数据库,生成较高水平的回答,被称为AIGC,是继专业生产内容(PGC)、用户生产内容(UGC)、AI辅助生产内容(AIUGC)之后的又一内容生产形态,并在内容生成水平上得到了新的突破,如对人类语言的理解更加准确,基于海量数据训练,理解用户情绪,并可以进行连续对话;生成的内容质量更高,能够依据用户反馈,改进回答方式,优化生成内容;应用领域更加广泛,不仅仅能够与人类聊天、生成文字内容,还能够进行绘画、音乐创作,完成翻译、代码撰写等任务。继以ChatGPT为代表的AI文本生成技术、以Midjourney为代表的图像生成技术,Sora这一文生视频大模型于2024年被推出,标志着生成式人工智能开始应用于文字、图像、音视频等各个领域。在这一发展趋势下,百度、阿里巴巴、腾讯、科大讯飞、抖音等互联网头部企业纷纷投身大模型创建之中,“文心一言”“讯飞星火”“通义千问”“豆包”等相继推出。大语言模型的飞跃式发展预示着生成式人工智能广阔的发展前景和巨大的发展潜力,并已经深刻影响着各行各业,出版业也不例外,生成式人工智能的出现,给出版业的发展带来了全新的机遇与挑战,深刻影响了出版业的内容生成、选题策划、编辑校对、营销发行等各个环节,起到提质增效、降低成本的作用,但与此同时,生成式人工智能是一把双刃剑,带来的隐患问题也值得思考和注意。
生成式人工智能具有庞大的原始语料库,以ChatGPT为例,拥有超过万亿的单词,而且不断从用户交互中爬取更多的信息数据。随着人工智能算法的迭代和模型的更新,ChatGPT在语义理解、语法逻辑的处理上更加迅速精准,对结果的判断与趋势的预测更加可靠。其在出版的选题策划上的优势更加明显,避免了传统选题策划受限于编辑眼界、精力、偏好,以及数据海量、收集困难、耗时过长的局限。在客观数据+专业经验基础上产生的图书更容易满足读者的期待。同时,生成式人工智能能够根据数据资料、市场分析,快速生成一篇数据翔实、结构完整的选题报告,大大提高了选题策划的质量和效率。
过去,作者只能依靠个人阅历、知识积累进行创作,生成式人工智能可以为作者提供写作思路、作品大纲、素材案例,并能够帮助作者润色语言、优化稿件,利用数据的挖掘与分析,协助作者完成创作,并提高创作水平。与此同时,可以为作者生成与图书相匹配的封面图片和内文插图,还可以为作者撰写书评,减轻作者的创作负担、提高创作效率,提升作品的吸引力与可读性,目前亚马逊Kindle商店里面的很多电子书,已经将生成式人工智能技术标注为作者或者合作者。
《全国新书首发中心2023年度新书市场报告》数据显示,2023年全国上市新书超过18万种,而出版从业人员数量与之相比,却并不平衡。编辑陷在重复性的繁重的编校工作中难以抽身,无法将更多的精力投放到创造性劳动中。而传统的校对软件只能查找简单的标点错误,纠正错别字,难以真正缓解出版工作者的编校压力。生成式人工智能能够凭借其庞大的数据资源、自然语言处理技术及强大的语义理解能力,对文章的格式、语法、逻辑进行全方位审校,还能筛选出敏感词汇和导向错误内容,如凤凰传媒就自主研发了“凤凰智能校对系统”,辅助编辑提高编校质量,强化审查力度。
生成式人工智能能够帮助设计师根据图书内容、图书类型设计出符合规范的封面、插图,提出优质排版方案,减少人工排版的人力成本和时间成本。同时,通过对海量设计案例的积累、学习、分析,利用自然语言处理技术、机器学习技术,结合读者偏好、用户需求,生成创意性更强的排版设计方案,打破人工排版固有的思维模式,提升视觉表达效果。百度文库推出的“文案排版生成器”就是一款智能排版工具,能够为编辑提供更多的排版建议,优化排版方案。
2024年2月,美国人工智能公司OpenAI推出Sora这一文生视频大模型,使得人工智能在视频领域的应用取得了新突破,至此,生成式人工智能通过深度学习算法和大数据模型训练使文生文、文生图像、文生视频成为可能,通过简单的文本描述创作出文字、图像、视频资源,强大的内容生成能力也给出版业的发展带来了更多的可能性。出版业可以利用生成式人工智能丰富内容表现形式,创作出有声读物等新出版物形态。
传统出版业通常是生产到发行的单向投送,读者的需求通常得不到反馈。利用生成式人工智能的海量数据,可以出版以读者为中心的内容,实现精准投送。同时,生成式人工智能以更加生动有趣、形态多样的方式呈现内容,提高读者的阅读兴趣。利用生成式人工智能技术,出版业可以搭建多功能的智能服务平台,提供智能知识服务、阅读陪伴服务,图书中的智能助手可以针对图书情节、人物设置,与读者进行互动,为读者答疑解惑,深受读者欢迎。掌阅科技推出的IP对话交互应用“阅爱聊”,甚至可以帮助读者与系统中的虚拟角色进行对话,为读者提供了更加个性化的阅读体验。
生成式人工智能的运行离不开海量数据的支撑,以便进行不断的训练和学习,生成更加完美的内容。大量原始数据中会隐藏着个人隐私信息,如用户在进行智能搜索、享受个性化推荐服务的过程中,自己的阅读倾向、搜索记录,会被作为数据进行收集,在无意识的情况下被人工智能训练模型所使用,用户的知情权和选择权得不到保护,因此如何在推动技术应用的同时,确保数据隐私的安全性与合法性成为亟待解决的重要课题。
出版业对版权问题有较高的要求,但是人工智能生成内容所依靠的海量数据通常已经经过了清洗、筛选、二次重组、智能合成,通常不会显示信息来源,这些原始数据在可能侵犯个人隐私的同时,也涉及版权不清的问题,从而引发AIGC生成内容的版权归属问题的争议,到底是机器自动生成还是人为生成,目前难以有准确界定,有人认为ChatGPT只是一个工具,没有人的主体意识,其产物应该归属于工具使用者,而有人认为,ChatGPT的无序使用会有损于学术研究的真实性和公信力,不利于科学技术的发展。同时,用户在使用生成式人工智能的时候并未意识到自己已经侵犯他人知识产权,而被侵权方也难以进行维权。所以,版权归属问题需进一步规范。
出版工作是党的宣传思想文化工作的重要组成部分,坚持正确政治方向、出版导向、价值取向是出版工作者的政治底线。特别是在当下各种思想激烈碰撞、价值观多元并存、审美标准众多不一的文化背景下,出版工作者应该具备较高的政治素养,做好把关人。而AIGC生成内容来源于数据库,数据库中的原始数据在内容类型的分布上不可能完全均衡,特别是不同价值观和不同文化的内容数量不均衡,而机器学习本身是无意识、无感知的,容易产生价值观偏颇,如种族歧视、文化偏见。同时,AIGC生成内容取决于数据库原始数据的同时,受到使用者技术性程序指令操作的影响,使用者的思维模式和语言习惯影响着生成内容的价值导向,一旦使用者别有用心,输入不恰当的指令,生成的内容也不会客观准确,会带有一定倾向性。
出版物是一种精神文化产品,只有具有独创性,并在垂直细分领域深耕细作才能满足人民群众精神文化需求。但是AIGC生成内容来源于数据库,相同领域的数据库与数据库之间在一定时间范围内所收集的数据必然大体一致,这就导致利用生成式人工智能进行的选题策划具有雷同性,难以脱离信息茧房的困境,难以在内容上独树一帜,降低了出版物的市场竞争力,出版领域离不开人的个体思维、学术积淀、人文关怀。同时,生成式人工智能基于数据库回答问题、生成内容,但无标注来源的语料库中存在大量低质量的内容,信源的可靠性、信息的准确性难以得到保证,毕竟人工智能“造谣”的事件确已发生。生成式人工智能能否每一次都能在与用户的交互中准确有效提取信息也不能保证,用户也对此做出过反馈:AI生成内容看似逻辑严密,实际上确是词汇的胡乱堆砌,过于随意,缺乏个性化、定制化特征,毕竟人类语言的细微差别是算法难以理解的。
生成式人工智能背景下的出版人才应该是智能出版人才,对生成式人工智能的基本概念、发展历程、核心技术、应用领域有基本的了解和掌握,并能够掌握技术原理、底层逻辑,懂得不同的技术对不同出版环节的助推作用。同时,新时代出版人才应该能够熟练使用智能工具,提升人机交互效率和生成内容质量。这就要求出版人才应该具有提出高质量问题、输入有效指令的能力。因为生成式人工智能并非是完全自动化的,需要使用者输出指令,因此受到使用者提问方式和任务需求的影响,如果使用者在提出问题的时候缺乏某些限制条件,系统就会自动忽略或自行补充,导致所生成的内容并没有实际使用价值,或者出现差错。相反,使用者如果具有良好的语言表达能力和逻辑思维能力,可以进行条件充分、目标明确的提问,就能提高内容生成质量和效率。出版人才应该具有灵活运用AI智能工具的素养,并保持足够的耐心,不断优化自己的问题指令,不断调整生成的内容,力求达到最佳效果。
在传统出版模式中,劳动三要素中的劳动对象指的是出版的非物质形态的作品,也就是知识,还包括物理材料和基础设施。随着数字技术、网络技术的飞速发展,劳动对象发生了变化,数字技术改变了出版流程和出版质态,数据成为重要的出版劳动对象,成为新型出版要素,并成为出版业数智化发展的重要基石。《出版业“十四五”时期发展规划》指出“优化提升人才、技术、数据、知识产权等出版要素资源质量,完善要素市场化配置体制机制,增强要素配置效能和保障能力,提高出版业全要素生产率”[1]。生成式人工智能背景下的出版人才应该具备较高的数据素养,能够具有分析数据和应用数据的能力,掌握利用人工智能工具收集、清洗、分析、可视化呈现的技能,将其运用于出版业之中,如通过挖掘用户浏览数据、图书销售数据来分析用户阅读偏好、畅销书主题,满足读者的个性化需求,为出版决策提供数据支持,实现出版与市场的精准对接,提高出版单位的社会效益和经济效益。但是在使用数据的过程中应该具有数据安全意识,对公共数据、企业数据、作者读者信息数据进行分类、分级管理和保护。
生成式人工智能应用于出版领域,同质化问题是值得重视的问题。基于区别不大的数据库,生成式人工智能对于使用者提出的相同问题或者相似问题,会生成相似的内容,导致论文、书籍在内容上产生雷同,缺乏独创性。此时,出版人才的创新意识和创新能力就显得尤为重要。出版人才要克服算力的缺陷,通过发挥主观能动性,积极进行主导与把关。《出版业“十四五”时期发展规划》指出“要加强创新型、应用型、复合型人才培养”[2]。出版人才要学会利用大数据发现新知识、新热点、新思想,创新选题内容、选题方向。并以市场为导向、以读者为中心,注重读者的反馈和诉求,提升基于同一素材、同一主题策划出不同形态的阅读产品的创意策划能力,如针对儿童的动画读物、针对青年的数字图书、针对老年人的有声读物,实现以技术创新带动内容创新、服务创新、管理创新、业态创新。
出版业承担着传递先进思想、传承中华文明、传播中华文化是的使命任务,生成式人工智能背景下的出版工作者应该承担时代使命,为人民群众提供更充实、更丰富、更高质量的精神文化产品。生成式人工智能的智能化水平虽然在不断提高,但是仍然存在着数据隐私、算法偏见、信息安全等方面的问题,以及版权管理、出版责任等伦理问题,如果使用不当或者缺乏责任意识,就会出现隐私泄露、导向错误、作品侵权等不良后果,甚至发生其他违法犯罪活动。因此,要保持技术理性,明确人在出版活动中的主体性地位,确保技术为人服务。在智能出版活动中,出版人才应该具有风险意识和伦理素养,主动学习并严格遵守相应的法律法规,避免发生工具乱用、版权侵犯的行为;自觉遵守行业准则和道德规范,约束自我、尊重版权;认识AIGC的技术局限性和风险性,强化出版人的责任意识和主体意识,严格审查内容、避免算法错误。《生成式人工智能服务管理暂行办法》自2023年8月15日起实施,这是全球范围内首部直接针对生成式人工智能进行规制的国家层面法律文件,标志着我国在人工智能领域的治理迈出了重要步伐[3]。未来,对这一领域的规范将更加完善。
参考文献:
[1][2]国家新闻出版署.出版业“十四五”时期发展规划[J].中国出版,2022(3):8-20.
[3]宋吉述,杨阳.2023—2024年出版业融合发展现状及趋势研判[J].科技与出版,2024(6):26-37.
(本文作者为内蒙古自治区广播电视局副科长)
北京百道世纪网络信息技术有限公司及其平行公司北京百道世纪教育科技有限公司下属的网络媒体平台百道网、百道网微信、帮书店微信,以及百道学习APP和小程序等平台上发布的文章,版权属于北京百道世纪网络信息技术有限公司所有,或北京百道世纪网络信息技术有限公司与著作权人共同拥有,严禁转载。任何纸媒、网媒或社交媒体需要发布或转载,请与版权专员联系(service@bookdao.biz),获得授权后,方可转载。对于任何未经授权的转载,我们将依法追究其侵权责任。
扫描二维码 分享文章