1.研究背景与研究意义
人工智能是新一轮科技革命和产业变革的重要驱动力量。习近平总书记指出,要促进人工智能“同经济社会发展深度融合,推动我国新一代人工智能健康发展”(转引自朱定局,2023)。数字人文(digital humanities)作为一种新的学术导向,其产生和推进都源于数字和人文的双向需求和动力。数字化、智能化工具具有转变人文学探索内容、边界、研究方法和受众的巨大潜能,对当前新文科建设具有积极作用。2024年1月,我国教育部和中国联合国教科文组织全国委员会、上海市人民政府共同举办了“2024世界数字教育大会”。大会主题为“数字教育:应用、共享、创新”,围绕教师数字素养与胜任力提升、数字化与学习型社会建设、数字教育评价等议题展开讨论。回望历史,外语教育始终与国家命运紧密相连。一代又一代外语人筚路蓝缕,辛勤耕耘,立德树人,体现出了应有的责任与担当。新时代赋予外语教育新任务、新要求。外语教育教学是数字人文时代新文科建设的前沿阵地。推进新文科建设要在“夯实基础学科、发展新兴学科、推进学科交叉融合”的基础上,培养“适应新时代要求的应用型、复合型文科人才”(王清然、徐珺,2022,2023)。
大语言模型在文献阅读与评述、语言和话语分析、词汇语义检测、文本和思想重用以及多模态视觉文化分析等方面有着广阔的应用前景(许家金等,2024)。OpenAI于2022年推出的ChatGPT代表了大语言模型的新突破。百度推出的文心一言(ERNIE Bot)是全新一代知识增强大语言模型,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。近年来,大语言模型在文本生成、信息提供与问题解决上的优异表现引起了语言教学研究者的广泛关注。然而,文献显示,迄今尚未有研究探讨大语言模型在专门用途英语写作教学中的应用模式与效果。本文在回顾2022—2023年语言学领域大语言模型研究的基础上,设计4种大语言模型指令(研究型、学习型、互动型、反馈型),在6个维度(大纲生成、文献提供、论证拓展、方法解释、语言修改、风格调试)上测试了文心一言在专门用途英语写作教学中的应用模式与效果。
2. 数字人文、大语言模型与语言学研究简要回顾
我国外语教育能否为文明交流互鉴培育更高水平的外语人才,能否勇担使命开新局,这两个问题已成为当前亟须研究的重要课题(王文斌,2023)。“数字时代的到来使得人文学科需要思考如何创新方法论以应对新的情境和问题,同时也需要与其他学科进行更紧密的融合,以拓宽学科边界并丰富研究视角。”(邱伟云,2024)为顺应数字人文学科的发展趋势,本文筛选了国内外语言学核心期刊中关于大语言模型的相关研究。为获取高质量文献,本文选取的国内文献来源类别为CSSCI语言学类期刊,国际文献来源类别为SSCI、E S C I语言学类期刊。本文使用的检索平台分别为中国知网(CNKI)与Web of Science。中文文献检索词设定为:大语言模型、C h a t G P T、文心一言、智普清言。英文文献检索词设定为:Large Language Model、ChatGPT、ERNIE Bot、ChatGLM。在排除非学术性文章(如短评、札记、访谈、图书介绍、动态)后,本次检索获得中文文献和英文文献情况如表1所示(2)。
表1显示,国际方面,语言教学类期刊最关注大语言模型,如Languages和Journal of Second Language Writing;其次为计算语言学领域期刊,如Natural Language Engineering和Computational Linguistics;此外,翻译学、词典学、心理语言学类期刊也开始关注大语言模型的应用,但发文量相对较少,如Perspectives、International Journal of Lexicography、Journal of Psycholinguistic Research。国内方面,外语类语言学期刊已开始关注大语言模型的应用,如《中国外语》和《外语电化教学》等。数据显示,国内核心期刊发文量低于国际核心期刊。
如图1和图2所示,大语言模型在语言教学中的应用、大语言模型所涉及的自然语言处理问题和大语言模型在翻译中的应用是目前国内外研究者最为关注的三个研究议题。通过进一步检阅文献,笔者发现,在语言教学相关研究中,国际期刊重点分析了以Chat GPT为代表的大语言模型在写作教学中的应用,主题涉及叙事写作(Zhou et al.,2023)、议论文(Su et al.,2023)、书面沟通的写作教学(Zadorozhnyy&Lai,2024),以及大语言模型在上述教学过程中提供纠错反馈(written corrective feedback)的表现(Osawa,2023)。国内期刊语言教学相关研究偏重综合性分析,多从宏观层面探讨AI生成时代语言教学所面临的机遇和挑战(张震宇、洪化清,2023;胡壮麟,2023;袁毓林,2023)。相较于国内研究,国际期刊研究的主题更为多元化,涉及词典制作(De Schryver,2023)、语言鉴定(Zampieri et al.,2023)、专业领域语篇生成(Schwitzgebel et al.,2023)、元话语(Dynel,2023)和使用者的意向、态度与行为分析(Liu&Ma,2023)等议题。在系统检阅相关文献后,笔者发现,大语言模型在专门用途英语教学中的应用研究文献较为鲜见,而专门用途英语写作教学是新文科建设核心课程之一,以培养卓越创新人才为目标,在讲好中国故事、传播好中国声音,展现可信、可爱、可敬的中国形象,以及中国话语和中国叙事体系构建中发挥着不可或缺的作用。有鉴于此,我们以大语言模型在专门用途英语写作教学中的应用为例,探索数字人文时代外语人才培养创新模式。
3.研究设计
3.1研究问题
本研究将围绕以下核心问题展开讨论:(1)如何将大语言模型文心一言应用于专门用途英语写作教学?(2)文心一言在专门用途英语议论文写作的三个阶段(准备阶段、论证阶段与修订阶段)的测试表现如何?(3)在使用大语言模型辅助专门用途英语写作教学时,教师应重视哪些问题?
3.2测试过程
本研究所依托的课程为“商学英语读写”。课程受众为中国政法大学一年级第二学期的本科生。为探索文心一言在专门用途英语写作教学中的辅助效果,本研究选取了“商学英语读写”课程中的一个法商融合类写作任务,即以学术议论文为体裁探讨最低工资法案的利弊。依据Su et al.(2023)和Warschauer et al.(2023)的分类方法,本研究将写作教学分为准备阶段、论证阶段与修订阶段;将大语言模型的指令(prompt)类型分为研究型、学习型、互动型和反馈型。表2展示了本次测试研究的具体写作任务、测试内容与对应的指令类型。
4.结果与讨论
本节呈现的是文心一言在专门用途英语议论文写作的三个阶段的测试表现与分析。具体而言,准备阶段的测试内容为大纲生成与文献提供;论证阶段的测试内容为方法解释与论证拓展;修订阶段的测试内容为语言修改与风格调试。
4.1准备阶段
本研究所依托课程的教学对象为高水平英语二语学习者,具备一定的商学与法学专业知识。因此,笔者根据Su et al.(2021)的建议,在专门用途英语(法商融合领域)教学中,基于更复杂的Toulmin Argumentation Pattern(TAP)框架,测试了文心一言在生成写作大纲方面的表现。TAP框架包括主张、依据、推理、支持、反驳、限定6个部分(Toulmin,2003),据其定义,笔者对每个部分都给出了详细指令。指令与测试结果如表3所示。
表3显示,文心一言在TAP框架下生成的大纲,在论据的全面性上表现得较为出色,在输出限定条件时,也较准确地理解了指令。具体而言,文心一言主张实施最低工资法案是必要的。首先,在论据生成方面,文心一言生成的大纲从提升低工资工人权益与收入水平和减少贫困与不平等现象两个方面展开论述。立论明确,简洁扼要。但是,文心一言在论据生成方面也存在一些问题。例如,其大纲提供了三个主论据,但没有提供子论据,且第一个主论据(workers who earn minimum wage are unable to meet their basic needs,such as food,shelter,and medical care)与其主张相悖。笔者认为,在输出第一个论据时,文心一言产生了幻觉(hallucination)问题,其幻觉类型为语境冲突幻觉(context-conflicting hallucination),即文心一言生成的论据与其之前生成的主张相矛盾。Zhang et al.(2023)的研究表明,当大语言模型生成冗长或多轮回答时,可能会出现自我矛盾的情况,这是其在保持长期记忆方面的局限性或识别上下文能力不足所致。
在输出限定条件方面,文心一言准确地理解了指令。在TAP框架的限定部分,写作者应该通过提出限定性条件,使原主张成立且反驳观点不成立。文心一言提供的限定条件(the claim of improving low-wage workers’living standards holds true only under certain circumstances and assumes that the economy can absorb the increased labor costs without signifi cant job losses or inflation)准确地满足了指令中关于限定部分的要求。
表4呈现的是在法商类专门用途英语写作的准备阶段,文心一言在提供参考文献方面的表现。通过在谷歌学术与Web of Science数据库进行双重核实,笔者发现,文心一言提供的许多参考文献是虚构的,另有一些文献的作者、年份、发表期刊及页码等数据存在明显错误。在文献提供这一环节,文心一言再次产生了幻觉问题,其幻觉类型为与事实相冲突的幻觉(fact-conflicting hallucination),即其输出的内容不符合既定的世界知识(Zhang et al.,2023)。
在专门用途英语写作教学中,教师应指导学生依据学科领域的分类,整理不同格式的参考文献。因此,在这一测试环节,笔者还进一步检验了文心一言能否依据学科类别生成符合学科领域引用规范的参考文献。在输入指令“Please provide me with an example of citing a legal journal article.”后,文心一言准确提供了依据美国法学期刊和著作的引注格式体系,即蓝皮书引用体系(The Bluebook:A Uniform System of Citation)生成的参考文献范本。
4.2论证阶段
在专门用途英语写作论证阶段,大语言模型在专业研究方法上的表现如何?笔者通过设计研究型指令,尝试让文心一言解答本次写作任务中涉及的经济学专业分析方法,即双重差分法(difference in difference method),表5呈现的是相关指令与测试结果。结果表明,文心一言提供的方法解释较为详尽,涵盖了双重差分法在观察性研究中估计因果效应时的应用模式、主要目的、存在的局限性和研究者应采取的处理策略,这有助于写作者理解双重差分法的核心思想。
表6展现的是文心一言在论证拓展方面的表现。具体而言,在内容方面,文心一言的论证侧重于提高最低工资对成本和需求的影响。虽然较为简短,但仍然提到了自动化可能导致的就业损失、对经济整体需求的影响等关键点。在逻辑性上,文心一言论证的因果关系相对模糊,没有厘清最低工资、企业成本与就业损失之间的关系。在学术性上,文心一言的论证相对直接,没有使用相应的学术术语,如成本推动通货膨胀(cost-push infl ation)、需求拉动通货膨胀(demand-pull infl ation)等,这对写作文本的专业性与权威性有一定影响。
4.3修订阶段
既往研究表明,使用大语言模型修正学生写作文本中的语言错误并提供纠错性反馈,是大语言模型在二语教学领域最重要的用途之一(魏爽、李璐遥,2023)。在专门用途英语写作教学中,语言的准确性是衡量学生写作文本质量的重要维度之一。我们以“商学英语读写”课程中学生在“最低工资法”写作任务中提交的文本段落为样本,通过设计反馈性指令,测试了文心一言在语言初阶修改上的表现,即其修改拼写、标点和语法方面的能力,表7呈现的是相关指令与测试的结果。
测试分为两个环节。在第一个环节,笔者要求文心一言修正学生写作文本中的拼写、标点和语法错误。结果显示,文心一言不仅纠正了原文中的拼写、标点和语法等初阶错误,而且进一步提升了原文表达的准确性与连贯性。在第二个环节,为了给学生提供写作反思素材,我们要求文心一言明确地指出原文中出现的语法错误。文心一言反馈,原文出现了四种错误,类型包括句子结构、代词使用、介词使用与词汇选择。但这些错误类型没有覆盖文心一言在环节一中的全部修正内容,且第三条(介词使用)与第四条(词汇选择)均为错误判断,将现在分词的错误拼写归类为介词的错误使用,将动词遗漏错误归为词汇选择错误。
在专门用途英语写作中,借助大语言模型进行风格调试有助于学生提高写作文本学术性、可读性和语篇连贯性。通过设计反馈型指令,笔者测试了文心一言对学生写作文本进行学术化调试的能力。表8呈现的是相关指令与测试结果。文心一言运用通俗易懂的表达方式,如inextricably linked,并保留了原文中使用的熟悉度较高的单词(如balance),而没有使用术语equilibrium进行替代。此外,文心一言修改的文本更注重句子的简洁度,使得文本的整体语言风格更加简洁明了。为了给学生提供写作反思素材,我们进一步通过反馈性指令(please tell me what changes you made to make this paragraph more consistent with the conventions of academic writing),要求文心一言明确其修改的方向。文心一言反馈其修改围绕以下几个方面展开:使用正式语言,使用学术术语,调整句法结构,引用学术文献或参考资料。但是,文心一言的调试版本中,并没有出现学术文献或参考资料,说明其在多轮反馈中,再一次出现了语境冲突幻觉。
5.结语
本研究表明,在人工智能快速发展的当下,传统的语言教学方法及人才培养模式已不能完全适应时代需求,创新教学模式势在必行。有鉴于此,为帮助外语教学工作者在专门用途英语写作教学中更有效地利用大语言模型,我们提出以下建议。
一要重视大语言模型产生的幻觉问题。幻觉问题是自然语言处理领域亟待解决的重要问题之一。大语言模型产生的三种常见幻觉类型分别是输入冲突幻觉、语境冲突幻觉和事实冲突幻觉。在上述测试中,文心一言出现了语境冲突幻觉与事实冲突幻觉。专门用途英语涉及法律、商务、医疗等领域,为确保生成内容的准确性,在教学过程中,教师应重视大语言模型课程产生的各种幻觉,要求学生对大语言模型的反馈信息进行多重事实核查,如通过多个论文数据库,核实大语言模型所提供的参考文献的真实性。
二要引导学生使用大语言模型进行写作反思。有效的写作反思对学生能否将新习得的写作知识纳入长期记忆至关重要(Bitchener&Storch,2016;Su et al.,2021)。在语言修改与风格调试的测试中,笔者均通过双重指令,要求文心一言提供写作反思素材。让学生知晓其写作过程中所出现的错误类型以及与之相对应的修改方向,这较大程度上可提升其写作水平。此外,教师也应指引学生导出并保留其在与大语言模型互动过程中的详细对话记录,以作为后续电子写作的反思素材。
三要合理运用新技术,避免替代性依赖。一线教师最为担忧的是,大语言模型的出现会导致学生的思考过程被压缩,甚至被替代。鉴于此,在教学过程中,教师应指引学生合理、适度地运用新技术辅助写作,如要求学生在没有大语言模型辅助的情况下,独立撰写议论文大纲,再与大语言模型生成的大纲进行对比,引导学生寻找被忽视的研究视角。比如在本次测试中,大语言模型生成的大纲更多地集中于经济学视角,而忽略了法学视角。借助新技术,在写作的各个环节进行对比分析,可以进一步培养学生的批判性思维。
掌握新技术,跨界合作,继承创新,交叉复合,文明交流互鉴,正契合新时代新文科建设要求,这可为新时代外语教育复合型创新性人才培养提供借鉴,更好地服务国家战略。
(本文来源:《中国外语》)
(湖北研楚教育咨询有限公司)