​从 ChatGPT 到 Sora | 生成式人工智能如何改变数字人文研究和服务 ?

2024-07-08 13:14:27 浏览数 (3)

生成式大规模语言模型创造了科学研究的第五范式,有机地结合了数据科学和计算智能,转变了自然语言处理和多模态信息处理的研究范式,推动了AI赋能社会科学研究的新趋势,为数字人文研究与应用提供了新思路。 本文深入探讨了大规模语言模型在数字人文研究中的应用,揭示了它们在古籍保护、智能处理和学术创新中的巨大潜力。文章首先概述了古籍资源的重要性及数字化保护的必要性,随后详细介绍了ChatGPT等大规模语言模型的开发及其在文献管理、内容理解、跨文化研究等方面的应用。通过具体案例,文章展示了AI如何协助古籍的组织、分类和内容生成。接着,探讨了AI在艺术创新和文化遗产保护方面的应用前景。 最后,文章探讨了由AI技术引发的数字人文中技术、信息和社会互动的挑战与机遇。

1 Introduction

作为历史文化遗产的重要组成部分,古籍资源是中华民族宝贵的精神财富,也是优秀传统文化的必要载体(张,2022),其中蕴含着丰富的哲学思想、文化精髓和历史信息。古籍的研究与保护对于中华文化的传承、文化自信的提升以及传统文化的宝藏挖掘具有重大意义。然而,由于年代和保存条件的限制,古籍保护面临着许多困难。古籍的物质损害是不可避免的,且难以保护古籍的原貌和原创性。作为一种再生的保护措施,数字古物出版可以再现古物的精神内容,并通过社会出版传播古物。

科学研究范式决定了人类探索未知领域的广度和深度,全球科学的发展正在进入第五范式。与依赖大量数据来分析事物内在机制关系的数据范式(第四范式)不同,第五范式进一步强调数据与科学机制的融合,结合数据科学和计算智能,引入智能技术并加强推理链接。得益于过去几十年的机器学习、大数据和计算能力的提升,AI取得了显著进展。源自AI的大规模语言模型加速了科学研究范式的这一变化。

近年来,深度神经网络、自然语言处理技术和大规模语言模型的进步,使得古籍资源的数字化和智能化处理表现出色,具有广阔的应用前景。本文将从研究领域和计算与数字人文应用场景探讨大规模语言模型所带来的机遇与挑战。

2 Review of large language models

大规模语言模型的发展经历了从简单到复杂、从单一模态到多模态的过程,这标志着人工智能在自然语言处理和机器学习领域的深入探索,同时也反映了人类对语言和认知过程的持续深化理解。大规模语言模型的发展可以分为三个阶段。

在初级阶段,2017年,Vaswani等人(Vaswani et al., 2017)提出了Transformer架构,在机器翻译任务上取得了突破。2018年,谷歌提出了BERT(来自Transformers的双向编码器表示)模型(Devlin et al., 2019),通过双向训练改进了文本表示的深度,特别是在理解上下文能力上取得了突破,广泛应用于文本分类、命名实体识别和自动问答等任务。同年,OpenAI基于Transformer架构中的堆叠解码器结构提出了GPT(生成预训练Transformer)(Radford et al., n.d.)模型。BERT和GPT开启了“无监督预训练” “预训练语言模型”的时代。"无监督预训练" "监督微调"范式逐渐成为自然语言处理领域的研究趋势。2019年,OpenAI发布了拥有15亿参数的GPT2(Solaiman et al., 2019)模型,谷歌发布了拥有110亿参数的T5(Raffel et al., 2023)模型。2020年,OpenAI发布了拥有1750亿参数的GPT3模型。

由于大型语言模型参数众多,在它们上进行特定任务的领域微调成本极高。因此,研究者开始探索如何在不进行单任务微调的情况下充分利用大型模型的潜力。在GPT-3模型中,提出了一种名为上下文学习(Context Learning)(Brown et al., 2020)的少量样本学习方法,它将不同任务的小部分标注样本拼接在待分析文本的前端输入模型中供参考,而不修改模型参数。然而,与监督微调相比,其性能仍需提升。2022年,提出了指令微调方案,该方案将许多不同类别的NLP任务转化为生成型自然语言理解类型的框架,建立“问题-答案”对进行训练。同年,基于“监督微调 强化学习”的InstructGPT(Ouyang et al., 2022)被提出,它使用少量监督数据使大型模型理解人类指令。

自2022年11月ChatGPT发布以来,大规模语言建模研究正式进入了一个突破性的快速发展阶段。用户可以通过对话框与ChatGPT互动,实现自动问答、代码生成、数学计算、逻辑推理等功能。它在开放领域问答以及多轮问答等生成式NLP问题上表现出色。2023年3月,升级版的GPT-4发布,具备了跨模态理解能力,支持图像和文本输入并输出文本。同月,ChatGPT Plugin插件功能推出,插件商店为用户提供各种第三方插件。5月,ChatGPT APP发布。7月,代码解释器Code Interpreter发布。9月,文本图形模型DALL-E 3发布,微软开始整合基于GPT-4的Copilot功能。11月,GPT-4语料库更新至04/2023;新增gpt-4全部工具模式,整合所有插件能力;开发平台新增多模态功能,包括视觉、图像创建和文本转语音;并发布了GPTs功能,允许用户自定义GPTs并在GPT商店发布。2024年1月,发布了性能更加强大、费用更低、更新版本的gpt-4-0124-preview模型,以及gpt-3.5-turbo、text-embedding-3。2月15日,OpenAI发布了首个视频生成模型——Sora,它继承了DALL-E 3模型的图片质量,可以根据指令生成1分钟的HD视频。

Sora是OpenAI开发的革命性的文本到视频模型,代表了人工智能的一个重大突破。该模型可以根据描述性线索生成视频,扩展现有视频的前后内容,从静态图片生成视频等。截至2024年3月,Sora尚未向公众开放使用,但其技术演示和潜在应用已经引起了广泛关注。团队选择“Sora”(日语意为“天空”)作为项目名称,象征着其“无限的创造潜力”。Sora是历史上尝试将文本转换为视频的众多模型之一,但它使用了与DALL-E 3类似的扩散 Transformer 机制,通过在潜在空间中去除3D“块”的噪声,然后将其转换为标准空间的视频。这种方案的优势在于,它不仅用视频到文本模型增强训练数据,还展示了如何从数据集中学习创建3D图形并自动生成不同的视频。

Sora对人文和艺术等领域的研究和行业发展具有深远的影响,为相关研究提供了新工具,使研究行人能够更直观地理解和呈现历史事件和文化实践。在内容创作行业,如电影、电视、广告和游戏,Sora提供了一种快速且低成本生成高质量视频内容的新方法,可能会改变内容创作过程和行业模式,但也引发了关于AI产品现有就业市场和版权问题的担忧。Sora还引发了关于在线信息真实性的担忧,特别是在政治宣传和虚假信息的传播方面。虽然Sora为艺术创作和文化传播应用提供了新的可能性,但其能力被滥用的风险必须得到解决。因此,规范和限制这一新兴技术是确保其负责任地用于健康的经济、文化、社会和技术发展的必要措施。

3 Generative AI Transforms Digital Humanities Research

根据波普尔的三个世界理论,第三世界是客观知识的世界,人类社会在数千年的发展中形成了一种特定的知识生产秩序(高,2023)。传统知识的形成需要很长时间,无论是在理论探索还是在实验研究方面,而以ChatGPT为代表的大规模语言模型实现了知识生产的光速化。随着技术的迭代,知识生产的质量也得到了极大的提升,大型模型幻觉现象显著减少。作为非决策性AI,大规模语言模型对人文社会科学研究具有工具价值(陈,2023)。

3.1 Knowledge Organisation and Documentation Management

信息资源管理的次要学科,如数字人文、文物保护、目录学等,在研究范式上与图书馆学和情报学有相似之处,旨在有效地组织、存储、检索和利用信息资源,以促进知识的排序和优化知识服务。古代文献是数字人文研究的核心研究目标,承载着丰富的历史和文化信息。古代文献的有效管理对于保护和传承优秀文化遗产具有重要意义。

生成式AI的引入使得大规模处理文献成为可能,并理解复杂文档的内容和结构。它可以自动处理文本,并辅助古代文献的组织、编目和分类,从而提高其可访问性和利用效率(图1)。AI可以学习古代文献的语言特征和结构模式,自动识别文献的主题内容、历史时期等信息,从而提高文献管理系统的效率。此外,AI可以分析数字人文研究文档的内容和语义,帮助构建更精确和详细的分类系统,提高检索系统的准确性和用户体验,并辅助构建思维导图,以直观地展示研究的内部结构和知识联系。

3.2 Content Understanding and Knowledge Production of Ancient Literature

古代书籍的完整保护与数字人文研究应包括古籍的原生保护与数字化、文本的智能处理、人文计算分析等过程。研究的主要数据来源于古代文献,由于历史原因,一些古文本常常遭损坏。ChatGPT可以根据现有文献内容和上下文预测和生成缺失文本的可能内容。例如,分析文献的写作风格和上下文以及作者的历史背景,为文本补全提供一个或多个选项,从而帮助人文学者恢复或重建文献的原始面貌。相反,DALL-E 3可以根据文本描述重新生成或恢复含有插图或图表的文档内容,以改善文献的理解和展示(见图2)。对于从事跨文化交流研究的人文学者来说,语言障碍在分析不同地区的古文本时构成了重大挑战。像ChatGPT这样的大型语言模型可以高质量地翻译文学作品,甚至对于罕见语言,也可以通过其庞大的训练语料库实现跨文化翻译[16]。这扩展了人文学者的研究视野,使跨文化乃至跨时代的学术研究变得可行,并促进文献资源的跨文化共享与交流。

对于传统的人文学者来说,处理大量文本数据并从中提取关键信息是复杂且琐碎的。他们需要使用高级编程语言、自然语言处理技术和视觉分析技术来自动处理和视觉分析大量文本。在这方面,大型语言模型可以起到重要作用。在文本内容解析方面,使用适当的命令可以直接指导大型模型解析历史文献[1],从文本中识别古籍的命名实体和关系,构建古籍的知识图谱,识别古籍事件元素,识别引用句子,进行文本情感分析,并实现古籍的自动摘要、自动标注、主题和关键词生成。对于文本数据可视化,ChatGPT的代码解释器(OpenAI, n.d.)功能可以生成构建视觉分析图表的代码,例如,用于识别古代中药处方和案例数据分析[11]。DALL-E 3和Sora这样的工具可以生成各种数据可视化图像,包括时间线、地图和行人关系图,如真实的洞穴壁画和当代艺术风格作品[10]。大型模型的引入打破了文本处理与可视化分析之间的技术障碍,为人文学者提供了数字人文研究的基本工具,使相关研究结论更易于理解,从而促进了学术交流和知识传播。数字人文研究成果的表达在于实现人文知识的创造性再现。在探索新的研究主题或尝试从新角度解释现有材料时,大型模型可以根据现有研究材料和数据提出新的研究问题、假设或理论,激发新的学术思维,为研究提供新思路。另一方面,DALL-E 3和Sora可以采取这些创造性概念,并通过视觉艺术作品探索和表达它们,为学术研究提供新的表达方式和思维维度。

前面的讨论表明,生成式人工智能在促进文献内容理解和创造性知识生产方面至关重要。大型语言模型的应用不仅提高了数字人文研究的效率,还扩展了数字人文研究方法,拓宽了数字人文学者的视野,为创造性知识生产注入了新活力,并在促进学术创新与交流方面展现出巨大潜力。

3.3 Humanistic Computing and Artistic Innovation

在艺术与人文的交汇点,生成式AI技术正在开辟新的研究领域,并展现出其独特的吸引力。多模态艺术探索、风格辨识、文化洞察,以及文化遗产的数字化复兴和历史声音再现,都是这一领域可能的研究方向。这些研究虽然聚焦于不同的重心,但共同描绘了一个以技术创新驱动、多模态且相互连接的研究生态,共同推动对艺术和文化的深度理解和创新表达。

利用深度学习技术研究艺术创作具有悠久的历史。现有研究包括使用生成对抗网络(GAN)生成中国山水画风格[24]、水墨画和花卉,以及将传统中国绘画转换为写实图像等。大型语言模型为优化改进艺术创作和辨识提供了新思路。基于多模态大型语言模型,艺术探索、风格辨识、文化洞察构成了生成式AI在艺术理解和创新中应用的基础。前者侧重于使用生成式AI技术在多媒体形式中理解和生成艺术思维,包括图像和文本,以促进艺术表达的创新发展,并为艺术家提供创作的新工具和新思路。AI绘画可以展现人类的主观意识和审美属性,通过构建结合大型语言模型与文本图像生成模型的辅助绘画创作方法,可以作为创作过程的工具。后者则专注于不同艺术风格的跨模态模拟,例如将小说转化为视频,以帮助研究者更直观地理解不同的艺术体裁,并为分析艺术风格提供新视角,从而洞察其中所蕴含的文化内涵。这两者的有机结合展示了生成式AI技术在促进艺术理解和创作表达中的关键作用。

在数字时代,文化遗产的传承与保护面临着前所未有的机遇。大数据、人工智能和深度学习等技术不仅可以帮助修复和保护受损的文化遗产图像,还可以基于古代文献资料创作新的视觉作品,基于数字形式的文化遗产复兴为人们体验和理解人类的历史文化提供了新的视角和解决方案。(i) 文化遗产的图像修复通常涉及古代文献、古文物和建筑图像的修复。一种成熟的做法是,通过识别图像的受损部分,并借助深度学习技术,特别是卷积神经网络(CNNs)(Liu Yixuan等人,2023)和生成对抗网络(GANs)(Jin等人,2020),填充缺失的部分,并基于周围图像的内容推理受损部分的可能外观。此外,结合历史文献和跨学科研究成果,还可以更准确地再现原有的艺术风格和细节,使修复工作不仅限于恢复物理形态,而且尽可能保留文化遗产的历史和艺术价值。(ii) 大型语言模型和多模态模型可以将古代文献中的描述转化为具体的视觉图像,再现历史事件或重现古代场景,以创作文化和艺术作品。这种从文本到图像的转变提供了一种学习和体验历史的新方式,也为艺术创作提供了灵感来源。特别是风格迁移研究可以将古代艺术风格应用于现代设计,使古代文化元素以新的艺术形式呈现给观众。最后,基于古代文献和考古发掘结合增强现实(AR)和虚拟现实(VR)技术,创造出沉浸式的历史体验空间,使用户仿佛穿越时空一样体验历史场景和文化故事。

语音生成研究历史悠久(Kaur & Singh,2023)。历史声音再现指的是利用AI探索古代语言和音乐的构建,这不仅加深了对语言和音乐文化遗产的理解,为语言和艺术研究提供了新的方向,而且进一步促进了跨文化交流和理解。它的发展轨迹可以追溯到20世纪中叶,当时研究行人首次尝试利用电子合成器模拟人类语音。尽管早期结果听起来粗糙且缺乏自然节奏,但它们标志着利用技术探索语音再现的旅程的开始。随着时间的推移和技术创新,特别是在计算机时代,语音合成已经从简单的模拟转变为高度智能化。

作为这一研究领域的重要应用,历史声音的再现专注于AI技术在构建和恢复古代语言、音乐等声学遗产方面的强大潜力。这个过程超越了过去音频记录的数字修复或复原,深入到对丢失或严重退化的语音系统的科学重建。它涉及到对古代文献、考古证据、语言亲属关系、音乐理论、历史习俗等多方面信息的综合分析,结合现代语音学、声学、计算机科学和人工智能算法构建古代语音的高度逼真模型。这些模型不仅能够恢复特定历史时期或文化背景下语言的发音特点,如独特的元音和辅音组合、音调变化和语调模式,还能再现特定乐器的音质、古代音乐作品的演奏风格,甚至是特定场合的环境声学。

这项工作的重要性体现在几个层面上。首先,它极大地丰富了语言学和艺术的研究工具和内容。通过古代语言的听觉重建,学者可以更直观地理解音韵演变规律、方言差异以及文化交流的影响,为语言史、方言学和语音学研究开辟了新的实验路径。在艺术方面,重现历史音乐声音有助于揭示古代音乐美学的更深层次内涵、表演实践和社会功能,促进考古学、音乐史及相关交叉学科的发展。其次,历史声音的再现对于文化遗产的保护和传承具有深远的意义。它使得博物馆、档案馆、图书馆等机构能够以互动和沉浸的方式呈现历史声音资源,让公众跨越时空,聆听古代文明的声音,感受其独特的魅力,从而提高公众的历史文化素养,增强民族认同和文化自信。此外,这项技术促进了跨文化交流和理解。通过AI重建古代语言和音乐,不同文化背景的人们可以跨越语言和时间的障碍,直接接触和感知彼此遥远的祖先声音,增进对各自文化起源的了解,拉近彼此的距离,这有利于在国际文化交流中增强和谐共存,在全球化背景下促进相互理解。此外,历史声音的再现还为影视、游戏、虚拟现实等多媒体产业提供了前所未有的创作素材。这些真实再现的古代声音可以用于历史作品中,赋予它们更高的历史真实感和艺术影响力,提升观众观影或游戏体验,同时也助于开发更具吸引力的历史教育资源。

上述研究不仅促进了艺术和文化的深刻理解和创新,也为未来人文艺术史研究和文化遗产保护指明了方向,突显了生成式AI技术在促进文化产业进步中的关键作用及其潜力。

4 Challenges posed by generative AI for the digital humanities

生成式人工智能不仅为数字人文研究、教育和知识服务提供了机会,同时也带来了许多挑战(见图3)。

4.1 Technology & Human

从人文视角来看,人工智能技术的发展和应用给人们的生活和工作带来了不同程度的便利和效率提升。然而,人工智能本身的可控性和复杂性要求作者对技术对人的影响采取辩证的态度。本小节探讨了快速发展的人工智能技术可能对人们产生的负面影响,并重点关注四个方面。

首先,由于人工智能带来的技能替代和失业风险。由于人工智能技术导致的社会经济结构变化现在已成为现实。虽然人工智能技术的发展也创造了新的行业和就业机会,但目前更普遍的影响是替代甚至颠覆性地消除工作岗位。这种转变可能会导致特定行业的工人需要重新培训或转行以适应新的就业市场(Guliyev等人,2023年)。目前以人工智能为代表的技术创新已经造成了一次明显的技术性失业浪潮。一方面,数字技术的快速更新速度远远超过了组织和工人技能的更新速度,使得劳动力难以及时适应新技术带来的新要求和环境。另一方面,自动化技术和人工智能技术可以显著减少企业对劳动力的需求,从而节省成本,这在市场经济环境中,使用智能替代人工已成为大多数企业的选择(Lima等人,2021年)。此外,人工智能系统可以快速、准确地执行重复和标准化的任务,这通常比人工劳动更有效率。这种人工智能优化的人力替代在那些不需要劳动力发挥太多主动性和创造性的职位中更为常见。第二,人工智能技术也可能增加人们对技术的依赖性。随着人工智能技术的日益复杂化,其性能和成本逐渐优化,并且越来越频繁地嵌入日常工作和劳动场景中,极大地提高了生产力。然而,过度依赖技术可能会削弱人们的基本能力,如批判性思维、创造性思维等。在数字人文和知识服务中,这可能导致对原材料和数据的深入理解能力下降,这可能会表现为过分追求数据呈现的视觉化而牺牲对数据本身的深入挖掘。

此外,人工智能还可能导致技能丧失,过度依赖生成式人工智能可能会导致研究者在传统研究技能和方法上的技能退化。尽管最初在各个研究和生产环境中引入人工智能技术的目的是辅助手工过程以提高效率,但随着人工智能技术的不断进步和与人类生产活动的深度融合,人工智能技术逐渐占据了主导地位。它越来越多地在整体研究或生产活动中技术性地占据主导地位(Cabitza等人,2023年)。如今,人工智能替代人脑思维能力的现象越来越明显;例如,学校学生经常使用ChatGPT协助完成课程作业,这在短期内可以提高课程成绩和学习效率,但从长期来看,可能会削弱学生独立思考和创造性解决问题的能力。不当使用人工智能技术还可能导致研究方向产生偏差,因为人工智能技术的应用可能导致研究过于偏向技术可实现领域,而忽视需要深入思考和人类直觉的研究课题。人们的AI素养往往参差不齐。许多人没有足够的筛选和反思能力,这会导致在与人智能技术互动的过程中逐渐变得被动,并越来越依赖自动化系统,这个过程往往逐渐侵蚀人们主动思考和创造性概念化的动机和热情,从而使研究越来越同质化和封闭。

4.2 Technology & Information

从信息的角度来看,AI技术无疑为研究工作带来了颠覆性的推动;在更强大的算力和更为繁荣的深度学习方法的庇护下,信息处理工作的深度和广度都得到了极大的提升。过去难以处理的大量数据逐渐被利用起来,之前无法触及的挖掘深度也稳步变得可能。然而,在这个过程中,一些潜在的性问题需要引起注意。

首先,需要更多关注信息的质量和可靠性。AI技术的广泛应用提高了信息生成和流通的速度,但同时,也带来了信息过载和信息质量控制的问题。由于原始训练数据可能存在不准确的情况,加上复杂的模型训练可能导致过拟合现象和泛化能力的不足,AI技术的准确性往往不能得到充分保证。例如,一些学者组织了数十名专业医生来评估GPT对专业医学问题的回答准确性。结果显示,ChatGPT为各种医学 Query 生成了大致准确的信息,但答案的准确性不能得到充分保证,其处理复杂问题的能力有限(Johnson等人,2023年)。不准确的信息常常误导用户做出错误的决策和判断,造成直接经济损失或其他风险。此外,数据隐私和安全问题也值得认真对待。随着物联网设备和云计算的发展,大量个人和敏感数据被生成和处理。用户将敏感信息委托给物联网设备,当这些数据被传输到云端进行存储和分析时,其安全性和隐私性至关重要。最后,信息处理过程可能面临解释性和可解释性问题,因为生成式AI可能会产生复杂且深刻的分析,但生成这些结果的过程往往是“黑箱”的,难以解释和理解。许多AI模型和复杂的神经网络通过多层非线性变换处理输入数据并做出预测。这些模型的内部工作往往复杂,使得设计师和开发行人也很难追踪并理解模型是如何从输入数据得出特定输出的(Toreini等人,2019年)。这对于希望通过研究过程获得洞见的数字人文学者构成了挑战。许多数字人文项目在上述多个方面遇到了问题;例如,在为特定语料库和上下文制作的智能问答系统中,系统实现了提供关于语料库内容基本信息问题的准确回答的目标,但AI模型在逻辑复杂和分析性问题上往往需要表现得更好。无论答案正确与否,用户往往无法验证答案的来源和准确性,这在使用结果时总是需要保持警惕。

4.3 Technology & Society

技术对社会生产的影响是无可争议的,它为日常生活带来的便利是显而易见的。然而,在这一过程中,尽管它对社会有益,但也可能加剧数字鸿沟,即技术发展的不均衡可能会加剧社会不平等,特别是在资源匮乏的地区。经济发展水平的差异常常导致不同人群接触人工智能技术及相关产品的程度不同。相比之下,教育水平或个人技术素养的差异常常导致不同人群使用人工智能技术的效率和能力不同。所有这些可能的经济因素、教育水平因素、基础设施、社会文化因素和其他元素的相互作用,最终加剧了数字鸿沟。其具体含义可以从以下方面理解:

  1. 接入鸿沟:这指的是个人或团体在ICT基础设施(例如,互联网、计算机、智能手机等)接入方面的差异。例如,在城区,大多数家庭和个人可以接入高速互联网。相比之下,由于基础设施不足,农村或贫困地区的人们常常需要接入同样质量的互联网服务。
  2. 使用鸿沟:即使在可以接入ICT的地方,不同个体使用这些技术的熟练程度和频率也可能存在差异。
  3. 技能鸿沟:这与个人在使用ICT时的技能水平有关,包括基本的数字素养、信息检索、在线交流和高级技能,如编程或数据分析。
  4. 结果鸿沟:即使个人可以接入和使用ICT,他们从中获得的实际利益也可能不同。例如,在一些人文学科项目数字化存储纸质材料以保存原始语料库的过程中,一些项目在完成数字化条目和展示平台的构建后,可能会关闭对原始纸质前身的开放获取服务,这无意中使得那些难以使用电子技术的人群,如老年人,更难以获得这项服务。

人工智能技术的使用也可能带来伦理和社会责任方面的挑战。例如,AI决策的透明度和算法偏见问题。在人文学科研究和知识服务中,确保技术的应用遵循伦理标准、尊重人权和社会正义是一个持续的挑战。

由于生成式AI系统的训练严重依赖原始训练数据,如果数据集中存在偏见,例如,以牺牲其他群体为代价过分代表某一群体,AI系统可能会继续学习和复制这些不平等。此外,即使数据本身是中性的,如果它们反映了历史偏见和社会差异,AI系统也可能继承这些偏见。由于认知结构的不同,算法设计者可能将个人偏见或成见编码到算法中。评价AI系统性能的标准也可能存在偏见,导致系统优化暗示了调整的错误方向。

这些因素的组合导致AI算法可能存在算法偏见,例如就业歧视、贷款不平等和司法不公(Henz, 2021)。随着AI技术的普及,企业和研究机构面临的社会责任问题越来越突出,有必要对AI技术的使用进行正当化和全面约束。

例如,互联网上对“数字生活”进行了广泛讨论,许多人认为,以数字方式“复活”已故之人是对生命的亵渎。“数字生命形态”的管理和约束同样重要。在管理和规制“数字生活”方面也存在差距。

4.4 Technology, Human & Society

当作者从人与社会的角度来看,可以看出人工智能技术的应用促进了个体在社会层面上的更好发展。也必须承认,在先进计算机技术的帮助下,社会可以更好地整合个体工作的成果以向前发展;例如,越来越多的大型模型是通过无数研究者的共同努力形成的。这些模型在迭代过程中不断得到完善,越来越符合用户的需求。这些模型不断改进并适应用户的需求,极大地便利了研究者,从而促进了整个文明进步和发展。然而,为了确保人工智能技术发挥积极作用,有必要解决将人工智能与人与社会结合时可能出现的许多问题。

首先需要面对的是学术伦理问题。然而,使用人工智能工具辅助学术研究以节省时间和提高效率已是无可争议的事实;伴随的学术伦理问题不应被忽视。这些问题主要体现在:(一)信息偏见和不准确:AI模型在训练过程中往往不可避免地存在偏见和误差,因此其生成的内容常常无法确保绝对的平等和准确,如果研究者将带有偏见或误差的AI生成内容包含在他们的研究成果中,可能会影响科学发展的公平性和客观性。

(二)知识产权问题:AI生成的内容往往是基于其大量训练数据中的信息生成的,因此如果用户在未经区分和追溯来源的情况下直接重用AI生成的内容,可能会引发版权问题。

(三)学术诚信问题:如果研究者不受限制地借鉴AI生成的内容,并在大量重复中借助AI工具加速研究过程,他们可能会违反学术诚信原则,其成果的原创性和创新性将受到质疑,甚至被判定为剽窃。

此外,由于人工智能的引入,版权和知识产权也可能产生新的风险。生成式AI可用于创作文本、音乐和其他艺术作品,这些作品的版权归属现在已成为一个复杂且全面的问题。AI在保护知识产权方面的问题多种多样,其中之一是主客体边界的模糊。在知识产权法中,AI的主体问题涉及它是否可以作为创作的主体和权利的主体关于其合格性。

基于法律层面的主要标准,只有“人类”才能被视为知识产权法律关系的主体。但由于AI技术的优秀效率优势,AI越来越接近实际意义上的创作主体身份(Liang,2017年),这将挑战AI作为法律意义上的主体在初级标准中的非主体性基本规范。

第二点是劳动理论的颠覆;在解释人工智能劳动及其创作方面,传统的劳动理论有明显缺陷。人工智能活动和传统的“劳动”活动有显著差异,因此既不能将人工智能视为主体,也不能将其视为常规意义上的客体(Kop,2019年),这将给权利归属甚至与此相关的法律问题带来更多不确定性。根据描述,市场上出现了许多AI艺术创作产品,如创作绘画、音乐和视频。然而,这些AI创作是根据用户的要求和提示由模型实时生成的,许多人认为这本质上仍然是模型的原始训练数据的“组合”和“复制”。尽管这些AI创作是基于用户请求和提示由模型实时生成的,但许多人认为它们本质上仍然是模型的原始训练数据的“拼贴”和“复制”,这使可能出现的版权问题变得复杂。

4.5 Overall risk of Technology at the Human, Information, and Social levels

近年来,各种类型的人工智能模型在实践应用中的出色表现,使许多人不知不觉地倾向于技术决定论,即认为技术发展是社会变革和文化模式的主要驱动力,甚至认为技术将是推动社会进步的唯一因素。这种观点忽视了科技与社会之间的复杂互动,可能导致技术的发展脱离社会的需求,同时简化了科技与社会的复杂关系,没有考虑到人类在科技发展中的选择和决策作用。此外,技术决定论可能导致悲观情绪,甚至损害公众参与和政策干预。因此,作者必须认识到技术对社会的重要影响。同时,作者也需要看到社会在塑造技术中的作用,即技术与社会是相互作用的。这种互动构成了科技发展的复杂性。为了促进人工智能技术更好地适应社会,有必要在设计、开发和应用人工智能时考虑社会的需求和价值观。实现人工智能技术的可持续发展,需要作者关注人工智能如何用于可持续发展目标,人工智能开发和使用对环境的影响,以及如何在不对环境、经济和社会造成伤害的情况下推动人工智能创新。

在数字人文学科领域,利用生成性人工智能数字化文化遗产可能存在风险。数字化使得文化遗产可以被更广泛的人群欣赏和学习,促进了不同文化之间的交流和了解。这有助于建立跨文化对话,增加全球社区的多样性和包容性(Leshkevich & Motozhanets, 2022)。然而,数字化文化遗产仍存在一些问题:

(i)互动性减弱和价值感知丧失:尽管数字化可以为用户提供尽可能接近原物件的图像或视频体验,但它永远无法替代原艺术品的物质特性和审美价值,也无法提供足够的互动感知,这可能影响对文化遗产的价值认同和情感联系。

(ii)技术依赖和可持续性问题:文化遗产的数字化严重依赖于长期的技术维护和数据保存,而长期的技术维护需要足够稳定的财政支持,这意味着一旦数据保存的支持中断或减弱,可能导致文化遗产的丧失或损害,从而给文化遗产的传承带来风险。

(iii)数据安全问题:由于网络本身的不安全性,数字化的文化遗产可能面临网络攻击和数据泄露的风险,这也是在数字化文化遗产过程中需要考虑的因素之一。

(iv)伦理和文化敏感性问题:数字化过程可能遇到与特定文化传统和价值相关的敏感问题,因此确保数字化工作尊重和保护文化遗产的多样性和复杂性至关重要。

数字人文学科和计算人文学科研究通常需要跨学科合作,这要求参与者具有深厚的专业知识,并了解其他领域的技巧和方法。构建一个有效的跨学科合作模型,促进来自不同背景的研究者之间的沟通和学习,是实现技术、行人、信息和社会协同发展的关键。

然而,跨学科合作也面临挑战:

(i)沟通障碍:来自不同学科背景的专家可能使用不同的术语和概念框架,降低了合作者之间的沟通效率,或导致模糊性和理解偏差[1]。

(ii)方法学差异:每个学科都有独特的研究方法和实践,可能不兼容或难以整合。合作者必须找到和谐整合不同方法论的方法,以有效地工作[1]。

(iii)伦理和合规问题:不同学科可能有不同的伦理指南和合规要求,而且,来自其他学科的合作者可能对这些规则不熟悉。

(iv)长期合作的可持续性:由于跨学科合作的参与者通常来自不同的学科背景或研究领域,他们的学术交集往往较少,因此维持这种跨越式的合作关系也是一个需要考虑的问题[14]。

总之,作为数字人文学科、计算人文学科研究和知识服务的核心驱动力,技术在与人、信息和社会的互动中带来了许多含义和挑战。面对这些挑战,需要持续的技术创新、伦理审查、政策制定以及教育和培训,以确保技术的健康发展能够促进知识的创造和传播,服务于社会的整体进步。

5 Conclusion

随着AI技术的快速发展,大规模语言模型已成为数字人文研究的核心驱动力,为传统人文领域带来了前所未有的研究工具和方法。这些技术提高了研究效率,拓展了研究视野,并为学术交流和知识创新注入了新的活力。然而,技术的发展也带来了许多挑战,如职业替换、技术依赖、信息质量控制和数据安全等问题。未来,在推动技术创新的同时,作者需要加强伦理审查和政策制定,以确保技术的健康发展能够有效服务于社会整体的进步,并促进文化遗产与创新。

参考

[1].From ChatGPT, DALL-E 3 to Sora: How has Generative AlChanged Digital Humanities Research and Services? .

0 人点赞