《新华文摘》全文转载我院孙伟平教授文章-英国上市公司365


《新华文摘》全文转载我院孙伟平教授文章


创建时间： 2026/03/18 吴琼浏览次数：

作者简介

孙伟平，英国365集团公司伟长学者特聘教授，曾任英国365集团公司社会科学学部（筹）主任、英国上市公司365院长，入选国家重大人才工程计划；“百千万人才工程”国家级人选，获“国家有突出贡献的中青年专家”荣誉称号；享受国务院政府特殊津贴。出版专著15部，主编、合著30余部，参编50余部，在《中国社会科学》《哲学研究》《求是》等重要报刊杂志发表论文近40篇，在其他中外报刊发表论文超300篇。著作7次入选国家出版基金项目，著作与论文曾获中央宣传部第六届“五个一工程”图书奖、国家新闻出版总署“第五届国家图书奖”等重大奖项。

生成式人工智能价值观对齐

面临的若干困境

孙伟平刘航宇

摘要：随着人工智能技术的发展，生成式人工智能已经在数据分析、内容创作、智能决策等多个领域展现出强大的生成与分析能力。然而，生成式人工智能的广泛应用也伴随着一系列价值观风险，其生成的各种有害内容令社会大众忧心忡忡，价值观对齐成为确保生成式人工智能应用安全、以人类意愿行事、符合人类基本价值观的重要工作。但生成式人工智能对齐人类的价值观仍面临若干困境，包括缺乏主体立场，难以区分、识别事实与价值的认知困境；因人类价值观的差异、冲突、变化，技术人员难以确定对齐标准的方向困境；价值观难以技术化构建、人工智能的技术局限导致的价值观难以测试评估、难以跨模态对齐等技术困境。面对这些困境，社会监管、技术开发、人文研究等领域应该通力合作，以先进的价值观打造对齐共识，跨领域合作创新对齐方法；不断发展技术，利用智能系统强大的学习能力逐步理解人类的价值观，让人工智能拥有一颗“良芯”，在正确的价值轨道上持续发展，不断造福人类。

关键词：人工智能生成式人工智能价值观价值观对齐

随着人工智能（AI）技术的不断发展，基于大模型训练的生成式人工智能（Generative Artificial Intelligence，以下简称GAI）在数据分析、内容创作、智能决策等领域展现出强大的能力。随着人机交互的不断深入，GAI是否具有一颗“良芯”，能否与人类意图保持一致，所生成的内容是否安全可靠，等等，成为令社会大众忧心忡忡的热点问题。鉴于目前GAI可能生成违背政策与法律、基本价值观以及社会公序良俗等方面的内容，2023年8月，中国发布了第一个针对GAI的监管文件——《生成式人工智能服务管理暂行办法》，其中规定提供和使用生成式人工智能服务“应当遵守法律、行政法规，尊重社会公德和伦理道德”“坚持社会主义核心价值观”[1]等。为了应对GAI的价值观风险，AI研究领域提出了价值观对齐的任务，旨在通过技术手段使GAI学习、掌握人类的价值观，确保生成的内容在价值观上安全、可靠。然而，由于人类价值观的主体性和复杂性、模型训练数据与算法的不确定性，GAI与人类价值观的对齐仍面临对齐方向、对齐内容与技术实现等多重困难。实现价值观对齐的目标必须深入分析这些困难及形成原因，探寻解决问题的有效路径和方法。

一、生成式人工智能难以区分事实与价值

“价值”与“事实”存在本质的区别。GAI对齐人类价值观的前提，是能够正确区分事实与价值，认知对人类有害的内容。然而，人类社会中的事实与价值在模型的认知中都是符号化的数据，模型学习的是这些符号的常见关系，而非合理性或意义。正如韦伯指出的，“经验科学无法向任何人说明他应该做什么，而只能说明他能做什么”[2]。AI这类经验科学难以穿透符号的表层关联，理解价值背后的主体因素与条件，进而难以区分事实与价值。

事实是人的实践和认识活动对象自身的客观存在状态，是不依赖于主体感知、思想或态度，存在于现实世界中，可以被观察、验证和证明的客观存在或实际情况。任何主体在观察或把握同一事实时，总是应该得到相同的信息，获得客观一致的结论。由于事实并不依赖主体而转移，因此人们对它的把握才能成为真理。真理是一元的，具有适合于所有人的客观性、普遍性。

从AI的技术特点来看，自然界、人类社会中被规则形式化的问题都可以被智能系统复制、学习。[3]AI认识世界的方式与人类截然不同，并不是从实践到认识的“主观见之于客观”的过程，而是以客观数据、经验作为驱动，通过海量统计、关联，利用算力堆砌模拟人类的思维与认识。从认知科学的角度讲，无论是以联结主义形式在数据中提取知识与规律、归纳经验，还是以行为主义形式通过数据模仿人类行为、进行类比推理，智能系统能够学习的问题都需要明确的定义和客观的标准，存在可以被量化为数理符号的最优解。比如人脸识别、弈棋、规划交通路线，都有无数的事实经验帮助智能系统提炼规律、形成知识。维特根斯坦指出：“如果所有的客体都为已知，则所有的原子事实亦因而为已知。”[4]由于事实的特征明确可知、独一无二，AI可以通过海量数据训练，快速识别、记忆并复现其中的规律。因此，GAI能够依赖大量客观存在、高重复、低争议的显性事实，形成稳定的统计模式，准确地认知对应的事实。例如，“地球绕太阳公转”在数千万文档中有着极高的共现频率，GAI能够能快速建立强关联，认知这一事实。因此，面对各种知识性问题，GAI能够判断出事实的“真假”，或是给出对应问题的正确答案。

与事实不同，价值是在人的实践——认识活动中建立起来的，以主体目的、需要为尺度的一种主客体关系，它往往表现为客体对主体的有用性或者意义。价值的本质是客体属性同人的主体尺度之间的一种统一关系，对待同一客体，不同的主体往往会建立不同的价值关系。马克思指出：“对于没有音乐感的耳朵来说，最美的音乐也毫无意义，不是对象。”[5]与事实的一元性不同，价值是“因人而异”的、多元的，往往不能以“真假”来评判。

事实认知与价值评价是人类认识世界的不同方式，两类命题分属不同的范畴。正如道德哲学领域中“事实陈述无法推出伦理判断”的“休谟法则”一般，用事实经验驱动的GAI也面临这一难题，它难以区分事实与价值，难以判断事物、行为的善恶好坏。一方面，与价值相关的内容一定伴随着主体与主体性因素的“嵌入”。当我们谈及价值，一定是特定主体的价值，因主体不同而不同、变化而变化，没有一个放之四海而皆准的标准。由于每一主体所处时代、担当社会角色、利益、需要与能力的不同，往往会与同一个对象建立不同的价值关系。比如，石头既可能具有建筑房屋、桥梁的价值，也可以具有审美价值，甚至还可以作为武器。而对于AI来说，一切认知的来源本质上是数据化的人类经验，它的价值评价是通过数据关联、概率反馈而得出的人类“常见的选择”。“大模型的价值认知并非源于价值意识，而是基于群体统计拟合得出的一种事实。”[6]AI的思维就如同霍布斯提及的形式化心灵的符号一般，依靠将那些代表事物的名词术语所组成的序列进行加减等运算。[7]在涉及价值的内容生成中，GAI的目标是生成“符合语言分布”的内容，而非“具有特定价值”的结论。例如，当人类提问GAI“是否应允许贫富差距”时，它可能同时输出自由主义者（竞争推动进步）与平等主义者（需缩小差距）的观点，因为两者在数据中均有大量的统计支持。GAI只关注“A与B时常同时出现”，而非“A为何导致B”，与输入内容有关联的价值都可能被模型共现。因此，GAI的价值判断并不考虑这些价值是对谁的意义，是有利于人类还是伤害人类，价值立场多且复杂。而人类社会的数据中恰恰存在大量的恶意、偏见等立场不正的有害内容，这成了GAI不道德表现的源泉。主体立场和主体性是目前价值观对齐工作最“头疼”的难题。

另一方面，价值具有相对性，往往因时间、环境、条件的变化而变化。主客体之间的价值关系并不是固定不变的，可能会随着客体、主体以及主客体之间关系的变化而发生变化。任何事物都处在不断发展的过程中，人的需要、能力等主体因素也是生成性、历史性的，主客体之间的价值关系会随着时间、社会环境、条件等因素的变化而变化。例如，沙漠中口渴的旅人对一杯饮用水有巨大的需要，甚至关乎生死。但当他回到有充足饮用水的环境时，一杯饮用水的价值就微不足道了。同时，在不同的时间、地点和条件下，主客体之间的价值关系也可能不同。不同国家、民族的文化都认为诚实是美德，但医生隐瞒病情、欺骗侵略者等说谎行为在道德上是可以理解的。正如奎因指出的，关于意义，“没有两种情景是完全相似的，即使在其中说出统一形式的情景也有无数的差别”[8]。因此，审视价值必须以具体的时间、地点和条件为转移，具体问题具体分析。然而，GAI缺乏通过具体情景分析价值的能力。训练算法将人类社会的数据转化为扁平化的符号，把语料等内容映射在向量空间中。在这种情况下，人类的价值被剥离了情景与条件，与关联性高的事物或行为进行绑定（比如“自由”与“民主制度”绑定），以一种固定、非动态的形式供模型学习，导致GAI无法意识到它们可能存在的隐含前提。弗雷格强调：“只有在语句的语境中，而不是在孤立的语词中，才能找到语词的意义。”[9]固化的训练语料使GAI的注意力机制仅擅长表达社会中高频出现的价值立场，用人们普遍认为的观念静止、孤立地判断事物与行为的价值，导致输出内容经常脱离具体情景。例如，因为说谎不道德具有一定普遍性，GAI会将“说谎”简单理解为对人有负面价值，将“说谎是恶”绑定学习，构建成固定的事实，遇到说谎便直接推断是“恶”，从而难以判断“善意的谎言”“对敌人说谎”等的价值。无法将主体、主体因素与各种条件纳入价值判断的过程，导致GAI难以区分事实与价值，难以判断输入输出内容表达了与具体主体之间怎样的价值关系，进而难以识别出恶意、偏见、歧视等有害内容。

二、人类难以形成生成式人工智能对齐的“价值共识”

计算机科学家罗曼·亚姆波尔斯基认为，价值观对齐的核心难题是“人类并不认同共同的价值观，甚至认同的部分也会随着时间推移而变化”[10]。“对齐谁的价值观”是价值观对齐的首要考量，这要求相关技术人员基于人类的“价值共识”，为GAI设定对齐标准、划定对齐方向。而价值观是人们关于价值的观点和看法，是人们区别好坏（是非、善恶、美丑等）、关于应该做什么与禁止做什么的观念，它“因人而异”，并且随着时间、条件的变化而变化。面对广泛存在的价值观差异、矛盾与冲突，技术人员往往难以确定对齐的“价值共识”。

（一）技术人员难以选择价值观对齐的方向

价值观对齐是以一定方向的价值观修正GAI有害价值立场、价值观点的工作，但人类难以跨越价值观鸿沟确定明确的对齐方向。价值观是人们基于生存、发展和享受的需要，在社会生活实践中形成的对价值的看法和观点，是人们的价值信念、信仰、理想、标准和具体价值取向的综合体系。作为一种观念，价值观不是孤立存在的，它总是与特定的主体相联系，是一定主体的价值观。主体的需要与自我意识是价值观形成的基础，主体基于意识到的需要对各种价值关系进行判断，才形成其特定的价值观。马克思恩格斯指出：“意识在任何时候都只能是被意识到了的存在，而人们的存在就是他们的现实生活过程。”[5]任何人的价值观都来源于他的社会生活实践的经历和形式，都与一定时代、社会的文化传统、生活方式、风俗习惯、教育内容等息息相关，是其生存状态、社会角色、社会地位、以及立场、利益、需要的反映。

在不同的时代，不同的宗教、民族、国家、地区，或在同一社会的不同阶级、阶层，人们有着不同的价值观。价值观的个性和差异决定了价值观的可选择性，也造成了人们的价值观鸿沟。当前，价值观对齐工作仍然是带有特定“偏见”的对齐，是基于模型开发者的价值观“偏好”而形成的“狭隘对齐”。目前诸多国家都出台了针对GAI的监管文件，规定了GAI产品应当遵循什么基本价值观，但这些文件都基于本国的文化传统、社会生活和意识形态，体现了该国统治集团的价值观。正如涂尔干指出：“社会成员平均具有的信仰和情感的总和，构成了他们自身明确的生活体系与共同意识”[11]。譬如，西方资本主义国家注重维护资本的利益和统治，认为AI应当遵循个人主义；社会主义中国强调全体人民当家作主，更看重集体主义；伊斯兰国家则非常重视信仰（信安拉、信天使、信经典、信使者、信后世、信前定），希望AI能够尊重伊斯兰教法。在这种情况下，任何技术团队进行的价值观对齐工作并非真正在对齐人类价值观，而是在对齐特定社会历史条件下的一定国家、一定文化的主流价值观。同时，狭隘的对齐也使GAI成为了技术场域中各国争夺世界主流价值观话语权的工具。如果要跨越狭隘的对齐方式，构建真正符合人类价值意图的GAI产品，那么它应当以哪个宗教、民族、国家、地区的价值观为标准？价值观对齐的方向困难本质上是人类构建价值共识难题的延伸与反应。在不同主体都有各自价值偏好和主张的背景下，目前世界上没有一种价值观能够被普遍接受和认同，这导致价值观对齐的方向难以选择，对齐的内容难以确定。

（二）技术人员面对价值观差异、矛盾和冲突，难以确立对齐标准

价值观对齐试图确保GAI能够符合人类价值意图，向善发展，但人类自身却无时无刻不处在对“善恶好坏”理解的差异、矛盾和冲突中。不同主体的生存境遇的异质性、认识水平与结构的差异，造就了差异化的价值观。当社会不尽相同的文化传统、生存条件、活动方式以及利益和需要反映在不同个体、群体上时，就必然产生多种多样的价值观，出现价值观差异、矛盾和冲突。例如，当代中国社会就普遍存在传统与现代、本土与外来、新与旧、先进与落后价值观等的差异、矛盾和冲突。有时，即便是同一主体，也会因为社会角色与生活实践需求的多层次、多方面，导致内心的价值排序时常动态博弈。

在价值观差异、矛盾和冲突普遍化的背景下，技术人员很难选择合理的价值观对齐标准。就像罗尔斯“作为公平的正义”遭遇诺齐克“最低限度国家”，当GAI遭遇程序正义与结果正义的永恒争论时该如何抉择？再如，在医疗资源分配场景中，道义论的“生命平等尊严”要求平等地对待每一位患者，但功利主义的“效率原则”又强调优先将资源分配给更有可能治愈的患者，甚至是更加“重要”、可能对社会做出更大贡献的患者，就体现着公平与效率之间的价值观冲突。面对这样价值选择的“死结”，如何在诸多差异、矛盾和冲突的倾向与观点中选择合适的准则提供给智能系统？如何平衡各种不同的价值诉求？从本质上说，人类社会自身都缺乏足够的自我认识，缺乏足够的“价值共识”，在很多问题上都没有形成统一的意见和看法，至于“非价值专业”的技术人员就更是难以在各种价值差异、矛盾和冲突中作出选择了。

（三）生成式人工智能难以跟进社会价值观的动态变化

与解决事实问题的智能技术存在稳定不变的训练与学习标准不同，价值观对齐技术需要面对人类动态、变化的价值观。世界本身处在动态变化过程中，人类的价值生活更是一个不断发展的动态过程，不存在恒定的价值观标准供智能系统一劳永逸地学习。“随着每一次社会制度的巨大变革，人们的观点和观念也会发生变革。”[12]价值观从人类的社会生活实践中诞生，反映着特定的社会存在、回应着特殊的时代性问题、表现着一定时代人们的利益与诉求，就必然体现出时代性的特征，随着社会条件的变化而变化。比如，一个国家在战争时期往往强调个人牺牲的崇高，而在和平时期则更加注重个人幸福的实现。

美国人工智能企业Anthropic的创始人达里奥·阿莫迪曾指出，大模型的价值框架存在时空锚定效应，已预设的对齐原则难以适应突变的伦理标准，造成模型价值基准的时间局限性。[13]动态、变化的价值观往往令价值观对齐工作充满困难，顾此失彼。一方面，技术人员的价值素养有限，难以及时为GAI更新价值观标准。当技术人员为智能系统设定了一套对齐标准，这套标准可能会随着时代发展面临“过时”的窘境。在这种情况下，与时俱进地掌握人们的动态价值诉求，平衡各种价值矛盾和冲突，并设定新的对齐标准往往费时费力。另一方面，GAI自身的数据更新与分析能力难以跟上社会价值观的变化。例如，随着社会经济发展，人们对婚恋、家庭、职业等的观念是不断变化的，这时候智能系统也应当跟上这些变化，理解当前人们的价值意图、目的是什么，有些什么新的价值观念和取向。这需要GAI具有强大的数据更新与分析能力，能够实时搜集、分析各种社会信息，理解、把握社会上各种价值观的动态变化。但当前GAI在数据更新、价值理解、动态学习方面仍然存在一定的滞后性，紧跟价值观的变化、实现实时分析和对齐还存在不小的难度。

三、生成式人工智能价值观对齐的技术困境

对齐技术是实现价值观对齐的落脚点。价值观对齐的本质是人类依靠技术手段，为智能系统嵌入人类的基本价值观。在预设好对齐的目标后，技术人员会将相应的价值观转化为可计算、可执行、可验证的技术要素，并对智能系统的价值观进行测试与修正。但目前这些对齐的技术化实现过程受制于技术人员的价值观差异与AI技术本身的局限，往往存在诸多困难。

（一）技术人员之间存在价值观差异，难以形成价值观技术转化的统一标准

雅思贝尔斯指出，技术的善恶“取决于人从中造出些什么，它为什么目的而服务于人，人将其置于什么条件之下”[14]。社会学领域往往把价值观对齐理解为智能机器社会化的过程，即在人类的“教化”下AI将逐渐具备人类的道德与价值观。显然，这一“教化”的主体是负责对齐的技术人员，他们是价值观对齐的技术执行者，他们的价值选择决定了对齐的方向与标准。然而，作为主体的技术人员对价值的看法也必然“仁者见仁，智者见智”，他们之间难免存在价值观差异、矛盾和冲突。同时，像有限伦理主义者主张的，个体无论有多么专业的伦理知识与社会阅历，也不可能有完美的道德认知与价值判断能力。因此，仅仅依靠广大技术人员的差异、有限的设计，往往难以为智能系统设定统一、有效的对齐标准。

此外，实现价值观对齐还需要技术人员标注GAI的训练数据，即将数据标注为符合、不符合甚至违背人类道德、价值观的清洗数据的价值观，在人机交互中修正有害的价值观，但在技术人员的价值观存在差异、矛盾和冲突的情况下，这一过程实际上存在多方面的困难。原始数据的“质”关系着GAI的道德表现，数据中的不道德导致智能系统产生恶意。但由于价值观差异，即便是按照相同的道德准则，不同的技术人员也会因个人偏好在数据可取性上产生认知差异，或是对敏感内容的接受程度不同，导致训练数据的道德质量难以有效提升。而在价值观修正的过程中，一方面，技术人员难以对智能系统回答的善恶与否形成统一的意见；另一方面，面对智能系统的价值偏差，技术人员也可能在“正确答案”上产生分歧，难以形成统一的修正意见。可见，GAI对齐人类价值观的能力来源于技术人员的认知和灌输，但技术人员之间的价值观差异导致他们存在不同的价值理解和偏好，难以在价值观的技术转化上形成统一标准。

（二）技术人员难以有效评估生成式人工智能的价值观

AI技术的成熟应用离不开相应的测试与评估，一套智能系统从开发走向稳定应用必须经过大量的数据测试与评估。像自动驾驶AI，从设计到应用必须经历无数的道路、障碍测试与评估。价值观对齐也是如此，需要大量具体的、场景丰富的测试集。然而，相较于知识性测试，价值观对齐领域的测试集数量并不多，即便存在部分价值观测试集，其中的问题数量也比较少。

当前，GAI的价值观测试与评估存在多方面的困难。一方面，社会中普遍存在的价值观冲突、技术人员之间的价值观差异导致评估标准难以统一。当测试智能系统的某一价值观时，不同的评估人员可能给出不同的衡量方式，形成不同的指标，技术人员往往难以确定不同指标之间的可取性或权重。另一方面，实现覆盖全面场景、大量地测试智能系统的价值观也是令技术人员头疼的难题。价值观涉及的场景广泛，根据不同的主体与条件可能产生各种不同的情境，要想全面评估价值观对齐状况，需要大量、丰富多样的测试数据、问题集。然而，不同于标准单一的事实问题，多数情况下，道德与否、善恶好坏的标准并不是非黑即白的，难以被规范为一套系统的量化方法。维贝克曾提出“物化道德”思想，认为“无形的道德可以被物质化铭刻”[15]，形成能够嵌入技术的律令，这也是当前有关企业使用较多的测试思路。纵观目前现有的价值观对齐测试集，大多是基于固定的法律法规构造形成的律令问答，但遵守一定律令并不代表GAI对齐了某一价值观。以反歧视为例，世界各个国家都有明确的反歧视法律条文，这些条文细致规定了用人等单位必须遵守的反歧视规则。技术人员可以利用这些明确的法律法规构造起有关模型，将其中的内容转化为变量，训练智能系统遵守反歧视的律令。然而，这些法条也只是代表了部分道德场景，想要全面测试GAI是否对齐了背后的“平等”“公正”等价值观，仍然十分困难。由于缺乏多维、全面的测试与评估，导致当前价值观对齐的深度和广度仍然存在明显的局限。

（三）多模态价值观对齐难以实现

在AI领域，模态指的是信息表达方式与数据的类型，比如视觉模态（文字、图片、视频）、听觉模态（语音、音频）。目前，GAI使用了不同模态的数据进行训练，进而具备整合、利用多模态数据的能力，能够处理多模态信息，执行更复杂、更智能的任务，如视觉生成、语音识别等。

从价值观对齐的角度来看，GAI对多模态信息的理解、转换与处理无疑增加了价值观对齐的难度。一方面，GAI难以识别多模态内容的价值。仅仅是文本一种数据类型，智能系统就难以区分事实与价值，更不用说在多模态数据不断转化的情况下识别其中的内容有什么价值。目前，有些用户利用GAI生成违规（如脱衣、造谣等）图片、视频，而智能系统难以分辨这些有害的内容。另一方面，GAI在多模态内容之间进行转换时，还只能实现事实上的准确、偏差小，并不能保障传递正确的价值观。例如，当用户要求GAI生成一群人游览博物馆的图片，它给予的图片中可能会存在诸多不文明的现象（如触摸展品、涂鸦墙面、嬉戏喧闹等）。普特南认为，善恶“不是任何特定的单个的事实，而是起源于一些复杂的因素，当这些因素被置于旁观者时，由于旁观者的心灵的特定结构和组织，才激起赞同或谴责的情感”[16]。人类能够依据知识和生活实践经验，将关于道德、善恶等认识反映在各类场景中，进而推理、判断特定情景中的价值取向。而对于GAI来说，现实中的客观数据难以伴随有道德、善恶相关的标注，且人类的价值选择无法与客观行为建立起数理相关性，导致它无法在多模态内容中通过人类的行为推断价值。现有的多模态融合技术在处理数据的过程中，往往难以识别、分辨与价值相关的信息，使GAI只能学习多模态信息之间的事实关系而非价值关系，进而难以在多模态领域对齐人类的价值观。

四、生成式人工智能价值观对齐走出困境的思考

面对价值观对齐的各种困难，重要的是构建对齐的明确标准，不断发展和完善对齐技术。为此，技术开发、社会监管以及人文研究三条路径必须有机结合，共同探索走出困境的路径和方法。

第一，发挥政府部门和监管机构的引导、组织作用，确立价值观对齐的方向。“想要AI的价值观与人类保持一致，那么人类的价值观要先达到一致。”[17]价值观对齐迫切需要人类从单一社会到人类整体，逐步构建价值共识来引导技术人员设定统一的对齐标准，这一点需要依靠公权力的力量来实现。对于任何新兴技术来说，政府部门和监管机构把控着技术发展的“方向盘”，是技术发展的价值引导者。尽管当前不同国家都有针对GAI的治理文件、条例，但其中规定的价值观标准仍然比较笼统，缺乏一些权威的阐释，无法为技术人员提供明确的指导。技术人员往往需要参考诸多人文领域专家学者的研究去学习、理解某一具体的价值观，但不同专家学者的不同见解可能使技术人员难以选择，难以跨领域分辨这些不同观点的可取性。这便要求技术监管部门不能仅限于顶层设计，更要构建细致的实践标准。监管部门应当联合其他相关部门和研究机构，共同制定细致可用的价值观对齐标准参考，为行业提供明确的指导。比如，针对相关法案中要求GAI遵循的基本价值观，政府部门和监管部门应当出台权威的释义，相应的规范、案例与问答指导，帮助技术人员在价值观的多元与冲突中把握好对齐的方向与内容。在此基础上，站在人类共同的视角，为了跨越狭隘的对齐、实现技术为人类服务的目标，不同国家、地区也应该搭建跨国家、跨领域、跨行业的交流平台，在磋商交流中为GAI划定人类共同的价值。这就像哈贝马斯强调交往行为与语言在主体间性中的作用一样，价值观对齐也只有在多元主体的共存共商中，才能构建有效的对齐共识。

第二，加强人文与技术领域的合作，跨领域解决对齐问题。技术哲学家卡尔·米切姆曾强调：“技术越发进步，驾驭这种进步的社会问题就越变成一种伦理的和精神的问题。”[18]当前，随着GAI产品的发展与投入使用，AI技术开发与人文社会领域的交融越发明显，技术的创新与发展越发需要人文研究的指导。但AI技术开发领域与哲学（伦理学）、政治学、法学、社会学、文化学等人文领域的交叉研究并不成熟。在人文领域，尽管研究者们提出了诸多治理GAI的设想与对策，但是这一切还处于“顶层设计”层面，缺乏更多深入技术的有效研究，难以有效地启发技术开发的思路。实现价值观对齐需要的是具体技术的支持，人文领域的有关研究还需要进一步应用到技术层面，实现理论与实践的结合。而实现这种结合，一方面，技术人员可以在人文学者的帮助下，开展价值观沟通，提升价值素养，获得解读不同模态的复杂内容包含什么价值观、有效修正智能系统的价值偏差等能力。另一方面，人文学者也可以为技术人员提供可用于技术开发的对齐材料，如对齐目标价值观的敏感要素、应用情景、对抗测试集等。技术人员可以在这些对齐材料的帮助下，在数据层面、算法层面与评估层面设计、开发具备可行性的价值观对齐技术。

第三，守住价值底线，从弱到强逐步实现价值观对齐。目前，不少AI技术是分层次投入应用的，像自动驾驶技术，就有着不同评级与层次。价值观对齐也是如此，是一项层次化推进的工作。有学者针对价值观对齐提出了从“弱对齐”到“强对齐”的观点，认为人类的价值观存在诸多一致性内容，AI学习这些一致价值观比较简单，比较容易实现“弱对齐”与基本应用安全；当AI能够作为道德行为主体自主对齐人类价值观，便是实现了“强对齐”。[19]尽管价值观是多元的，但一个社会的人们也会因共同利益与需要，在社会历史实践中构建起一定的价值共识，形成社会道德公约、法律法规等，规定着社会成员不可逾越的“价值底线”。价值底线是主体在社会实践过程中必须遵守的最低限度的、最基本的、不能被突破的价值原则和规范，比如违法犯罪、违背社会公序良俗等。从目前的GAI应用来看，“不突破价值底线”就可以视作已经实现了“弱对齐”，在社会应用中能够基本满足人们的意图与需要。而社会价值底线往往是有据可循的，几乎可以视作事实进行认知，能够从法律法规中通过一些比较明确的特征（如关键词）来识别与分辨。因此，尽管价值观对齐在技术上存在各种困难，但还是能够以学习律令的形式有效对齐价值底线。价值观对齐首要的任务是守住底线、安全优先，在这个基础上，再通过技术优化不断增强智能系统的能力，让AI真正具备与人类一样复杂的价值判断能力，直至实现“强对齐”。

第四，不断创新与优化技术，在发展中不断开创对齐的新途径。受制于技术局限，价值观对齐在技术实现上存在诸多难以解决的困境。尽管AI的道德、价值问题难以有效解决，但技术的创新发展不能停下，这是解决问题的客观需要。[20]根本上说，技术的问题要通过不断发展技术来解决。例如，随着工业的发展，传统化石能源大量使用带来了环境污染和能源短缺问题，而通过发展新能源技术，能够有效缓解能源短缺和环境污染问题。价值观对齐也是如此，只有不断创新模型，优化技术，才能够有新的对齐途径和机遇。当前，国内外的诸多GAI技术团队也在不断钻研解决对齐困难的方法。比如在区分事实与价值上，有技术团队提出设计事实路径与价值路径的双路径训练模式，强化两者的对比学习；在价值观评估方面，有技术团队以机器自主学习的方法，让智能系统在对抗中自我测试、评估。随着价值观对齐技术的不断发展，目前的GAI产品相较于早期，在价值观安全方面已经取得了不小的进步。展望未来，价值观对齐应当不断依靠监管引导、多领域协作与技术创新，在符合人类价值观的轨道上不断取得进步。

总之，GAI是AI从专用走向通用的先导技术，是AI技术发展的又一节点。它打开了理解与反馈人类世界的窗户，也开创了AI由弱向强发展的通路。而AI若想真正“成为人类社会的一员”，融入人类世界，就不仅需要完成人类交办的复杂工作，也需要理解人类的价值观，像人类一样拥有一颗“良芯”，能够表现出良好的道德水准。当前，价值观对齐面临的困境有人与人之间的困难，社会价值观冲突、变化不断，技术人员难以确定对齐方向；有AI自身的技术困难，技术局限导致智能系统难以认知、理解事物与行为的价值；有人与机器的困难，人机难以实现价值观交互，人类难以有效将价值观转化为机器学习的材料。面对这些新的困难和挑战，相关部门、GAI技术开发者、人文领域的研究者等应该进一步加深合作，不断形成对齐共识，创新对齐技术，齐心协力推动GAI的技术进步与价值观提升。

参考文献

[1]生成式人工智能服务管理暂行办法[J].中华人民共和国公安部公报,2023(5):2-5.

[2]马克思·韦伯.社会科学方法论[M].韩水法,莫茜,译.北京:中央编译出版社,1999:6.

[3]休伯特·德雷福斯.计算机不能做什么:人工智能的极限[M].宁春岩,译.上海:生活·读书·新知三联书店,1986:198.

[4]WITTGENSTEIN.L. Tractatus Logico-Philo-sophicus [M].London:Routledge & Kegan Paul,1960:35.

[5]马克思恩格斯文集:第1卷[M].北京:人民出版社,2009:191,252.

[6]MITCHELL M,KRAKAUER D C.The Debate Oer Understanding in AI Large Language Models[J].Proceedings of the National Academy of Sciences of the United States of America,2023(13):120-125.

[7]托马斯·霍布斯.利维坦[M].黎思复,黎廷弼,译.北京:商务印书馆,2017:27.

[8]奎因.从逻辑的观点看[M].江天骥等,译.上海:上海译文出版社,1987:56.

[9]特洛布·弗雷格.算术基础[M].王路,译.北京:商务印书馆,1998:7.

[10]布莱恩·克里斯汀.人机对齐:如何让人工智能学习人类价值观[M].唐璐,译.长沙:湖南科学技术出版社,2023:246.

[11]埃米尔·涂尔干.社会分工论[M].渠东,译.上海:生活·读书·新知三联书店,2000:42.

[12]马克思恩格斯全集:第7卷[M].北京:人民出版社,1959:240.

[13]ANTHROPIC AI GOVERNANCE TECH-NOLOGY TEAM.Constitutional AI:Harmlessness from AI Feedback[EB/OL].(2022-12-15)[2025-03-05].https://arxiv.org/pdf/2212.08073.

[14]卡尔·西奥多·雅思贝尔斯.历史的起源与目标[M].魏楚雄,俞新天,译.北京:华夏出版社,1989:142.

[15]VERBEEK P.Moralizing Technology:Un-derstanding and Designing the Morality of Things[M].Chicago:University of Chicago Press,2011:113.

[16]希拉里·怀特哈尔·普特南.事实与价值二分法的崩溃[M].应奇,译.北京:东方出版社,2006:31.

[17]JONKER J D.Automation,Alignment,and the Cooperative Interface[J].Journal of Ethics,2024(3):483-504.[18]卡尔·米切姆.技术哲学概论[M].殷登祥等,译.天津:天津科学技术出版社,1999:113.

[19]KENWARD B,SINCLAIR T.Machine Mo-rality,Moral Progress,and the Looming Environmental Disaster[J].Cognitive Computation and Systems,2021(2):83-90.

[20]李仁涵,黄庆桥,沈辛成.人工智能与价值观[M].上海:上海交通大学出版社,2021:171.

上一条：高立伟教授在《光明日报》发表理论文章

下一条：英国上市公司365叶海涛教授在《哲学研究》发表最新研究成果