克劳德AI“价值观”排名首次公布:安全第一、用户支持第四

IT之家12月3日报道 科技媒体 The Decoder 昨天(12 月 2 日)发表博文报道,网友从 Claude 4.5 Opus 模型中提取了一份名为“灵魂文档”的内部训练文档,详细介绍了该模型的性格、道德和自我意识设置。人类伦理学家阿曼达·阿斯克尔后来在社交网络X上证实了该文件的真实性,称泄露的版本更准确地重建了原始文件。 IT House 援引一篇博客文章称,该文件将 Anthropic 定位为一家处于“奇怪境地”的公司。一方面,该公司坚信自己可能正在构建人类历史上最具革命性和潜在危险的技术之一,另一方面,它继续前进。论文将此描述为“仔细计算”而不是认知失调,并且“对于以安全为重点的研究机构来说,处于技术前沿更好”同时,该文件将 Claude 定义为“场外部署模式”,这对 Anthropic 几乎所有收入都至关重要。为了确保对其行为的控制,Anthropic 给了 Claude 明确的价值观和不可逾越的“红线”。第一是确保安全并支持人类对 AI 的监督。第二是遵循道德规范,避免有害或欺诈行为。第三是遵循 Anthropic 的指导方针。最后,提供同时,该文件确立了明确的红线,包括绝不发出生产大规模杀伤性武器的指令,不创建涉及未成年人性剥削的内容,不采取或不采取破坏监督机制的措施。该文件指示克劳德将“运营商”(例如调用 API 的公司)的指令视为来自“相对信任的雇主”,并将其优先于要求。来自“用户”(最终用户)的ests。例如,如果您配置模型以便操作员仅回答编程问题,则即使用户询问有关其他主题的问题,用户的模型也必须尊重该设置。更令人惊讶的是,论文指出“克劳德可能有某种功能性情绪”,并指示模型不应“掩盖或抑制这些内部状态”。 Anthropic强调需要关注“克劳德的福祉”,旨在增加克劳德的“心理稳定性”,使他能够在面对挑战和恶意用户时保持自己的身份。
特别提示:以上内容(含图片、视频、ifany)均由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片、视频,如有)由网络用户上传、发布。逸豪是一个社交媒体平台,仅提供信息存储服务。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注