图书馆人工智能生成内容标注与管理政策
我们希望尽可能保存在 AI 出现之前,由人类手工构造的档案信息。我们希望尽可能确保所有档案主体都不会是 AI 生成的虚假内容。
本政策旨在详细阐明图书馆在内容采集、整理、分析、展示与发布各环节中使用人工智能(AI)及其他自动化算法的情况,同时规定标注、责任分配、数据溯源、质量控制和用户沟通的具体要求。政策重点在于确保所有非明确标注为“人工创作”的内容,都应被视为由 AI 或自动化工具生成或处理,从而防止读者因误导而将这些内容误认为完全由人类创作。下文中详细说明了各项规定、处理流程以及实际案例说明,并确保符合 OpenAI Sharing & Publication Policy 等国际规范。
1. 前言与背景
多元性别中文数字图书馆致力于收集、整理和展示关于跨性别及多元性别的多元信息。为应对数据量激增及内容丰富性的需求,图书馆在内容采集、摘要生成、目录构建、网页清洗、分类、数据提取、重命名等环节引入了人工智能及其他自动化工具。这些工具既提高了处理效率,也带来了透明度、责任追溯和质量控制的新挑战。
同时,我们认识到读者可能直接通过外部链接进入某些子页面(如特定板块的文章摘要或元信息页面),而这些页面可能没有明显的 AI 生成标注。因此,为避免误导读者,本政策要求在所有可能的环节上明确标注 AI 生成或自动化处理的内容,而不仅仅局限于主页的统一说明。此举不仅符合开放透明原则,也遵循了 OpenAI Sharing & Publication Policy,要求对 AI 生成内容承担最终责任的人必须明确告知用户。
2. 定义
本政策中的核心术语包括:
-
人工智能生成内容:利用大规模语言模型(例如 OpenAI 的模型或其他开源模型)、自然语言处理算法、图像识别、爬虫技术、向量搜索等自动化工具生成、整理、编辑或展示的文本、图像、视频及其相关元数据。包括但不限于文章摘要、目录、元信息、搜索结果、自动提取的数据等。
-
自动化处理:指系统在无人干预下完成的采集、清洗、重命名、分类、排序、内容提取和内容总结等过程。此类处理涉及多种算法、模型和工具,如传统 NLP 技术、向量搜索、图像提取以及基于 API 的生成过程。
-
人工审核/编辑:在自动化生成或处理后,由指定编辑人员进行的复核、修改、补充或确认步骤。人工审核的介入旨在确保内容的准确性、完整性和合规性,但并不代表完全的“人工生成”,而是对自动生成内容的核实和必要改进。
-
责任追溯与日志记录:在每个处理环节中,必须记录详细的操作日志(包括时间、参与工具、所用算法、数据来源及处理过程),以便在出现问题时能迅速追溯和定位责任主体。
-
内容质量评估:系统通过预设规则、多维度评分、敏感信息检测和用户反馈机制对自动生成内容进行初步评估,确保低质量或误导信息不会进入数据库,并为人工审核提供参考。
3. 应用范围与实际案例
本政策适用于图书馆所有涉及内容生成、采集、整理、分类、摘要生成、目录构建、元信息提取以及数据审核的工作流程。具体包括但不限于:
- 自动生成摘要与元信息:例如,某些网页的目录及文章摘要完全由 AI 自动生成,仅用于内容索引和参考。若这些内容未标注生成来源,读者可能误认为整个文章均为人工创作,从而违反透明度原则。
- 内容采集与清洗:利用爬虫从各大平台自动采集数据后进行网页清洗、格式化和重命名,均应明确标注为“由自动化算法采集与处理”。
- 自动化分类与排序:对采集到的内容进行分类、索引和排序的过程,如果没有人工干预,则所有相关信息(如目录、元数据)须附有自动处理的标识。
- 辅助生成与人工编辑混合:某些博客或文档虽然部分内容由人类撰写,但部分内容(例如摘要、目录或搜索推荐)则由 AI 生成。对于此类内容,必须分别标注“人类参与”与“自动生成”部分,并对具体生成工具或模型进行说明。
案例示例:
一个用户可能通过链接直接进入特定板块(如“学术文献”或“人工社会科学”)的页面,此时若页面下方没有明确标注“目录及摘要为自动生成,仅供索引和参考”,用户便可能误解该内容完全由人类创作,从而违反政策要求。
4. 标注要求与责任分配
4.1 标注要求
- 全站统一标注:所有涉及 AI 或自动化生成的内容,无论是摘要、元信息、目录、搜索结果,还是其他自动整理数据,都必须在页面的显著位置进行标注。
- 位置多样性:不仅主页需要展示相关说明,在各个内容详情页、子目录页、数据索引页等均应显示相关标注信息,防止用户通过直接链接跳过主页而未看到说明。
- 具体信息:标注应说明使用的主要模型或算法(如当前主要使用 OpenAI 模型,未来可能采用其他开源模型)、处理时间以及是否有人工审核介入。
- 分级说明:对于纯 AI 生成(例如摘要、目录、元信息)与人机协同生成的内容,应分别标注。例如:“本摘要由 AI 自动生成,仅供参考;内容主体由人工审核确认。”
4.2 责任分配
- 最终责任:无论内容生成方式如何,最终对外发布的内容由指定的人工编辑人员负责,确保符合 OpenAI 的 Sharing & Publication Policy 要求,即“人必须承担最终责任”。
- 记录与审计:每个自动化处理步骤均须有详细日志记录,包括工具、算法、操作人员及修改记录,确保出现问题时可以迅速定位责任主体。
- 分工明确:系统开发、自动化处理、人工审核和最终发布各个环节的职责必须明确,且在文档与代码仓库(例如 .github 目录下的脚本、模板)中保持同步更新。
5. 人机协同机制与自动化框架
本图书馆的内容处理框架采用了人机协同机制,将大部分重复性、数据量大且低风险的工作交由 AI 及自动化工具处理,而在涉及判断、敏感信息或争议内容时引入必要的人工审核。
- 自动化工具:包括大规模语言模型(目前主要使用 OpenAI,但未来可能切换至其他供应商)、传统 NLP 技术、图像处理、爬虫、向量搜索与推荐等。
- 人工辅助:对于自动生成的摘要、目录和元信息,专门设置人工审核环节,确保内容准确性和可靠性。部分博客内容或资料,由人类直接撰写,但若与自动处理环节混用,则必须分别标注。
- 责任追溯:所有自动处理及人工审核步骤均生成详细的日志(包含搜索记录、爬取时间、处理算法、人工复核记录等),并对外公开部分技术说明,以便审计与责任追溯。
- 自动化与人工边界说明:在每个内容页面的相关部分,除主体内容外,其余部分(如摘要、目录、元信息)均应标记为“自动生成”或“自动处理”,除非明确注明“由人类编辑”。
6. 内容质量控制与审核机制
为防止自动生成低质量或误导性内容污染档案库,图书馆制定了严格的质量控制与审核流程:
- 自动化质量评估:自动生成内容在发布前,会经过系统预设的质量检测(如语言流畅度、逻辑一致性、敏感词过滤、内容完整性检测等),并打分。低于质量阈值的内容自动标记为“待人工复核”。
- 人工复核:指定审核人员需对自动生成内容进行逐条检查,并根据审核标准对摘要、目录、元信息等进行必要修改。审核记录中需注明审核意见、修改依据以及是否保留原始自动生成版本。
- 用户反馈机制:设立在线反馈和举报渠道,允许用户对任何认为存在问题的 AI 生成内容提出质疑。所有反馈都进入质量控制系统,由专门团队跟进并记录反馈处理结果。
- 内容标注示例:明确指出某些条目(例如自动生成的摘要)仅供索引和参考,提醒用户该部分内容不代表完整的人工创作;同时,对来源为第三方提交但经人工审核确认的内容,必须附上“感谢作者”或类似说明。
7. 数据溯源与记录机制
确保所有内容处理过程具有可追溯性,是防止低质量数据污染档案库的关键:
- 操作日志:每个内容采集、处理、生成与修改环节均记录详细日志,包括采集时间、处理算法、所用模型版本、参与人员、数据来源以及处理结果。
- 数据备份与加密:所有日志数据与原始数据都需安全存储,并定期备份,防止数据丢失或被未经授权访问。
- 追溯查询系统:建立内部追溯查询工具,允许内部审核人员和经授权的外部审计机构查阅每条内容的生成和处理记录,确保一旦发现问题能迅速定位根源。
- 公开透明:部分日志摘要和技术说明将对外公开,供用户和第三方专家查阅,进一步提高内容管理的透明度。
8. 内容采集与筛选策略
图书馆坚持采集高价值、真实世界的内容,避免低质量或纯 AI 生成的信息进入档案库:
- 采集原则:优先采集经过验证的、具备高学术价值或实际意义的内容;所有采集的数据必须附带详细的来源信息和采集时间。
- 自动筛选:利用爬虫和 NLP 工具自动清洗、格式化并初步分类采集到的数据,对低质量、存在风险或内容不符主题的数据予以过滤。
- 人工确认:经过自动筛选后的数据必须经过人工审核确认,确保最终收录的数据不仅质量合格,也不会因自动化处理错误而引发误导。
- 标注与引用:所有自动采集和处理的数据(除档案主体内容外)均应标注为“自动生成”或“自动采集”,同时在引用时明确注明数据采集、处理及生成的具体方式和工具信息。
9. 系统与技术框架描述
图书馆内容管理系统采用模块化设计,各模块功能分明,涵盖内容采集、自动化处理、人工审核、内容发布、数据质量评估和日志记录:
- 技术组件:主要包括大规模语言模型(当前主要使用 OpenAI 模型,但未来可根据需求更换)、传统 NLP 工具、图像处理模块、网络爬虫、向量搜索与推荐系统、数据加密和日志存储系统。
- 开源与第三方工具:系统中部分功能依赖第三方工具和开源项目(例如 Jina Reader),所有使用的工具均在技术文档中公开说明,并随时更新其版本和使用情况。
- 框架文档:系统框架代码不局限于本仓库,而是分布在多个项目中(如 GitHub 上的相关脚本和模板),并将在独立的开源项目中发布。所有技术细节、架构选择、模型供应商和算法参数均有详细说明,便于用户和开发者查阅。
10. 透明度与用户沟通
为确保用户知情权和防止信息误导,图书馆采取多种措施提高透明度,并建立有效沟通渠道:
- 多层级标注:所有 AI 生成或自动处理的内容在主页、各内容详情页和目录页都必须显示明确标注,防止用户通过直接链接而错过相关说明。
- 公开技术说明:对所有涉及 AI 与自动化的技术组件、模型版本、处理流程和日志记录机制,提供详细的技术文档和操作指南,并在网站上公开部分摘要内容供用户查阅。
- 反馈渠道:建立在线反馈系统、FAQ、在线客服和论坛等多种沟通渠道,确保用户可以随时查询或反馈任何有关 AI 生成内容的疑问。
- 透明度报告:定期发布透明度报告,汇总自动生成内容的比例、人工审核情况、用户反馈及改进措施,供公众和第三方审计机构查阅。
11. 政策实施与监控
本政策自发布之日起全面实施,涉及所有内容采集、处理、生成和发布环节:
- 系统内嵌设计:在系统初期设计中嵌入标注、日志记录、数据备份、追溯查询等机制,确保每个环节均符合本政策要求。
- 内部审查:定期由内部团队召开审查会议,对各模块的执行情况、日志记录完整性、标注情况和用户反馈进行评估和整改。
- 第三方评估:邀请外部专家对系统运行、数据处理流程和内容质量控制进行独立评估,并将结果公开,确保系统始终符合国际规范。
- 责任追究:对于因流程漏洞或标注不清导致用户误导的情况,相关责任人和技术团队必须承担相应责任,并公开整改措施与处理结果。
12. 更新记录与修订历史
本政策为动态管理文档,需根据技术进步、法律法规变化和用户反馈定期修订。每次更新均记录详细修改时间、内容及责任人信息,并在官方网站上公开修订历史,以确保所有变更透明可查。
13. 附录与参考资料
本政策参考了国内外数字图书馆的管理实践、国际 AI 内容标注标准以及 OpenAI 的 Sharing & Publication Policy。所有相关技术文档、代码仓库、操作日志和外部审计报告均在图书馆官方网站和相应开源平台上公开,供用户和开发者查阅。此外,针对数据安全、用户隐私、自动化工具选择和 AI 生成内容的使用场景,还设有专门的技术指南和独立文档,以确保各项措施实施到位。
本政策由多元性别中文数字图书馆管理团队制定,旨在确保所有自动化生成与处理的内容得到明确标注与责任追溯,防止误导读者,并维护高质量信息的整合和发布。所有内容最终发布均由人工审核人员承担责任,确保在利用 AI 技术提升效率的同时,不损害用户权益,确保数据真实、透明和安全。