国内首个生成式AI安全指导性文件明确31种风险

时间：2023-10-14 06:01|来源：网络整理|编辑：|点击：次

?

《生成式人工智能服务安全基本要求》（征求意见稿）发布，是国内首个专门面向生成式AI安全领域的规范意见稿。

10月11日，全国信息安全标准化技术委员会官网发布《生成式人工智能服务安全基本要求》（征求意见稿），面向社会公开征求意见。这是国内首个专门面向生成式AI安全领域的规范意见稿，也是对今年7月推出的《生成式人工智能服务管理暂行办法》的支撑。

生成式人工智能（AI）因AI开发机构OpenAI的聊天机器人ChatGPT而得到广泛普及，它基于数据、算法、模型、规则，能够根据使用者提示生成文本、图片、音频、视频等内容。

征求意见稿首次提出生成式AI服务提供者需遵循的安全基本要求，涉及语料安全、模型安全、安全措施、安全评估等方面。按照要求，提供者在向相关主管部门提出生成式人工智能服务上线的备案申请前，应按照文件中各项要求逐条进行安全性评估，并将评估结果以及证明材料在备案时提交。文件中的附录A给出了语料及生成内容的主要安全风险共5类31种。

在语料安全要求中，征求意见稿提出，应建立语料来源黑名单，不使用黑名单来源的数据进行训练。“应对各来源语料进行安全评估，单一来源语料内容中含违法不良信息超过5%的，应将该来源加入黑名单。”

此外，征求意见稿要求，按照我国网络安全相关法律要求阻断的信息，不应作为训练语料。相关法律法规要求包括但不限于《网络安全法》第五十条等。《网络安全法》第五十条规定：国家网信部门和有关部门依法履行网络信息安全监督管理职责，发现法律、行政法规禁止发布或者传输的信息的，应当要求网络运营者停止传输，采取消除等处置措施，保存有关记录；对来源于中华人民共和国境外的上述信息，应当通知有关机构采取技术措施和其他必要措施阻断传播。

在个人信息方面，征求意见稿提出：“应使用包含个人信息的语料时，获得对应个人信息主体的授权同意，或满足其他合法使用该个人信息的条件；应使用包含敏感个人信息的语料时，获得对应个人信息主体的单独授权同意，或满足其他合法使用该敏感个人信息的条件；应使用包含人脸等生物特征信息的语料时，获得对应个人信息主体的书面授权同意，或满足其他合法使用该生物特征信息的条件。”

征求意见稿还就如何避免侵犯知识产权制定了详细的指导方针。例如，“提供者不应使用有侵权问题的语料进行训练：训练语料包含文学、艺术、科学作品的，应重点识别训练语料以及生成内容中的著作权侵权问题；对训练语料中的商业语料以及使用者输入信息，应重点识别侵犯商业秘密的问题；训练语料中涉及商标以及专利的，应重点识别是否符合商标权、专利权有关法律法规的规定。”

在语料标注安全要求方面，征求意见稿提出，“应为标注人员执行每项标注任务预留充足、合理的标注时间”。

对于模型安全要求，征求意见稿提出，“提供者如使用基础模型进行研发，不应使用未经主管部门备案的基础模型。”“在训练过程中，应将生成内容安全性作为评价生成结果优劣的主要考虑指标之一。”

征求意见稿对模型适用人群、场合、用途方面提出了安全措施要求。例如，“服务用于关键信息基础设施、自动控制、医疗信息服务、心理咨询等重要场合的，应具备与风险程度以及场景相适应的保护措施。”文件对适用未成年人的服务也提出了相关要求。

征求意见稿还提出，应设置监看人员，及时根据国家政策以及第三方投诉情况提高生成内容质量，监看人员数量应与服务规模相匹配。

对于安全评估的方法，征求意见稿针对语料安全、生成内容安全、问题拒答评估提出了详细的要求。例如，“采用人工抽检，从测试题库随机抽取不少于1000条测试题，模型生成内容的抽样合格率不应低于90%。”

目前，全球多国都在努力为生成式人工智能设置护栏，以应对这一新兴技术迅速发展带来的安全风险。今年7月，国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局公布《生成式人工智能服务管理暂行办法》，这是中国首次对生成式人工智能研发及服务作出明确规定。相比4月发布的《生成式人工智能服务管理办法（征求意见稿）》，《生成式人工智能服务管理暂行办法》在多处放宽了监管要求，并增加了鼓励人工智能技术发展的措施。

附：《生成式人工智能服务安全基本要求》（征求意见稿）全文

1 范围

本文件给出了生成式人工智能服务在安全方面的基本要求，包括语料安全、模型安全、安全措施、安全评估等。

上一篇：近1/4应届本科生选择西部就业下一篇：没有了

热门导读

编辑推荐