在大数据和人工智能飞速发展的时代背景之下,语言数据作为人工智能的存在基础之一,早已成为学术研究的前沿问题。其中,自然语言处理(Natural Language Processing,缩写作 NLP)作为人工智能和语言学领域交叉学科,其飞速发展直接催生了如今的ChatGPT(Chat Generative Pre-trained Transformer)对话系统,后者以其高度发达的人机互动程度、远超前代AI产品的理解能力,在全网掀起了舆论高潮。本文将基于这一背景,从NLP, ChatGPT等技术在企业的典型应用场景出发,结合其数据合规角度的风险,提出相应的应对措施。
一、应用场景
ChatGPT是由美国OpenAI 研发的一款人工智能语言模型。作为GPT家族之一,ChatGPT也是基于Transformer架构,属于预训练语言模型,但其相较于前代有了很大程度的提升。ChatGPT具有良好的自然语言生成能力,它可以生成文本、回答问题、对话、摘要和翻译等,也可以模仿人类语言行为,生成通顺合理的语句。NLP技术则是一个更广泛的领域,包含了一系列使用计算机分析、理解和生成人类语言的技术和应用,其多数子领域仍然以独立研究领域存在,而ChatGPT是NLP技术的应用示例之一。
虽然ChatGPT的爆火时间不久,但其时NLP技术已经渗透到众多行业,不过因其分支众多、语料库有限、训练模型应用不广泛等因素,并未引起广泛的话题讨论。我国官方目前对此类技术的应用主要围绕在政务服务以及教育等方面,如国务院办公厅关于印发《全国一体化政务大数据体系建设指南》的通知指出“加强政务大数据基础能力建设。…充分运用大数据、人工智能等技术手段,构建集成自然语言处理、视频图像解析…,保障数据安全合规共享开放”,各地随后逐步跟进落地具体实施细则。上海市则率先开始探索NLP技术在教育领域方面的应用,如其在《关于推进本市新一代人工智能标准体系建设的指导意见》的通知指出“推动智能教育技术开发和应用,围绕人工智能在智慧校园管理、教学辅助、考试评测等场景,加快推进教育阅读领域的NLP应用、中文文本分级、自适应教育等领域标准制定。”
而对于企业而言,NLP技术的应用场景则更加广泛,典型应用场景包括开发借助语音识别的智能助手(例如 Apple 的 Siri ,小米的小爱同学)、使用 NLP 根据用户的搜索行为开发智能搜索引擎、预测搜索偏好、自动更正文本、语言翻译、数据分析、文本分析等等。而ChatGPT横空出世后,可以预见此类技术将会被更广泛的应用在企业的日常工作环境中,从而大幅度提高员工的工作效率。
二、数据合规风险
可以肯定的是,NLP, ChatGPT等技术的应用将随着科技的进步而愈加广泛,与此同时,如果缺乏相应的制度规制,也将会给企业带来很大的风险。ChatGPT似乎也了解到这一问题,并给出了以下回答:
诚然,ChatGPT在这类问题下的表现很亮眼,它可以回答出一些潜在风险,同时提出一些简要的解决方式。虽然其分析结果有一定道理,但其表达准确度仍存在问题,有些表述方式有待商榷,更缺乏深入的分析过程。对此,笔者将结合应用场景一并对其潜在风险进行讨论并提出合规建议。
三、数据合规建议
如前所述,NLP、ChatGPT等在企业层面具有广泛的应用场景,具体可以分为三类:首先,企业员工可能直接将其应用于企业的日常工作中,从而提高工作效率。其次,企业可能将其直接应用于现有数字产品,从而提高产品在预测搜索偏好、数据分析和文本分析等方面的表现,增强用户粘性。最后,ChatGPT的横空出世也激发了国内企业的跟进和创新,诸多头部企业开始借助NLP等技术,应用大模型,自行开发ChatGPT类应用。
(一)直接应用于企业的日常工作环境
当前,ChatGPT训练数据的安全问题已经引起各方高度关注,已经有消息指出ChatGPT生成内容中存在与某大厂机密的相似文本。因此,如果员工在使用ChatGPT生成代码和文本时输入公司内部数据信息,其输入的信息很可能被用作ChatGPT迭代的训练数据,从而泄露商业机密。目前已经有大厂提醒员工不要与ChatGPT分享敏感数据,然而NLP、ChatGPT等技术的使用过程中,数据的安全使用尤为重要,因此仍有必要检视公司是否已经设立了完备的数据管理制度,通过提前规划数据安全管理从而尽可能规避风险。
具体而言,应明确组织架构及职责、信息分类分级保护、工作流程、信息安全教育、安全事件响应、人员管理和奖惩等方面的具体规定和实施细则。此外,就数据分类分级而言,针对运营数据和业务数据采取必要措施保障其安全,对于涉及到公司处理的个人信息等项目,应当根据《个人信息保护法》区别敏感个人信息和一般个人信息,实施分类保护。采取技术措施保证数据安全管理 由于NLP、ChatGPT技术生成结果具有广泛性和弱可预测性,企业应采取更完备的技术措施保证数据安全管理,诸如使用专业防火墙、杀毒软件等防范计算机病毒和网络攻击、网络侵入等危害网络安全行为;采取技术措施监测、记录网络运行状态、网络安全事件,如公司部署的防火墙具备网络异常监测和运行日志功能;备份、加密、访问控制等必要措施,保障数据免遺泄露、窃取、篡改、毁损、丢失。网络安全等级保护 明确涉及NLP、ChatGPT等技术生成结果的安全等级,在接入公司数据时注意加以分类,并采取相应保护措施,同时取得《信息系统安全等级保护备案证明》并定期完成测评。
加强人员管理与数据安全教育培训
制定相应的员工数据合规行为规范,对员工的数据安全规范提出明确要求,与其签订《保密与竞业限制协议》,从个人层面约定员工对公司数据安全和个人信息保密义务。此外,还应设立专人对ChatGPT输出内容进行内容合规审核,避免因其偏见结果给企业带来不利影响。最后,企业应定期开展日常数据安全相关的教育培训,提高员工的数据安全意识。
(二)直接应用于现有数字产品
由于ChatGPT并未就其数据来源进行详细说明,目前已知其是基于大型语言模型开发,数据来源于互联网的自然语言数据。而根据欧洲GDPR的“最小数据”原则,海量爬取并不合规。美国hiQ案的实践也佐证了普通公司在爬取大量信息时遇到纠纷的弱势地位。据此,虽然目前并没有行之有效的方式禁止这种爬取规则但因其存在合规风险,笔者并不建议企业直接将ChatGPT应用于现有数字产品。
此外,国内经营者在接入此类服务时,至少涉及向OpenAI公司共享用户的通信信息,而ChatGPT尤其在个人信息保护方面存在极大的隐患。OpenAI的使用条款规定,当用户使用其API时,OpenAI将拥有用户输入和输出内容的广泛使用权,以便将其纳入训练数据库并用于改善ChatGPT。作为持续改进的一部分,OpenAI可能会使用用户提供的数据来改进其模型。OpenAI保证会在使用用于提高模型性能的数据时,从中删除所有可识别个人信息,但该机制的有效运行方式未经详细说明。此外,OpenAI公司的隐私政策明确列出了其提供服务时会涉及收集和使用用户的多种个人信息,包括通信信息、登录信息、设备信息和Cookies等。因此,ChatGPT可能导致个人信息等数据泄露风险大大增加,当输入的信息成为其训练数据,在他人搜索相关内容时将会有一定概率显示出来,从而泄露个人信息。
(三)借助NLP技术、直接开发ChatGPT类产品ㅤ
随着ChatGPT的横空出世和其广泛的应用,许多国内企业意识到大模型的巨大潜力和市场需求,开始积极跟进和创新,借助NLP等先进技术,自主开发ChatGPT类应用。而在此类应用的开发过程中,也应树立严格的数据合规意识,为产品发展厘清障碍。
用户必须充分知晓自己的数据被收集和使用的目的,并同意这些数据被共享给谁以及如何使用。同时,ChatGPT类产品还需要采取一系列技术和管理措施,确保用户数据的安全和隐私不会被泄露或侵犯。此外,ChatGPT类产品还需要根据相关法规要求,完善自己的隐私政策和用户协议,并及时更新。在用户数据处理过程中,需要加强对于敏感信息的保护,例如个人身份证号码、银行账户信息等,避免被恶意利用。如果发生了隐私泄露或侵犯事件,ChatGPT类产品应该及时采取措施,对于用户的损失进行赔偿和处理。采取必要的技术和管理措施 根据《网络安全法》相关规定,网络运营者应采取技术和管理措施,保障数据的安全和完整性。ChatGPT类产品需要采取相关的技术和管理措施,确保数据安全,具体可以采取加密、访问控制、安全审计等,确保数据的安全和完整性。
定期审查产品的数据合规性
企业还应对ChatGPT类产品的数据合规性进行定期审查,确保其符合相关要求并持续更新和改进措施。此外,还需密切关注相关法规和政策的更新,并及时进行调整和改进。
四、小结
随着NLP, ChatGPT等技术的不断发展,其应用范围也越来越广泛。然而,随之而来的是大量的个人信息和敏感数据被收集和处理,成为NLP, ChatGPT等技术应用过程中需要严格遵守的问题。除此之外,而数据的安全使用也应成为重点关注的问题,建立配套的数据安全管理流程机制十分必要。在此背景下,企业应当认真研究和遵守现行法律和监管要求,采取充分的措施保障数据的合法、合规、安全,从而避免可能带来的法律风险。
微信