以下是关于 AI 数据处理的相关内容:
数据采集: AIGC 服务的创建离不开大量数据的收集,用于训练 AI 模型以提高其功能性和准确性。数据来源主要包括提供者自身持有的数据集、已合法公开的各类数据、通过网络爬虫等形式抓取的数据、通过用户交互获取的数据以及其他相关方提供的数据。《生成式人工智能服务管理暂行办法》对数据采集有明确规定,要求使用具有合法来源的数据和基础模型,涉及知识产权和个人信息的要遵守相关规定,同时要采取有效措施提高训练数据质量,并符合相关法律法规。
数据处理: 《生成式人工智能服务管理暂行办法》对 AIGC 服务提供者训练数据的处理活动进行了规范,要求使用具有合法来源的数据和基础模型,不得侵害他人知识产权,应取得个人信息所有者同意,采取有效措施提高训练数据质量,增强其真实性、准确性、客观性、多样性,并符合法律法规。
数据相关风险与挑战:
数据采集过程是AIGC服务提供的源头。创建一个AIGC离不开对于大量数据的收集,这种数据主要用于训练AI模型,以提高AI的功能性和准确性,使得AI能够满足提供者和使用者的共同要求,提供优质、高效而又精确的服务。而该等用于训练、优化模型的数据则主要来源于:(1)提供者自身持有的数据集;(2)已合法公开的各类数据;(3)通过网络爬虫等形式抓取的数据;(4)通过用户交互而获取的数据;(5)其他由相关方提供的数据。对此,已经生效的《生成式人工智能服务管理暂行办法》第七条明确规定,“生成式人工智能服务提供者(以下称提供者)应当依法开展预训练、优化训练等训练数据处理活动,遵守以下规定:(一)使用具有合法来源的数据和基础模型;(二)涉及知识产权的,不得侵害他人依法享有的知识产权;(三)涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;(四)采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性;(五)《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求。”38AIGC法律风险研究报告其中对于数据要求其有合法来源,对于个人信息,要求其取得个人同意或者法律、行政法规规定的其他情形。而在前述数据收集的过程中,可能涉及的法律风险有:[heading3]其一,采取网络爬虫等技术收集数据的法律风险;[heading3]其二,直接收集合法公开数据的法律风险;
《个人信息保护法》等树立的数据收集基本原则有:第一、合法正当,即不得窃取或者以其他非法方式收集数据,同时个人信息的收集需取得规定的合法性基础(告知、同意等)。第二、公开透明,即数据处理应当遵循公开、透明原则,公开个人信息处理规则,明示处理的目的、方式和范围。第三、最小必要,即只应收集满足个人信息主体授权同意范围内的最少类型和数量的个人信息,不应收集与其提供的服务无直接或无合理关联的个人信息。8AIGC法律风险研究报告[heading1]2、数据处理[content]近日出台的《生成式人工智能服务管理暂行办法》已经尝试规范GenAI工具使用者训练数据的处理活动,该办法第七条明确要求AIGC服务提供者须遵守以下规定:(1)使用具有合法来源的数据和基础模型;(2)不得侵害他人依法享有的知识产权;(3)应取得个人信息所有者的同意;(4)采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性;(5)符合法律法规。[heading1]3、数据保护[content]AIGC服务提供者使用数据不可避免涉及数据脱敏、储存、传输等环节。服务提供者往往通过与使用者签订服务条款明确权利义务,而协议的合法性、可履行性则需要进一步检验。
随着AI技术的普及与深入,企业依赖AI系统进行数据处理和决策的现象越来越普遍。然而,**AI的决策能力强大与否,完全取决于输入数据的质量与多样性**。如赫拉利和Seth所讨论的那样,数据不仅是技术层面的问题,它也承载着伦理、社会与文化的偏见。**“垃圾进,垃圾出”**(Garbage In,Garbage Out)这一原理在AI决策中尤为显著,特别是在数据输入带有偏见的情况下,AI输出的结果也将放大这些偏见,甚至造成认知扭曲。[heading2]数据的隐性偏见:从技术到伦理的挑战[content]MIT的研究表明,AI系统在处理数据时,**常常会无意中强化现有的社会偏见**。例如,当AI用于招聘系统时,它可能会根据历史招聘数据中的性别、种族等因素做出倾向性决策。**这些系统通过过去的决策模式学习,导致无意中扩大了历史上积累的偏见**。[heading3]案例:招聘系统中的性别歧视[content]某公司在招聘过程中依赖AI系统筛选简历,尽管目的是提高效率,但AI模型因训练数据中包含的历史性别歧视问题,**更倾向于选取男性候选人**。在这些案例中,AI没有能力从道德或伦理角度审视这些模式,因此产生了进一步强化的性别歧视问题。这个例子清楚地表明,AI不具备处理复杂社会问题的能力,只能基于历史数据生成决策。赫拉利对此表达了明确的警示,他认为,**企业在使用AI时必须对输入的数据保持警觉**,因为数据并不只是数字,它还承载着社会和历史的复杂背景。