在 AI 应用中,数据具有极其重要的地位,主要体现在以下几个方面:
1)在整个训练过程中,每一层节点代表的含义并不是人为指定的,它完全是计算机从训练数据中自己“学习”到的。事实上,在实际应用中,人类很难理解和解释神经网络到底学到了什么。但是往往这又不重要,因为这不影响我们使用它。这似乎也有点儿像人类其实对大脑对人体的本质机理了解得也不那么多,但是这不影响我们使用它们来生活。2)因为计算机是基于数据的自我学习,那么训练的数据就很重要。数据如果有错误和偏差,也会导致最后AI学习结果的错误和偏差。某种程度来说,AI是由它“看过”的东西决定的。这一点和人也很类似。《苦涩的教训》是一篇AI圈非常火热的文章,它提到了一个很有意思的观点,人类曾花费了很多时间和精力试图把自己会的知识和对世界的理解直接告诉给计算机,试图让它少走弯路,变得聪明。但是我们发现,这样的效果远比不上让计算机自己去学习,人类只需要教会它如何学习的基本方法以及准备足够多的数据和算力即可。有意思的是,反观一下,人的提升是不是也一样呢。也许,放下被灌输的见地执着,如实观照即是。你可能会想到,神经网络的参数是学习的,但是网络结构(例如多少层,每层多少节点)是事先确定的。确实,网络的结构会在很大程度上影响AI的能力和计算的效率,当下这一波AI的突破性发展离不开2017年Google发表的一篇论文中提出一种网络结构,它叫做Transformer,有人会翻译为“变形金刚”,你就知道它很强大了。它非常适合于分析和提炼各种类型的数据信息,而且方便拓展,就像是“变形金刚”的组合机器人一样,你可以用很多Transformer的模块组合成一个非常庞大的网络。事实上,目前市面上各种各样的AI模型,能干各种各样的任务,它们的底层大都是基于Transformer架构,可见其影响力。
接下来,让我们把目光转向数据这个同样关键的要素。在人工智能的世界里,数据就像是原油,而高质量的数据则是精炼后的汽油。虽然OpenAI训练大模型所用的中文数据也源自中国的互联网平台,但他们在数据处理上的额外努力,就像是将粗糙的原石打磨成璀璨的钻石。这种数据质量的提升,远非简单的数据标注工作所能企及,而是需要一支专业团队进行深度的数据清洗和精细整理。然而,在中国的AI创业生态中,高质量的数据处理服务就像是稀缺资源。在国内,数据获取的门槛相对较低,这看似是一个优势。然而,虽然数据获取容易,但高质量数据的获取却是另一回事。国内的大模型主要以中文数据为基础,这看似是一个自然的选择。但业内普遍认为中文互联网数据的质量相对较低。这种情况让人想起了信息论中的"垃圾进,垃圾出"原理。如果输入的数据质量不高,那么即使有最先进的算法,输出的结果也难以令人满意。这个现象在IT从业者的日常工作中得到了印证。当需要搜索专业信息时,他们往往会首选Google、arXiv或Bing等国际平台,而不是国内的搜索引擎。那么,可能有人会想:“那我买点优质数据不就完了吗?”但对于许多公司,尤其是初创企业来说,这笔投入看似是一个风险过高的赌注。更不要考虑到找到一个好的数据供应商是万里挑一的概率了。这个风险,创业公司很难担的起。如果大规模投入后,模型效果不如预期,那么这笔投资就像是泥牛入海。因此,许多公司选择了一条看似更安全的路径:直接使用开源数据进行训练,然后匆忙召开发布会。更有意思的是,在国内的AI领域,这份"黄金"似乎变成了一个难解的谜题。正如一位大厂AI线的负责人所言,"在中国,你能拿到的数据,别人也能拿到。"
为了避免数据陷阱,企业必须采取以下措施来保证数据的多样性与真实性:1.数据多样性检查:企业应确保用于训练AI的数据能够代表广泛的社会群体,而不是基于单一来源或具有偏见的历史数据。2.数据审查流程:定期对数据进行清洗和审查,**避免历史偏见被进一步放大**。3.多源验证机制:通过多个独立来源的数据对比,确保决策的客观性和准确性。{% mermaid%}flowchart TDA[数据源]-->B[历史数据]B-->C[偏见]C-->D[AI模型]D-->E[决策结果]E-->F[审查机制]F-->G[多源数据验证]G-->H[减少偏见]{% endmermaid%}从企业应用AI的经验来看,最大的挑战来自于企业历史数据的梳理,很多企业笼统认为数据很重要,殊不知“垃圾进,垃圾出”,传统NLP,大数据的挑战,在这波AI浪潮下有了很大改善,但是并不彻底,数据梳理是漫长又枯燥的过程。数据陷阱之外,深度使用AI(超过1500小时交互)后,有这样的感悟,要警惕AI带来新的信息茧房。