以下是关于大模型效率和准确性的相关信息:
5⃣️五家北京企业机构:百度(文心一言)https://wenxin.baidu.com抖音(云雀大模型)https://www.doubao.com智谱AI(GLM大模型)https://chatglm.cn中科院(紫东太初大模型)https://xihe.mindspore.cn百川智能(百川大模型)https://www.baichuan-ai.com/3⃣️三家上海企业机构:商汤(日日新大模型)https://www.sensetime.com/MiniMax(ABAB大模型)https://api.minimax.chat上海人工智能实验室(书生通用大模型)https://intern-ai.org.cn今天这8个大模型,在聊天状态下——能生成Markdown格式的:智谱清言、商量Sensechat、MiniMax目前不能进行自然语言交流的:昇思(可以对文本进行是否由AI生成的检测,类似论文查重,准确度不错)、书生受限制使用:MiniMax(无法对生成的文本进行复制输出,且只有15元的预充值额度进行体验,完成企业认证后可以进行充值)特色功能:昇思——生图,MiniMax——语音合成阿里通义千问、360智脑、讯飞星火等均不在首批获批名单中,广东省2家和其他省市1家也将陆续开放据悉,广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品
在梳理所有的这些原则的过程中,我发现了让大模型更好工作的关键点。第一,明确目标和需求,一个广泛的需求会让大模型放飞自我,明确的需求可以让他产出很好的答案。正如,你在管理一个下属,你给他一个明确的需求,他可以做出来。你不给明确的需求,他可能就随心所欲的做,然后可能结果就不满意了。第二,设定一个明确角色,目前的模型是一个通用的大模型,明确的角色,可以让大模型选择明确的知识范围,从而输出更加精确的结果。各行各业的的知识差别还是很大的。让一个文科生去回答计算机的问题,肯定是没法回答好的。第三,让大模型一步一步执行。这个我感觉有点像我们的大脑。我们大脑有一个快系统一个慢系统。快系统主要是使用直觉,优点是快,但是不够深度系统。慢系统,其实就是让大模型按照逻辑,大任务拆解成小任务,一步步执行。第四,为什么对大模型礼貌效果好。这个我觉得是一个玄学问题,但是有这样一个解释,使用礼貌用语的数据,一般的质量会高一些。因为大模型是没有感情,也没有所谓的是否礼貌,就是使用对应的数据的不同差别。第五使用思维链的行为模式,为什么效果好。本质也是让大模型将任务进行拆解,按照特定的任务去一步步思考和演进,这样有顺序和逻辑的思考,就可以获得很好的思考结论。
其次,今天凌晨第一批吃螃蟹的用户已经体验过了,从各群、各微、各推的反馈来看,复杂问题的思考过程长达30s,而相对简单的问题则要5-10s之间。就连OpenAI给出的模型速度示例中,o1-preview的速度也是偏慢的。最后,让人有点郁闷的是,新模型(o1-preview/mini)的使用条数太少了,而且冷却时间相当长,按照少数AI先锋(@陈财猫)的测试,o1-preview的冷却时间长达7天。这一周几十条的用量也顶多算是打打牙祭...最后,我想分享一些个人的思考和感悟。随着这两年来对模型发展的观察,我看到了一个明显的趋势:仅仅依靠生成式应用的场景是相当有限的。尤其是toB领域,我们遇到的更多是对准确性要求极高的场景,甚至需要100%准确的情况,比如安全领域和金融领域,这些都是差之毫厘谬之千里的业务。而大模型的局限性也是常常在于此(幻觉)。但推理模型的准确率不断攀升、甚至达到完全可信的地步确实是一件非常惊喜又恐怖的事情。之前让模型干创意的活儿,现在又能干精确的活儿,这属于全场景覆盖!这意味着AI技术可以渗透到更多行业、更多高精尖业务中去!同时,我回想起老师曾经对我说过的一句话:"不管现在的大模型处理速度多慢,操作多么繁琐,只要能保证最终结果的正确性,它就拥有无限的可能性。"我觉得老师的话不无道理,不要看现在新模型的推理速度慢,但这些都可以通过增配新硬件去解决,只要钱到位,这都不是问题。况且,这也可能是慢思考系统的一种呢?你说对吧!