Chat with Wiki - 现在那个大模型效率好，更准确

Answer

以下是关于大模型效率和准确性的相关信息：

8 月正式上线的国内大模型：
- 北京企业机构：百度（文心一言）https://wenxin.baidu.com 、抖音（云雀大模型）https://www.doubao.com 、智谱 AI（GLM 大模型）https://chatglm.cn 、中科院（紫东太初大模型）https://xihe.mindspore.cn 、百川智能（百川大模型）https://www.baichuan-ai.com/
- 上海企业机构：商汤（日日新大模型）https://www.sensetime.com/ 、MiniMax（ABAB 大模型）https://api.minimax.chat 、上海人工智能实验室（书生通用大模型）https://intern-ai.org.cn
- 能生成 Markdown 格式的：智谱清言、商量 Sensechat、MiniMax
- 目前不能进行自然语言交流的：昇思（可以对文本进行是否由 AI 生成的检测，类似论文查重，准确度不错）、书生
- 受限制使用：MiniMax（无法对生成的文本进行复制输出，且只有 15 元的预充值额度进行体验，完成企业认证后可以进行充值）
- 特色功能：昇思——生图，MiniMax——语音合成
- 阿里通义千问、360 智脑、讯飞星火等均不在首批获批名单中，广东地区获批公司分别为华为、腾讯，科大讯飞系其他地区获批产品。
让大模型更好工作的关键点：
- 明确目标和需求，避免广泛需求导致模型产出不佳。
- 设定明确角色，使模型选择明确知识范围，输出更精确结果。
- 让大模型一步一步执行，类似于大脑的快系统和慢系统。
- 对大模型礼貌效果好，可能与使用礼貌用语的数据质量较高有关。
- 使用思维链的行为模式，让模型将任务拆解并按特定任务思考演进。
OpenAI 的新模型 o1-preview/mini：
- 复杂问题思考过程长达 30s，简单问题 5 - 10s。
- 使用条数少，冷却时间长，长达 7 天。
- 模型发展趋势：生成式应用场景有限，推理模型准确率不断攀升，可渗透到更多行业和高精尖业务中。不要因新模型推理速度慢而忽视其最终结果的正确性，可通过增配硬件解决速度问题。

Content generated by AI large model, please carefully verify (powered by aily)

References

5⃣️五家北京企业机构：百度（文心一言）https://wenxin.baidu.com抖音（云雀大模型）https://www.doubao.com智谱AI（GLM大模型）https://chatglm.cn中科院（紫东太初大模型）https://xihe.mindspore.cn百川智能（百川大模型）https://www.baichuan-ai.com/3⃣️三家上海企业机构：商汤（日日新大模型）https://www.sensetime.com/MiniMax（ABAB大模型）https://api.minimax.chat上海人工智能实验室（书生通用大模型）https://intern-ai.org.cn今天这8个大模型，在聊天状态下——能生成Markdown格式的：智谱清言、商量Sensechat、MiniMax目前不能进行自然语言交流的：昇思（可以对文本进行是否由AI生成的检测，类似论文查重，准确度不错）、书生受限制使用：MiniMax（无法对生成的文本进行复制输出，且只有15元的预充值额度进行体验，完成企业认证后可以进行充值）特色功能：昇思——生图，MiniMax——语音合成阿里通义千问、360智脑、讯飞星火等均不在首批获批名单中，广东省2家和其他省市1家也将陆续开放据悉，广东地区获批公司分别为华为、腾讯，科大讯飞系其他地区获批产品

从原理到应用一次讲清楚 Prompt

在梳理所有的这些原则的过程中，我发现了让大模型更好工作的关键点。第一，明确目标和需求，一个广泛的需求会让大模型放飞自我，明确的需求可以让他产出很好的答案。正如，你在管理一个下属，你给他一个明确的需求，他可以做出来。你不给明确的需求，他可能就随心所欲的做，然后可能结果就不满意了。第二，设定一个明确角色，目前的模型是一个通用的大模型，明确的角色，可以让大模型选择明确的知识范围，从而输出更加精确的结果。各行各业的的知识差别还是很大的。让一个文科生去回答计算机的问题，肯定是没法回答好的。第三，让大模型一步一步执行。这个我感觉有点像我们的大脑。我们大脑有一个快系统一个慢系统。快系统主要是使用直觉，优点是快，但是不够深度系统。慢系统，其实就是让大模型按照逻辑，大任务拆解成小任务，一步步执行。第四，为什么对大模型礼貌效果好。这个我觉得是一个玄学问题，但是有这样一个解释，使用礼貌用语的数据，一般的质量会高一些。因为大模型是没有感情，也没有所谓的是否礼貌，就是使用对应的数据的不同差别。第五使用思维链的行为模式，为什么效果好。本质也是让大模型将任务进行拆解，按照特定的任务去一步步思考和演进，这样有顺序和逻辑的思考，就可以获得很好的思考结论。

OpenAI:我憋了个新大招儿，它叫o1-preview/mini

其次，今天凌晨第一批吃螃蟹的用户已经体验过了，从各群、各微、各推的反馈来看，复杂问题的思考过程长达30s，而相对简单的问题则要5-10s之间。就连OpenAI给出的模型速度示例中，o1-preview的速度也是偏慢的。最后，让人有点郁闷的是，新模型（o1-preview/mini）的使用条数太少了，而且冷却时间相当长，按照少数AI先锋（@陈财猫）的测试，o1-preview的冷却时间长达7天。这一周几十条的用量也顶多算是打打牙祭...最后，我想分享一些个人的思考和感悟。随着这两年来对模型发展的观察，我看到了一个明显的趋势：仅仅依靠生成式应用的场景是相当有限的。尤其是toB领域，我们遇到的更多是对准确性要求极高的场景，甚至需要100%准确的情况，比如安全领域和金融领域，这些都是差之毫厘谬之千里的业务。而大模型的局限性也是常常在于此（幻觉）。但推理模型的准确率不断攀升、甚至达到完全可信的地步确实是一件非常惊喜又恐怖的事情。之前让模型干创意的活儿，现在又能干精确的活儿，这属于全场景覆盖！这意味着AI技术可以渗透到更多行业、更多高精尖业务中去！同时，我回想起老师曾经对我说过的一句话："不管现在的大模型处理速度多慢，操作多么繁琐，只要能保证最终结果的正确性，它就拥有无限的可能性。"我觉得老师的话不无道理，不要看现在新模型的推理速度慢，但这些都可以通过增配新硬件去解决，只要钱到位，这都不是问题。况且，这也可能是慢思考系统的一种呢？你说对吧！