Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

23个常见的中文数据集

Answer

以下是 23 个常见的中文数据集:

  1. Alpaca-CoT:
    • 地址:https://github.com/PhoebusSi/Alpaca-CoT
    • 数据集说明:统一了丰富的 IFT 数据(如 CoT 数据,目前仍不断扩充)、多种训练效率方法(如 lora,p-tuning)以及多种 LLM,三个层面上的接口,打造方便研究人员上手的 LLM-IFT 研究平台。
  2. pCLUE:
    • 地址:https://github.com/CLUEbenchmark/pCLUE
    • 数据集说明:基于提示的大规模预训练数据集,用于多任务学习和零样本学习。包括 120 万训练数据,73 个 Prompt,9 个任务。
  3. firefly-train-1.1M:
  4. BELLE-data-1.5M:
  5. Chinese Scientific Literature Dataset

此外,还有用于优化 Llama2 中文能力的数据集,包括:

  1. 网络数据:互联网上公开的网络数据,挑选出去重后的高质量中文数据,涉及到百科、书籍、博客、新闻、公告、小说等高质量长文本数据。
  2. Wikipedia:中文 Wikipedia 的数据。
  3. 悟道:中文悟道开源的 200G 数据。
  4. Clue:Clue 开放的中文预训练数据,进行清洗后的高质量中文长文本数据。
  5. 竞赛数据集:近年来中文自然语言处理多任务竞赛数据集,约 150 个。
  6. MNBVC:MNBVC 中清洗出来的部分数据集。

COIG-CQIA 数据集的数据源包括:

  1. 社交媒体和论坛:包括知乎、SegmentFault、豆瓣、小红书、弱智吧。
  2. 世界知识:百科全书、四个特定领域的数据(医学、经济管理、电子学和农业)。
  3. NLP 数据集:COIG-PC、COIG Human Value 等。
  4. 考试试题:中学和大学入学考试、研究生入学考试、逻辑推理测试、中国传统文化。
Content generated by AI large model, please carefully verify (powered by aily)

References

LLM开源中文大语言模型及数据集集合

Alpaca-CoT:地址:[https://github.com/PhoebusSi/Alpaca-CoT](https://github.com/PhoebusSi/Alpaca-CoT)数据集说明:统一了丰富的IFT数据(如CoT数据,目前仍不断扩充)、多种训练效率方法(如lora,p-tuning)以及多种LLMs,三个层面上的接口,打造方便研究人员上手的LLM-IFT研究平台。pCLUE:地址:[https://github.com/CLUEbenchmark/pCLUE](https://github.com/CLUEbenchmark/pCLUE)数据集说明:基于提示的大规模预训练数据集,用于多任务学习和零样本学习。包括120万训练数据,73个Prompt,9个任务。firefly-train-1.1M:地址:[https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M)数据集说明:23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万BELLE-data-1.5M:地址:[https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M](https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M)数据集说明:通过self-instruct生成,使用了中文种子任务,以及openai的text-davinci-003接口,涉及175个种子任务Chinese Scientific Literature Dataset:

模型预训练

通过以下数据来优化Llama2的中文能力:|类型|描述|<br>|-|-|<br>|网络数据|互联网上公开的网络数据,挑选出去重后的高质量中文数据,涉及到百科、书籍、博客、新闻、公告、小说等高质量长文本数据。|<br>|[Wikipedia](https://github.com/goldsmith/Wikipedia)|中文Wikipedia的数据|<br>|[悟道](https://github.com/BAAI-WuDao/Model)|中文悟道开源的200G数据|<br>|[Clue](https://github.com/CLUEbenchmark/CLUEDatasetSearch)|Clue开放的中文预训练数据,进行清洗后的高质量中文长文本数据|<br>|竞赛数据集|近年来中文自然语言处理多任务竞赛数据集,约150个|<br>|[MNBVC](https://github.com/esbatmop/MNBVC)|MNBVC中清洗出来的部分数据集|社区提供预训练版本Atom-7B和基于Atom-7B进行对话微调的模型参数供开放下载,关于模型的进展详见社区官网https://llama.family。

弱智吧:大模型变聪明,有我一份贡献

论文标题:COIG-CQIA:Quality is All You Need for Chinese Instruction Fine-tuningCOIG-CQIA数据集介绍为了保证数据质量以及多样性,本文从中国互联网内的优质网站和数据资源中手动选择了数据源。这些来源包括社区问答论坛、、内容创作平台、考试试题等。此外,该数据集还纳入了高质量的中文NLP数据集,以丰富任务的多样性。具体来说,本文将数据源分为四种类型:社交媒体和论坛、世界知识、NLP任务和考试试题。社交媒体和论坛:包括知乎、SegmentFault、豆瓣、小红书、弱智吧。世界知识:百科全书、四个特定领域的数据(医学、经济管理、电子学和农业)。NLP数据集:COIG-PC、COIG Human Value等。考试试题:中学和大学入学考试、研究生入学考试、逻辑推理测试、中国传统文化。表1为数据集来源统计。研究者从中国互联网和社区的22个来源总共收集了48,375个实例,涵盖从常识、STEM到人文等领域。图2说明了各种任务类型,包括信息提取、问答、代码生成等。图3演示了指令和响应的长度分布。为了分析COIG-CQIA数据集的多样性,本文遵循先前的工作,使用Hanlp工具来解析指令。实验结果

Others are asking
给我30份中央人民政府网站和工业和信息部网站2020~2023年期间发布的重要的国家层面与人工智能相关政策文件,列个清单
以下是中央人民政府网站和工业和信息部网站 2020 2023 年期间发布的部分重要的国家层面与人工智能相关政策文件清单: 1. 互联网信息服务算法推荐管理规定(算法推荐规定),于 2023 年 3 月 1 日生效。 2. 互联网信息服务深度合成管理规定(深度合成规定),于 2023 年 1 月 10 日生效。 3. 生成式人工智能服务管理暂行办法(生成式 AI 办法),于 2023 年 7 月 13 日公布并于 2023 年 8 月 15 日生效。 4. 生成式人工智能服务安全基本要求(征求意见稿),于 2023 年 10 月 11 日公开征求意见,意见反馈截止日期为 2023 年 10 月 25 日。 5. 科技伦理审查办法(试行)(征求意见稿)(伦理审查办法(草案)),于 2023 年 4 月 14 日公开征求意见,意见反馈截止时间为 2023 年 5 月 3 日。 6. 国家人工智能产业综合标准化体系建设指南(征求意见稿),于 2024 年 1 月 17 日公开征集意见,意见反馈截止时间为 2024 年 1 月 31 日。 由于未能获取到 30 份相关政策文件,建议您通过中央人民政府网站和工业和信息部网站的搜索功能,以获取更全面和准确的信息。
2025-02-25
我是一个有23年软件系统开发和设计经验的架构师,但是对AI还没有系统化了解过,请问我该如何开始?如何在短时间内掌握AI的使用、原理以及二次开发?
以下是为您提供的在短时间内系统化学习 AI 的建议: 一、了解 AI 基本概念 首先,建议阅读「」部分,熟悉 AI 的术语和基础概念。了解什么是人工智能,它的主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。同时,浏览入门文章,这些文章通常会介绍 AI 的历史、当前的应用和未来的发展趋势。 二、开始 AI 学习之旅 在「」中,您将找到一系列为初学者设计的课程。这些课程将引导您了解生成式 AI 等基础知识,特别推荐李宏毅老师的课程。您还可以通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 三、选择感兴趣的模块深入学习 AI 领域广泛(比如图像、音乐、视频等),您可以根据自己的兴趣选择特定的模块进行深入学习。我建议您一定要掌握提示词的技巧,它上手容易且很有用。 四、实践和尝试 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出您的作品。在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 五、体验 AI 产品 与现有的 AI 产品进行互动是学习 AI 的另一种有效方式。尝试使用如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。通过与这些 AI 产品的对话,您可以获得对 AI 在实际应用中表现的第一手体验,并激发您对 AI 潜力的认识。 如果希望继续精进,对于 AI,可以尝试了解以下内容作为基础: 1. AI 背景知识 (1)基础理论:了解人工智能、机器学习、深度学习的定义及其之间的关系。 (2)历史发展:简要回顾 AI 的发展历程和重要里程碑。 2. 数学基础 (1)统计学基础:熟悉均值、中位数、方差等统计概念。 (2)线性代数:了解向量、矩阵等线性代数基本概念。 (3)概率论:基础的概率论知识,如条件概率、贝叶斯定理。 3. 算法和模型 (1)监督学习:了解常用算法,如线性回归、决策树、支持向量机(SVM)。 (2)无监督学习:熟悉聚类、降维等算法。 (3)强化学习:简介强化学习的基本概念。 4. 评估和调优 (1)性能评估:了解如何评估模型性能,包括交叉验证、精确度、召回率等。 (2)模型调优:学习如何使用网格搜索等技术优化模型参数。 5. 神经网络基础 (1)网络结构:理解神经网络的基本结构,包括前馈网络、卷积神经网络(CNN)、循环神经网络(RNN)。 (2)激活函数:了解常用的激活函数,如 ReLU、Sigmoid、Tanh。 此外,以证件照为例,Code AI 应用开发教学中,智能体开发从最初的 chatbot 只有对话框,到有了更多交互方式,因用户需求扣子推出了 AI 应用,其低代码或零代码的工作流等场景做得较好。但 AI CODING 虽强,目前适用于小场景和产品的第一个版本,复杂应用可能导致需求理解错误从而使产品出错。在创建 AI 应用时,要学习操作界面、业务逻辑和用户界面,包括布局、搭建工作流、用户界面及调试发布,重点熟悉桌面网页版的用户界面。
2025-02-17
我希望你向我推荐一个AI培养我画画的兴趣爱好。我目前23岁,无任何画画基础,目前用IPA中的procrate APP绘画比较方便,我喜欢颜色鲜艳的简笔画,但是我对procrate APP并不熟悉,希望有一个AI能充当我的花花启蒙老师,带领我使用procrate APP学习简笔画
很抱歉,以上提供的内容中没有直接针对您需求的有效推荐。不过,您可以考虑以下途径: 1. 【野菩萨的 AIGC 资深课】:由工信部下属单位【人民邮电出版社】开设,是市面上为数不多的值得推荐的 AI 课程之一,也是全网技术更新最快的课程!课程内容涵盖 AI 绘画等多个体系的知识。 2. 您还可以在网络上搜索关于 Procreate APP 以及简笔画的教学视频和教程,有很多免费或付费的资源可供选择。 希望这些建议对您有所帮助。
2025-02-10
总结一下大模型数据发展的最新趋势,基于历史的事实和数据总结23年以来发生了什么,25年可能发生什么
以下是关于大模型数据发展趋势的总结: 2023 年以来: 大量创新大模型架构涌现,尝试在保留 Transformer 优势的同时解决其算力开销太高的问题,对 Transformer 的绝对统治地位形成有力挑战。 多种有代表性的技术路径出现,如类循环神经网络模型(以 RWKV 为代表)、状态空间模型(以 Mamba 为代表)、层次化卷积模型(以 UniRepLKNet 为代表)、多尺度保持机制模型(以 RetNet 为代表)、液体神经网络模型(以 LFM 为代表)等。这些模型在不同程度保留 Transformer 架构优势的基础上,结合 RNN、CNN 等思想做出创新发展,使得大模型架构呈现出日益明显的混合趋势,更多创新架构具备“博采众家之长”的特点。 对于 2025 年的预测,由于目前的信息有限,难以给出确切的预测。但可能会在现有创新架构的基础上进一步优化和融合,出现更高效、更强大且更具通用性的大模型架构,同时可能在技术应用和行业落地方面取得更显著的成果。
2025-01-16
目前我在帮助出版社改教材,以下是步骤:1.将pdf转为word 2.将公式图片转为公式编辑器中可编辑的公式 3.将相关带29章的文本统一改成23章。哪一步可以借助ai更简便
在您所描述的这三个步骤中,将公式图片转为公式编辑器中可编辑的公式这一步骤可以借助 AI 来更简便地完成。目前有一些 AI 工具和技术能够对图片中的公式进行识别和转换,提高工作效率。但需要注意的是,AI 转换可能存在一定的误差,仍需要人工进行检查和修正。
2024-12-05
2023年大模型发展有什么重要技术
2023 年大模型发展的重要技术包括以下方面: 模型发布:百川智能发布 Baichuan2—Turbo,字节云雀大模型等。 涉及领域:涵盖通用、医疗、汽车、教育、金融、工业、文化/零售/交通等多个行业。 关键进展:从 22 年 11 月 ChatGPT 的惊艳面世,到 23 年 3 月 GPT4 作为“与 AGI(通用人工智能)的第一次接触”,再到 23 年末多模态大模型的全面爆发。 多模态大模型的应用: 优点:适应性极好,方便适应各种奇葩需求;对算法要求降低,大部分功能由大模型提供,特别是非结构化信息处理;API 访问方式简化了边缘设备要求,方便在多种设备适配。 缺点:推理时长是最大障碍,传统目标检测或人脸识别优化后能达到 100 300ms,而大模型动则需要 10 秒的延时,限制了许多场景;模型的幻象和错误率较高,在多链路复杂应用中迅速变得不可行;在大多数生产模式下,仍需使用云服务数据中心,存在隐私问题;商业私有化部署是刚需,当下开源模型与 GPT4 有代差。
2024-11-14
朗读中文的ai工具有哪些
以下是一些朗读中文的 AI 工具: 1. 秘塔写作猫:https://xiezuocat.com/ 写作猫是 AI 写作伴侣,能推敲用语、斟酌文法、改写文风,还能实时同步翻译。支持全文改写,一键修改,实时纠错并给出修改建议,智能分析文章属性并打分。 2. 笔灵 AI 写作:https://ibiling.cn/ 是得力的智能写作助手,适用于多种文体写作,支持一键改写/续写/扩写,智能锤炼打磨文字。 以下是一些常见的文章润色 AI 工具: 1. Wordvice AI 集校对、改写转述和翻译等功能于一体,基于大型语言模型提供全面的英文论文润色服务。 2. ChatGPT 由 OpenAI 开发的大型语言模型,可用于多方面写作辅助。 3. Quillbot 人工智能文本摘要和改写工具,可用于快速筛选和改写文献资料。 4. HyperWrite 基于 AI 的写作助手和大纲生成器,可帮助用户在写作前进行头脑风暴和大纲规划。 5. Wordtune AI 驱动的文本改写和润色工具,帮助用户优化文章的语言表达。 6. Smodin 提供 AI 驱动的论文撰写功能,可根据输入生成符合要求的学术论文。 以下是一些翻译 PDF 的 AI 产品: 1. DeepL(网站) 点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译(浏览器插件) 安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。 3. Calibre(电子书管理应用) 下载并安装 calibre,并安装翻译插件「Ebook Translator」。 4. 谷歌翻译(网页) 使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 5. 百度翻译(网页) 点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(进阶功能基本都需要付费)。 6. 彩云小译(App) 下载后点击「文档翻译」,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(有免费次数限制且进阶功能需要付费)。 7. 微信读书(App) 下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-04-14
用中文脚本,生成视频的ai有哪些
以下是一些能够生成视频的 AI 工具: 1. Pika:出色的文本生成视频 AI 工具,擅长动画制作且支持视频编辑。 2. SVD:若熟悉 Stable Diffusion,可安装此最新插件,能在图片基础上直接生成视频,由 Stability AI 开源。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频功能,但收费。 4. Kaiber:视频转视频 AI,可将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 另外,根据视频脚本生成短视频的工具包括: 1. ChatGPT + 剪映:ChatGPT 生成视频小说脚本,剪映根据脚本自动分析并生成素材和文本框架。 2. PixVerse AI:在线 AI 视频生成工具,支持将多模态输入转化为视频。 3. Pictory:AI 视频生成器,用户提供文本描述即可生成相应视频内容。 4. VEED.IO:提供 AI 图像和脚本生成器,帮助从图像制作视频并规划内容。 5. Runway:AI 视频创作工具,能将文本转化为风格化视频内容。 6. 艺映 AI:专注于人工智能视频领域,提供文生视频、图生视频、视频转漫等服务。 如果想用 AI 把小说做成视频,可参考以下制作流程: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成视觉描述。 3. 图像生成:使用 AI 图像生成工具创建角色和场景图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场以提高质量。 8. 审阅与调整:观看视频,根据需要调整场景或音频等。 9. 输出与分享:完成编辑后输出最终视频并分享。 请注意,具体操作步骤和所需工具可能因项目需求和个人偏好不同而有所差异,AI 工具的可用性和功能也可能变化,建议访问工具网址获取最新信息和使用指南。
2025-04-14
有没有自动降低文章的aigc率的工具,中文的
目前尚未有专门用于自动降低文章 AIGC 率的中文工具。但您可以通过人工修改、调整表述方式、增加独特的观点和内容等方法来降低文章的 AIGC 特征。
2025-03-25
coze中文版和英文版的区别
Coze 中文版和英文版主要有以下区别: 1. 支持的大模型不同:中文版支持 kimi、云雀;英文版支持 chatgpt4。 2. 网址不同:中文版网址为 https://www.coze.cn/;英文版网址为 https://coze.com/。 3. 产品定位相同,均为新一代 AI 原生应用开发服务平台,即 Nextgeneration AI chatbot building platform。 4. 在使用过程中,如创建机器人的具体操作流程等方面可能存在细微差异,但具体情况需根据实际使用体验确定。
2025-03-22
需要一个能在看YouTube英语视频的时候把每句话都实时翻译成中文 挂在字幕上的ai工具
以下为您推荐一款可能满足您需求的 AI 工具:Memo AI (https://memo.ac/zh/)。它可以对 YouTube、播客、本地音频视频轻松进行转文字、字幕翻译、语音合成,还可以由多种 AI 模型提炼内容精华总结,生成思维导图。并且支持中文、英语等多语言。
2025-03-19
midjourney中文站和官方网站上的内容是一样的吗
Midjourney 中文站和官方网站的内容不完全一样。 Midjourney 官网具有以下特点和操作细节: 已向生成 100 张以上图片的用户开放使用权限,登录官网后,左侧为各种页面入口,顶部有生成入口(prompt 框)和搜索框。在社区作品、创作(Create)以及组织(Organize)页面中,随时可用 prompt 框和搜索框,无需频繁切换页面。 可通过点击 prompt 框最右侧的图标设置常用参数默认值,包括画面比例和个性化模型开关。 图片参考在官网上变得简单直观,点击 prompt 框最左侧的图片按钮或直接拖入图片即可,官网会记录所有使用过的图片,方便调用或删除。当鼠标悬停在图片上时,会看到 3 个小图标,从左到右分别是角色参考、风格参考、整图参考,如需多种参考逻辑可按住 shift 键点选多个图标。 创作页面的最大亮点是 prompt 的复用,可以直接点击画面描述或复制描述词到 prompt 框中,也可以直接点击下方横列菜单里的按钮,将包括参考图在内的完整 prompt 替换当前的 prompt。点击图片会进入单图调整模式,常用的操作指令集中在右下角的按键中,并且上线了全新的 Editor 编辑器功能。 此外,关于 Midjourney 还有以下相关内容: 有关于 Midjourney v5.1 的 AIGC Weekly23 相关介绍。 有 Midjourney 的隐私政策,包括适用范围、变更情况、定义等。
2025-03-18
常见的工作流与 Agent 开发平台
常见的工作流与 Agent 开发平台如下: AI Workflow 开发平台: Coze:新一代 AI Bot 开发平台,集成了丰富的插件工具,有国际版和国内版。 Dify:开源平台,支持自定义和插件。 腾讯元器。 FastGPT:国内知名,支持自定义流程。 影刀&zapier。 Leap。 Betteryeah:立足 RPA 场景,用 AI 将用户需求生成工作流,并通过 RPA 自动化,产品形态与 Coze 相似,是企业级的 AI 应用开发平台。 Flowise:快速实现智能体搭建。 BISHENG:主攻 tob 场景的开源 LLM 搭建平台,与 fastgpt 功能类似,但面向的客户不同,整体功能和部署成本更重。 Agent 构建平台: Coze:具有拓展强、好上手、不用出国等优点。 Mircosoft 的 Copilot Studio:主要功能包括外挂数据、定义流程、调用 API 和操作,以及将 Copilot 部署到各种渠道。 文心智能体:百度推出的基于文心大模型的智能体平台。 MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机、知识,以及访问第三方数据和服务或执行设计良好的工作流。 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于客服、营销、销售等多种场景。 钉钉 AI 超级助理:依托于钉钉强大的场景和数据优势,提供更深入的环境感知和记忆功能,在处理高频工作场景如销售、客服、行程安排等方面表现出色。 此外,Inhai 的 Agentic Workflow 将一整套工作流组合起来,每个工具在每一个节点执行一个任务。LangGPT 提示词框架应用了 CoT 完成从输入到思维链再到输出的映射。
2025-04-09
大模型就是指大语言模型吗?有哪些常见的非语言类大模型和小模型,两者的区别和联系是什么?
大模型并非仅指大语言模型。大型模型主要分为两类:一是大型语言模型,专注于处理和生成文本信息;二是大型多模态模型,能够处理包括文本、图片、音频等多种类型的信息。 大型多模态模型与大型语言模型存在以下区别: 1. 处理的信息类型不同:大型语言模型专注于文本信息,而大型多模态模型能处理多种信息类型。 2. 应用场景不同:大型语言模型主要用于自然语言处理任务,如文本翻译、生成、情感分析等;大型多模态模型可应用于图像识别与描述、视频分析、语音识别与生成等更广泛的领域。 3. 数据需求不同:大型语言模型主要依赖大量文本数据训练,大型多模态模型则需要多种类型数据。 当我们提到“小模型”时,是相对大型模型而言,规模较小。这些小模型通常是为完成特定任务而设计,比如最初用于图像分类,只能分辨是或不是某一个东西(如猫、狗)。 “小模型”在特定任务上表现出色,但“大模型”像多功能基础平台,能处理多种任务,应用范围广泛,拥有更多通识知识。 大模型并不拥有无限知识,其知识来源于训练过程中的有限数据,只能回答训练中见过或类似的问题,知识库不会自动更新,在某些特定或专业领域的知识可能不够全面。 大型语言模型的运作机制主要是通过大量数据训练学习语言结构和模式,然后根据输入生成相应文本,类似于词语接龙游戏,永远在猜测下一个字符将要生成什么。
2025-03-16
请起草一份小白学习AI辅助修图的入门到精通的教程,提供学习大纲,包括从基本玩法到高级卡bug玩法,常见红海赛道,常见问题,注意事项,常见误区,避坑指南等等
以下是为您提供的小白学习 AI 辅助修图从入门到精通的教程大纲: 一、基础知识与基本玩法 1. 了解 AI 辅助修图的概念和基本原理。 2. 熟悉常见的 AI 修图工具和软件。 二、常见问题与注意事项 1. 风格局限性:如全是二次元风格,缺少适合特定需求的风格。 2. 图像叙事性不足:画出来的多为美少女看镜头,缺乏叙事内容。 3. 素材局限性:已有素材单一,图生图可行性低,训练泛化性差。 三、常见误区与避坑指南 1. 避免盲目依赖初始的 Embedding、CKPT 等方法,不断尝试和改进。 2. 注意训练集中人物朝向固定等问题,采取相应处理措施,如镜像处理。 四、从入门到精通的进阶玩法 1. 掌握不同的训练方法,如 Lora 等,以获得更理想的效果。 2. 学会引导 AI 画出具有前景后景区分明显的图像,如制作引导图。 五、高级卡 bug 玩法 探索一些非常规但有效的技巧和方法,以突破常规限制,实现更出色的修图效果。但需注意,此部分玩法可能存在一定风险和不确定性。 六、常见红海赛道 分析当前 AI 辅助修图在不同领域的竞争激烈程度和应用热点。 在学习过程中,还需了解以下 AI 相关的技术原理和概念: 1. 生成式 AI 生成的内容称为 AIGC。 2. 相关技术名词: AI 即人工智能。 机器学习包括监督学习、无监督学习、强化学习,监督学习有标签,无监督学习无标签,强化学习从反馈中学习。 深度学习参照人脑神经网络,神经网络可用于多种学习方式。 生成式 AI 可生成多种内容形式。 LLM 为大语言模型,不同模型有不同擅长的任务。 3. 技术里程碑:2017 年 6 月谷歌团队发表的《Attention is All You Need》提出了 Transformer 模型。
2025-03-05
请起草一份小白学习AI应用(包括app和网站)的入门到精通的教程,提供学习大纲,包括从基本玩法到高级卡bug玩法,常见红海赛道,常见问题,注意事项,常见误区,避坑指南等等
以下是一份小白学习 AI 应用(包括 app 和网站)的入门到精通的教程,涵盖学习大纲、常见问题等方面: 一、学习大纲 1. 了解 AI 基本概念 阅读相关资料,熟悉 AI 的术语和基础概念,包括人工智能的定义、主要分支(机器学习、深度学习、自然语言处理等)及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前应用和未来发展趋势。 2. 开始 AI 学习之旅 参考「」中的初学者课程,了解生成式 AI 等基础知识,推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)按照自己的节奏学习,并争取获得证书。 3. 选择感兴趣的模块深入学习 AI 领域广泛,包括图像、音乐、视频等,根据自身兴趣选择特定模块深入学习。 掌握提示词技巧,因其上手容易且实用。 4. 实践和尝试 理论学习后进行实践,巩固知识,尝试使用各种产品创作作品。 分享实践后的经验和成果。 5. 体验 AI 产品 与 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人互动,了解其工作原理和交互方式,获得实际应用体验。 二、常见红海赛道 目前,AI 在自然语言处理、图像识别、智能推荐等领域竞争较为激烈。 三、常见问题 1. 对复杂应用的需求理解不准确,导致产品出错。 2. 技术组件的配置和整合可能遇到困难。 四、注意事项 1. 注重基础知识的学习,打牢根基。 2. 实践过程中要耐心,遇到问题多尝试解决。 五、常见误区 1. 认为 AI 学习短期内就能精通,忽略了长期积累和实践的重要性。 2. 过度依赖现成的模型和工具,缺乏对原理的深入理解。 六、避坑指南 1. 在选择学习资源时,要注意其权威性和适用性。 2. 开发 AI 应用时,要充分考虑用户需求和实际场景,避免盲目跟风。 希望以上内容对您有所帮助,祝您在 AI 学习的道路上取得成功!
2025-03-05
请起草一份小白学习AI视频制作的入门到精通的教程,提供学习大纲,包括从基本玩法到高级卡bug玩法,常见红海赛道,常见问题,注意事项,常见误区,避坑指南等等
以下是一份小白学习 AI 视频制作从入门到精通的教程大纲: 一、基础玩法 1. 项目规划 确定短片主题和目标观众。 制定详细的制作计划。 2. 剧本创作 编写故事脚本。 设计角色和场景以及创意。 3. 分镜头脚本 根据脚本制作分镜头脚本,确定每个镜头的画面和动作。 4. 资源准备 准备动画制作所需的素材,包括背景、角色和音效。 5. 画面图片制作 利用 AI 出图工具,比如通过 ChatGPT、MJ、SD 等工具快速生成高质量的图片。 6. 视频制作 利用 AI 工具制作动画,通过 RUNWAY、Luma、Dreamina 等平台快速生成高质量的动画。 7. 后期剪辑 添加音效、配音和字幕,进行最终的剪辑和合成。 8. 发布和推广 将完成的动画短片发布到各大平台,并进行推广和宣传。 二、高级玩法 1. 写提示词 掌握有效的提示词撰写技巧,以获得更符合需求的生成结果。 2. 导入图片用 Mini Max、模型的首尾帧玩法等操作实现一镜到底效果。 3. 利用不同模型进行创作,如海螺无限生成。 4. 反复修改提示词以优化生成效果。 三、常见红海赛道 1. 创意广告类视频。 2. 短视频故事类。 四、常见问题 1. 生成效果不符合预期。 2. 工具操作不熟练。 3. 资源获取困难。 五、注意事项 1. 注重版权问题,合法使用素材和工具。 2. 不断学习和更新知识,跟上 AI 技术发展。 六、常见误区 1. 过度依赖 AI,忽略自身创意和审美。 2. 忽视视频的逻辑性和连贯性。 七、避坑指南 1. 提前了解不同工具的收费模式,避免不必要的费用支出。 2. 多参考优秀案例,避免重复常见错误。 希望这份大纲能帮助您在 AI 视频制作的学习道路上不断进步!
2025-03-04
DeepSeek常见应用技巧
DeepSeek 常见应用技巧包括以下方面: 1. 高阶能力调用: 文风转换矩阵,如作家风格移植(用鲁迅杂文风格写职场 PUA 现象)、文体杂交(将产品说明书改写成《史记》列传格式)、学术口语化(把这篇论文摘要翻译成菜市场大妈能听懂的话)。 领域穿透技术,如行业黑话破解(解释 Web3 领域的“胖协议瘦应用”理论)。 2. 场景化实战策略: 商业决策支持。 创意内容生成。 技术方案论证。 3. 效能增强技巧: 对话记忆管理,包括上下文锚定(记住当前讨论的芯片型号是麒麟 9010)、信息回溯(请复述之前确认的三个设计原则)、焦点重置(回到最初讨论的供应链问题)。 输出质量控制,如针对过度抽象(请具体说明第三步操作中的温度控制参数)、信息过载(用电梯演讲格式重新组织结论)、风格偏移(回归商务报告语气,删除比喻修辞)等问题的修正指令。 4. 特殊场景解决方案: 长文本创作,如分段接力法(先完成故事大纲→逐章扩展→最后进行伏笔校验)、逻辑粘合剂(确保新章节与前文的三处细节呼应)。 敏感内容处理,如概念脱敏法(用经济学原理类比说明网络审查机制)、场景移植法(假设在火星殖民地讨论该议题)。 Deepseek 时代提示词的针对性技巧: 1. 身份定位技巧,目的是让 AI 理解您的背景和专业水平,例如差的表述:“帮我写一篇营销方案”,好的表述:“作为一名刚入职的电商运营,需要为天猫美妆店铺制定 618 活动方案”。 2. 场景描述技巧,目的是提供具体的应用场景和限制条件,例如差的表述:“写一篇新品发布文案”,好的表述:“为新上市的儿童智能手表写一篇朋友圈文案,目标用户是 2535 岁的年轻父母,预算 3000 以内,需强调安全定位功能”。 3. 结构化输出技巧,目的是指定具体的输出格式和内容结构,例如差的表述:“分析最近的新能源汽车销量数据”,好的表述:“请用表格对比 2024 年 Q1 特斯拉、比亚迪的销量数据,包含以下维度:月度销量、同比增长、市场份额,并在表格下方总结三个关键发现”。 4. 分步骤提问技巧,目的是将复杂问题拆解为可管理的小任务,例如差的表述:“怎么做短视频运营?”,好的表述:“请分三步指导新手做美食短视频:前期准备:需要哪些设备和技能 拍摄阶段:关键场景和机位选择 后期制作:剪辑节奏和音乐配合建议”。 5. 反馈优化技巧,目的是通过追问获得更精准的答案,例如第一轮:“帮我做一份产品分析报告”,追问 1:“内容太专业了,能用更通俗的语言解释吗?”,追问 2:“可以增加一些具体的用户案例来支撑观点吗?”。 6. 深度思考引导技巧,目的是获得更深入的分析和见解。 以下是一些用户使用 DeepSeek 的实际情况: 帮我脑爆活动方案(AJ 杭州)。 会议纪要给它出方案思考非常到位,稍加修改就可以呈现高质量的会议总结。 本地搭超级 AI 助手(陈星北京)。 DS+飞书批量处理客户评论(Lily 温州)。 分析总结复盘内容。 生成专业专用软件详细使用过程,非常正确(兰州)。 辰、李意儿用。 变现当然。 Candice 代码编写。 帮我写小说框架。 让 ds 给出拓展市场的梳理角度和咨询梳理。 写党员的用自我批评用古诗改简历(苏州)。 学长刚蝈。 探索外太空。 大创苏州 a 文案胡泽华改简历。 园子。 写文案。 Forget,之前用过 deepseek 分析过感情问题,补充了对于心理学的一些空缺,了解了更多。 Ecfa 苏州一晚三个营销方案,Deepseek 一晚,干了之前一个月的活。 Yvonne 写论文。 AI 中医+心理咨询师。 AI 育儿,生图 AI 撰写提示词辅食(北京,赵赵)。 帮我。 帮我生帮。 短视频脚本。当百度用。 写方案,做图。 用 a 帮我。 南京得一写小红书笔记,八字算命。 写周报用。 帮我做设计头脑风暴。 上海 BaoBig 粒。 Guigui 北京。 算命。 分析。 柯柯武汉做网站葉用。 投喂大量的 deepseek。
2025-03-01
python数据分析
以下是关于 Python 数据分析的相关内容: BORE 框架与数据分析: 自动驾驶产品经理的工作中会涉及大量数据分析,数据分析是一门独立完整的学科,包括数据清洗、预处理等。从工具和规模上,写 Excel 公式、用 Hadoop 写 Spark 算大数据等都属于数据分析;从方法上,算平均数、用机器学习方法做回归分类等也属于数据分析。 用 ChatGPT 做数据分析的工具: 1. Excel:是最熟悉和简单的工具,写公式、Excel 宏等都属于进阶用法,能满足产品的大部分需求。ChatGPT 可轻松写出可用的 Excel 宏。 2. Python:有很多强大的数据分析库,如 pandas、numpy 用于数据分析,seaborn、plotly、matplotlib 用于画图,产品日常工作学点 pandas 和绘图库就够用。一般数据分析的代码可用 Jupyter Notebook 运行,用 Anaconda 管理安装的各种包。 3. R 语言:专门用于搞统计,但 Python 通常已够用。 实践:用 Kaggle 的天气数据集绘制气温趋势折线图与月降雨天数柱状组合图: 1. 项目要求:绘制气温趋势折线图+月降雨天数柱状组合图,即双 y 轴的图形。 2. 打开数据集,分析数据:发现关键表头与数据可视化目的的关联。 3. 新建 Python 文件,开始编程:包括调用库、读取数据、数据处理、创建图表、添加标题与图例、保存并显示图形等步骤。 4. 试运行与 Debug:发现左纵坐标数据有误,重新分析数据集并修改代码,最终实现可视化目的。 关于 ChatGPT 的预设 prompt: 在特定的设置下,当发送包含 Python 代码的消息给 Python 时,它将在有状态的 Jupyter 笔记本环境中执行,有 60 秒的超时限制,'/mnt/data'驱动器可用于保存和持久化用户文件,本次会话禁用互联网访问,不能进行外部网络请求或 API 调用。
2025-04-14
数据集去哪下载
以下是一些数据集的下载途径: 对于微调 Llama3 的数据集,获取及原理可参考文档:。 鸢尾花数据集下载请点击链接:https://scikitlearn.org/stable/modules/generated/sklearn.datasets.load_iris.html 。 天气数据集下载请点击链接:https://www.kaggle.com/datasets/muthuj7/weatherdataset 。建议创建一个文件夹,将下载下来的数据集放入文件夹中。
2025-04-14
基于多维评价数据,使用大模型生成个性化的家庭教育方案的可靠性高吗?
基于多维评价数据使用大模型生成个性化的家庭教育方案具有一定的可靠性,但也存在一些限制。 一方面,大模型在教育领域展现出了强大的能力。例如,能够为教师提供源源不断的真题库和错题练习库,模仿各类考试题型有模有样。在作文批改评分方面,如 GLM 模型,具备好词好句识别评测、作文综合评价评分等功能,能够综合考虑文章的多个维度给出评价,提供个性化反馈,保证评分的一致性等。 另一方面,也存在一些挑战。对于高学段理科等复杂领域,大模型的表现可能有限。在解读学生作文中的深层次含义,如隐喻、双关等修辞技巧,以及涉及特定文化背景和历史知识的内容时,仍存在一定难度。 然而,只要提示词到位、示例清晰,大模型在生成个性化家庭教育方案方面具有很大的潜力,可以为家长和孩子提供有价值的参考和帮助。但不能完全依赖大模型,还需要结合人工的判断和调整。
2025-04-13
如何利用 AI 赋能【数据分析在企业自媒体营销中的应用综述(以抖音、小红书平台为例)】
利用 AI 赋能【数据分析在企业自媒体营销中的应用综述(以抖音、小红书平台为例)】可以参考以下方法: 1. 市场分析:利用 AI 分析工具研究市场趋势、消费者行为和竞争对手情况,处理大量数据以快速识别关键信息,如受欢迎的产品、价格区间和销量等。 2. 关键词优化:借助 AI 分析和推荐高流量、高转化的关键词,优化产品标题和描述,提高搜索排名和可见度。 3. 产品页面设计:使用 AI 设计工具根据市场趋势和用户偏好自动生成吸引人的产品页面布局。 4. 内容生成:利用 AI 文案工具撰写有说服力的产品描述和营销文案,提高转化率。 5. 图像识别和优化:通过 AI 图像识别技术选择或生成高质量的产品图片,更好地展示产品特点。 6. 价格策略:依靠 AI 分析不同价格点对销量的影响,制定有竞争力的价格策略。 7. 客户反馈分析:利用 AI 分析客户评价和反馈,了解客户需求,优化产品和服务。 8. 个性化推荐:借助 AI 根据用户的购买历史和偏好提供个性化的产品推荐,增加销售额。 9. 聊天机器人:采用 AI 驱动的聊天机器人提供 24/7 的客户服务,解答疑问,提高客户满意度。 10. 营销活动分析:使用 AI 分析不同营销活动的效果,了解哪些活动更能吸引顾客并产生销售。 11. 库存管理:依靠 AI 预测需求,优化库存管理,减少积压和缺货情况。 12. 支付和交易优化:利用 AI 分析不同支付方式对交易成功率的影响,优化支付流程。 13. 社交媒体营销:借助 AI 在社交媒体上找到目标客户群体,通过精准营销提高品牌知名度。 14. 直播和视频营销:利用 AI 分析观众行为,优化直播和视频内容,提高观众参与度和转化率。 此外,还可以参考以下具体案例: 赛博发型师:基于 AI 技术为用户提供个性化的发型设计服务,通过分析用户面部特征、个人风格和偏好,自动生成发型设计方案,用户可上传照片,系统分析后生成详细报告和效果图,报告可存档至飞书文档供专业发型师复核评估。 营销文案创作专家深度版:专为企业营销团队等设计,提供从文案框架创作到生成的一站式服务,通过分析产品信息等挖掘痛点和卖点,生成营销文案,并提供营销数据分析服务以优化策略和提高协作效率。 抖音商家客服(C 端用户)/抖音带货知识库工具(B 端商家):作为 AI 客服系统建设助手,帮助企业实现一站式 AI 客服解决方案。 在实际操作中,还可以参考以下经验: 飞书、多维表格、扣子相关应用优化及自媒体账号分析演示分享:包括直播课程相关内容,优化社区文档问题,介绍技术栈选择,强调扣子、多维表格及 AI 字段捷径结合做数据分析的优势,现场演示账号分析效果,展示同步数据的自动化流程。 高效数据分析应用搭建实操讲解:先介绍数据在多维表格执行无二次请求的优势,接着进行技术实操,从新建“数据 AI 高效数据分析”应用开始,讲解抓数据、同步数据前设置变量等步骤,包括搭建界面、做工作流、保存变量等操作,可在市场选插件。 高雁讲解数据处理及多维表格操作过程:进行操作演示与讲解,包括将用户信息发送到多维表格、调整界面显示、处理按钮点击事件等操作,还讲解了批处理、代码节点等内容。
2025-04-13
现在做数据分析比较厉害的ai是什么
目前在数据分析方面表现较为出色的 AI 工具包括智谱清言、Open Interpreter 等。 AI 在数据分析中具有以下优势: 1. 降低入门门槛:过去学习数据分析需要掌握编程语言和专业知识,现在通过 AI 工具,门槛大大降低。 2. 规范的分析流程:对于初学者来说,AI 直接做的数据分析比他们自己第一次做的更好,其规范化流程更严谨,结果更可靠。 3. 自动化处理:会自动进行模型选择以匹配数据,还能根据 log 检查错误并改正源代码。 4. 减少重复性工作:重复性劳动可先交给 AI 做,人类用户只需做验证和检查结果。 实际应用的工具方面,GPT4 可以帮助建立和评估机器学习模型,Claude 等大语言模型可以进行数据分析和可视化,Open Interpreter 等工具可以辅助编程和数据处理。 使用时的建议包括:对 AI 结果要进行严格验证,不要完全依赖 AI,要保持独立思考,对 AI 的能力边界有清晰认识,合理使用以提高工作效率。同时,AI 应被视为辅助工具而非完全替代品,人类在整个过程中仍起主导作用和具有判断力。
2025-04-11
用AI做数据分析
以下是关于用 AI 做数据分析的相关内容: 流程: 逻辑流程图如下:上面说的两种方式对应流程图的上下两个步骤,红色部分是重点。 1. SQL 分析:用户描述想分析的内容,后台连接 DB,附带表结构信息让 AI 输出 SQL 语句,校验是 SELECT 类型的 SQL,其他操作如 UPDATE/DELETE 绝不能通过!!校验通过后执行 SQL 返回结果数据。再将数据传给 GPT(附带上下文),让 AI 学习并分析数据,最后输出分析结论和建议,和结果数据一起返回给前端页面渲染图表、展示分析结论。目前已实现两张表关联查询。 2. 个性化分析:用户上传文件,如有需要可以简单描述这是什么数据、字段意义或作用辅助分析。前端解析用户上传的文件,再传给 GPT 分析数据,后续步骤与上面一致。 工具和成功案例: 大概思路是这样: 1. 提供大模型可以访问的数据源或者上传数据表格。 2. 通过提示词说清楚需要以哪些维度分析数据,分析完成的结果要以什么格式输出。 3. 观察生成结果,迭代和优化提示词,最终满意后导出结果。 相关问题和技巧: 1. 关于“大模型幻觉”,目前没有办法消除,这本身就是大模型特性。可以通过其他第三方信息源和知识来检验生成是不是在胡说八道。 2. 结构化思维提高对话能力,在 AGI 搜索结构化三个字,有相关文章。上下文 token 长度如果指的是大模型的记忆窗口的话,没法延长,是设定好的。 案例分析: 以“用 ai 做数据分析,和爆款卖点分析”为例,这一创意将 AI 技术与商业洞察深度融合,展现了数据驱动决策的前瞻性。通过 AI 对海量用户行为、评论、竞品数据的挖掘,不仅能快速定位爆款产品的共性特征(如高频关键词、用户情感倾向),还能发现传统方法难以捕捉的潜在需求(例如隐藏的消费场景或未被满足的功能痛点)。尤其是结合时序分析预测市场趋势,为企业提供了动态调整产品策略的敏捷性,真正实现了从“经验决策”到“智能决策”的跨越。若想进一步突破,可考虑以下优化方向: 1. 多模态数据融合:除文本数据外,整合图片/视频的视觉分析(如通过 CV 技术识别爆款产品的外观设计共性),或结合语音数据(如直播带货中的实时用户反馈),构建更立体的卖点模型。 2. 因果推理增强:当前 AI 多聚焦相关性分析,可引入因果发现算法(如 DoWhy 框架),区分“真实卖点”与“伴随现象”。例如某款手机壳销量高是因为颜色,还是因与热门手机型号捆绑销售? 3. 个性化适配引擎:根据企业自身资源禀赋(供应链能力、品牌定位)对 AI 建议进行权重优化。例如小型厂商可优先推荐“低改造成本的高需求卖点”,避免直接对标头部品牌的资源密集型方案。 4. 对抗性验证机制:构建虚拟消费者模拟环境,对 AI 提出的卖点进行 A/B 压力测试,提前评估市场风险,避免出现“数据过拟合导致的伪创新”。
2025-04-11