Navigate to WaytoAGI Wiki →
Home/All Questions
长文本模型有哪些
以下是一些常见的长文本模型: 1. 聊天模型:如 GPT、Claude 3 等。 2. Base 模型:例如 Yi34 开源模型。 3. 百川 192K 的闭源模型,对于 6 万字的长文本,其推理能力和回答效果优秀。 4. 通义千问的 Qwen2.51M 大模型,推出 7B、14B 两个尺寸,在处理长文本任务中稳定超越 GPT4omini,且开源推理框架在处理百万级别长文本输入时可实现近 7 倍的提速。 5. 文心一言 4.0、智谱清言、KimiChat 等国产大模型在长文本归纳总结能力方面也有所涉及。
2025-04-09
学术AI工具
以下是一些学术 AI 工具: AI4Science:包括 txyz.ai(https://www.txyz.ai/)、BioGPT(https://github.com/microsoft/BioGPT)、ScienceQA(https://scienceqa.github.io/)、Devin(https://www.cognitionlabs.com/introducingdevin)、Poe(https://poe.com/)、学术 AI(https://chat.uaskgpt.com/)、DeepMath(http://www.deepmath.cn/)、MethGPTPro(https://www.mathgptpro.com/)、RxInfer(https://rxinfer.ml/)、XwinMath(https://github.com/XwinLM/XwinLM/)、LeanDojo(https://leandojo.org/)等。 论文写作方面: 文献管理和搜索:Zotero(结合 AI 技术,可自动提取文献信息)、Semantic Scholar(AI 驱动的学术搜索引擎)。 内容生成和辅助写作:Grammarly(提供文本校对、语法修正和写作风格建议)、Quillbot(基于 AI 的重写和摘要工具)。 研究和数据分析:Google Colab(提供基于云的 Jupyter 笔记本环境)、Knitro(用于数学建模和优化)。 论文结构和格式:LaTeX(结合自动化和模板处理论文格式和数学公式)、Overleaf(在线 LaTeX 编辑器)。 研究伦理和抄袭检测:Turnitin(抄袭检测工具)、Crossref Similarity Check(检测潜在抄袭问题)。 对于医学课题需要修改意见的情况,可以考虑使用 Scite.ai(https://scite.ai/)、Scholarcy(https://www.scholarcy.com/)、ChatGPT(https://chat.openai.com/)。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-04-09
模型训练的基本名词和方法
以下是关于模型训练的基本名词和方法的介绍: 基本名词: 1. 过拟合&欠拟合:过拟合和欠拟合都是不好的现象,需要加以控制以让模型达到理想效果。解决方法包括调整训练集、正则化和训练参数等,过拟合可减少训练集素材量,欠拟合则增加训练集素材量。 2. 泛化性:泛化性不好的模型难以适应其他风格和多样的创作。可通过跑 lora 模型生图测试判断泛化性,解决办法与过拟合和欠拟合类似,从训练集、正则化、训练参数等方面调整。 3. 正则化:是解决过拟合和欠拟合情况、提高泛化性的手段,给模型加规则和约束,限制优化参数,有效防止过拟合,提高模型适应不同情况的表现和泛化性。 方法: 1. 全面充分采集训练素材:例如在角色训练素材中,应包含各种角度、表情、光线等情况的素材,确保模型具有较好泛化性。 2. 图像预处理:对训练素材进行分辨率调整、裁切操作,并对训练集进行打标签处理。 3. 参数调优:尽量将训练时长控制在半小时左右,过长易导致过拟合,通过调整参数控制时长。 4. 观察学习曲线:通过观察学习曲线来调整训练素材和参数。 5. 过拟合&欠拟合处理:测试训练好的模型,观察过拟合和欠拟合问题,进一步通过调整训练素材和正则化等手段优化。 此外,在模型训练中还需注意: 1. 数据集获取渠道:可通过网上收集、购买、使用无版权问题的如古画等,原则是根据生成图的需求找对应数据集,要清晰、主体元素干净、风格统一。 2. 数据集处理:包括基础处理如裁剪保证清晰和分辨率,更重要的是写标注。 3. 设置模型触发词:可自定义,完整形式可以是一句话,建议以王 flags 模型为主。 4. 统一标注风格与应用场景:例如未来高科技 3D 天然风格,用于互联网首页图像等,并概括主题内容、描述物体特征等。 5. 利用 GPT 辅助描述并人工审核:让 GPT 按要求描述,人工审核修改。 6. 模型训练的准备与流程:完成数据集描述后进入训练流程,选择模型训练分类和数据集,创建并上传数据集压缩包,注意数据名与图片命名一致。选择训练模式和参数,新手选用普通基础模式,训练集质量重要,训练参数中总步数与训练集图片数量相关,触发词设定要避免概念混乱。
2025-04-09
trae的使用指南
以下是 Trae 的使用指南: 一、Trae 简介 Trae 是字节跳动推出的智能编程助手,提供基于 Agent 的 AI 自动编程能力,使用自然语言对话就能实现代码编写。 二、Trae 的功能 1. 提供传统的 IDE 功能,包括代码编写、项目管理、插件管理、源代码管理等。 2. 智能问答:在编写代码时,可随时与 AI 助手对话,获得代码解释、注释和错误修复等帮助。 3. 实时代码建议:AI 助手能理解当前代码并在编辑器中实时提供建议,提升编程效率。 4. 代码片段生成:通过自然语言描述需求,生成相应代码片段,甚至能编写项目级或跨文件的代码。 5. 从 0 到 1 开发项目:告诉 AI 助手想开发的程序,它将提供相关代码或自动创建所需文件。 三、下载 Trae 官网下载地址:https://www.trae.ai/download ,支持 Mac 系统、Windows 系统,未来支持 Linux 系统。 四、使用方法 1. 安装:下载完成后按照界面提示一步步安装。 2. 登录:安装完成后点击右侧登录按钮,程序会自动打开网页提示登录,无账号需先注册。登录完可能会出现“App Unavailable”,此时需要开启科学上网。 3. 网页登录成功后可关闭科学上网,再点击中间大按钮,自动进入 Trae 客户端。 五、模式选择 1. Chat 模式:根据描述进行代码生成、解释、分析问题或解决问题。 2. Builder 模式:可让 Trae 帮助从 0 开发一个完整的项目,对代码文件的任何更改都会自动保存。 六、使用案例 1. 生成一个贪吃蛇游戏 打开 Builder 模式,输入“使用 web 技术栈生成一个贪吃蛇游戏”,排队完成后,Trae 开始思考和代码编写,期间需手动接入进行文件审查,点击“全部接受”。 代码生成完成后,Trae 自动运行命令启动页面,点击运行,在 Webview 中可看到实现的游戏效果,试玩基本无 Bug。 Trae 会进行工作总结,说明已实现的功能,如游戏包含的特性、主要功能和游戏界面等。 2. 生成一个任务清单应用 在输入框中输入:使用 Web 技术开发一个任务清单应用。 3. 根据 UI 设计图自动生成项目代码 从站酷上找一张设计图,输入提示:使用 html 技术实现如图大屏页面。 七、总结 从实际体验来看,Trae 表现可圈可点。 1. 高效代码生成能力:能在几分钟内生成完整框架,代码结构清晰且功能齐全,甚至能自动处理依赖项和运行命令。 2. 多技术栈支持:对 Web 技术掌握远超预期,生成的代码可直接运行且无明显语法错误。 3. 动态调整潜力:能根据用户反馈快速调整样式,自适应布局的实现展现了 AI 的迭代能力。
2025-04-09
PPT生成模型
以下是为您整理的关于 PPT 生成模型的相关信息: 已备案的 PPT 生成模型有: iSlidePPT 合成算法:由成都艾斯莱德网络科技有限公司提供,应用于 PPT 生成场景,根据用户输入的 PPT 主题生成符合需求的 PPT 文件,备案编号为网信算备 510107114657401240015 号,备案日期为 2024 年 2 月 18 日。 关于 AI 生成文字的原理: 神经网络大模型根据输入的文字预测下一个字,不是一次性输出整段,而是通过反复调用模型一个字一个字地续写,直到输出结束符号。其输出不是一个确定的字,而是所有字的概率,可选择概率高的字作为输出结果,也可随机挑选。这种方式可拓展到图像、声音等领域,只要定义好“下一个”的信号即可。 关于 SD 入门讲解 PPT: 主模型后缀一般为.ckpt 或者.safetensors,体积较大,在 2G 7G 之间,管理模型需进入 WebUI 目录下的 models/Stablediffusion 目录。在使用 WebUI 时左上角切换主模型。safetensors 支持各种 AI 模型,具有足够安全、防止 DOS 攻击、加载迅速、支持懒加载、通用性强等优势,现在大部分开源模型会提供这种格式。
2025-04-09
图片生成视频
以下是关于图片生成视频的相关内容: 使用 Runway 生成视频: 1. 图片准备好后,拖到 Runway 里生成 4 秒视频(Runway 收费,可在闲鱼或淘宝买号找免费的)。 2. 进入 Runway 官网首页,点击“start with image”。 3. 直接将图片拖进来。 4. 动画幅度尽量用 3,5 有时会乱跑。 5. 无需等进度条转完,可直接继续往里放图片,能同步执行。 6. 直接点删除,重新上传下面的图即可(最多可放数量可自行测试)。 7. 重复步骤生成所有视频。 使用 Camera Motion 生成视频: 1. 点击“AddImage”上传图片。 2. 在“Prompt”中输入提示词。 3. 选择想要的运镜方向,输入运镜值(https://waytoagi.feishu.cn/docx/Ci9yd5xu2o46rXxNofdcnqH9nXbdoxcniTMBNtWHj6MSpXvB2DTyUh)。 4. 运动幅度和画面主体运动幅度有关,与运镜大小无关,可设置成任意值。 5. 选择好种子(seed)、是否高清(HD Quality)、是否去除水印(Remove Watermark)。 6. 点击“create”生成视频。 使用 Pika 生成视频: 1. 打开 Discord,Pika 的生成视频频道在 Discord 上,点击邀请链接加入频道:https://discord.gg/pika 。 2. 生成第一个视频: 选择一个作画的频道。 输入“/”+指令: /create 为文字生成视频指令。 /animate 为图片生成视频指令。 /encrypt_image 为图片+文字生成视频指令。 选择/create,文字生成视频,输入想要的内容描述。 选择/animate,图片生成视频,输入想要的图片,不能添加其他文字要求描述;或在 message 处输入想要的图片,并在 prompt 处添加描述。 3. Pika 的常用指令参数: gs xx:引导比例,较高的值使其与文本更相关(推荐范围为 8 24)。 neg xxx:负面提示(指定在视频中不希望出现的内容)。 ar xx:xx:宽高比(例如 16:9、9:16、1:1、4:5)。 seed xxx:生成过程中增加一致性的种子数。 motion xx:所需运动强度(仅支持 0/1/2)。 fps xx:视频的帧率。
2025-04-09
通义千问的视频理解模型怎么使用
通义千问的 Qwen2.5VL 视频理解模型具有以下特点和使用方式: 版本:推出 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作,如给指定朋友送祝福、电脑修图、手机订票等。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai
2025-04-09
2025年AI研究报告
以下是为您提供的 2025 年 AI 研究报告相关信息: Gartner:《生成式 AI 时代下科技产品的重要发展机遇》(2024/10/16) 强调了生成式 AI 技术对对话式 AI 和科技产品创新的显著影响。 预计到 2025 年,生成式 AI 将嵌入 80%的对话式 AI 产品中,推动市场营收大幅增长。 建议技术供应商积极把握机遇,通过理解市场动态、技术成熟度和市场接受度来调整策略。 生成式 AI 的四大关键能力—对话式 AI、AI 代理、合成数据和个性化—能够提升产品价值和客户体验。 提出了将生成式 AI 功能添加到产品中的四个关键步骤,并强调了独立软件供应商在企业应用中嵌入生成式 AI 能力的趋势。 如需下载研究报告,。 甲子光年:2025 DeepSeek 开启 AI 算法变革元年(2025/02/05) DeepSeek 的出现标志着算力效率拐点显现,其通过优化算法架构,显著提升了算力利用效率,打破了算力至上的传统认知。 2025 年发布的大模型呈现低参数量特征,为本地化部署到 AI 终端运行提供了可能。 报告强调 2025 年是算法变革的元年,DeepSeek 的推理模型开启了算法变革,其训练过程聚焦于强化学习,提升了模型的推理能力。 非 Transformer 架构的算法模型成为新的发展方向,如 LFM 架构模型性能超越同等规模的 Transformer 模型。 如需下载研究报告,。 安永:数据+AI 开启经验规模化复制时代(2023/12/19) 人工智能正在经历新的发展浪潮。 某头部公司正在转向 AI Agents 支持平台,结合第 4 代人工智能模型与专业语料库以实现业务创新。 AI Agents 有望为商业领域注入新活力,展示人工智能的潜力和商业价值。 随着平台的发展,新的 AI Agents 涌现,提供专业化、高端化、个性化、规模化、持续化的服务。 人工智能的革新涵盖了生成内容(AIGC)和生成服务(AIGS)的领域。 保险行业面临挑战,AI 的突破为其带来新的应对方向。 知识星球下载: 弘则研究:2023 生成式 AI 驱动向量数据库加速发展(2023/12/18) 向量数据库潜在市场空间是传统结构化关系型数据库的数倍达到千亿美元。 据信通院统计数据,全球数据库市场规模在 2020 年为 671 亿美元,到 2025 年有望达到 798 亿美元,CAGR 3.5%估算关系型数据库全球龙头 Oracle 收入规模小几百亿美元。 仅考虑现有非结构化数据的向量化处理,估算需要的存储空间增量为之前的数倍。 未来随着生成式 AI 应用增量数据的爆发对于向量数据库的需求会更大。 报告下载地址:
2025-04-09
提示词学习
提示词的学习是一个系统性的过程,以下为您详细介绍: 一、提示词的知识体系 将提示词学习分为五个维度,从高到低依次是:思维框架、方法论、语句、工具和场景。但对于初学者,舒适的学习顺序应是反过来的。 二、学习顺序 1. 场景:直接切入提示词的场景去学,对比在不同场景下使用提示词的效果。 2. 工具:使用现成的提示词工具,如 Meta Prompt、Al 角色定制等,以及别人写好的成型提示词。 3. 有效语句:学习大量经典论文中明确提出的提示词语句,如早期的 think it step by step。 4. 方法论:把有效语句及其背后的原理整合成稳定可控的方法,自动编写稳定的提示词。 三、具体案例 1. 宝玉日报中提到提示词学习的认知进化路径,从“不会表达”到“过度结构化”再到“高阶简洁”,初学者重“信息提供”,高手重“精准取舍”。 2. 对于 Stable Diffusion 的提示词学习: 学习基本概念,包括了解其工作原理、模型架构,以及提示词如何影响生成结果,掌握提示词组成部分。 研究官方文档和教程,通读官方文档,学习开发团队和专家的分享。 学习常见术语和范例,熟悉相关领域术语,研究优秀的图像标题和描述。 掌握关键技巧,如组合词条精确描述、控制生成权重的符号使用、处理抽象概念等。 进行实践和反馈,尝试生成不同风格和主题的图像,对比分析总结经验。 创建提示词库,按主题、风格等维度建立,记录成功案例。 持续跟进前沿,关注最新更新和社区分享,掌握新技术、新范式、新趋势。 希望以上内容对您学习提示词有所帮助。
2025-04-09
BAAI/bge呢
BGE(BAAI 通用嵌入)是由北京人工智能研究院开发的模型,代表了一些可用的最强大的开源嵌入模型。它擅长捕获跨多种语言和领域的语义关系。 在 Rankify 中,BGE 集成具有以下特点: 支持多种 BGE 模型大小。 具备跨语言检索能力。 为生产环境优化了推理。 在人岗匹配的相似性计算中,如邬嘉文的 AI 求职助手中,使用了 BGEM3 模型,通过 Python 代码实现,具体步骤包括读取相关文件、使用模型计算相似性,并将信息汇总保存。代码如下: ``` import pandas as pd from FlagEmbedding import BGEM3FlagModel 1. 读取 cv.txt 文件 with openas file: cv_content=file.read 2. 读取 JobDetails2.xlsx 文件所有字段 job_details=pd.read_excel 3. 使用 BGEM3 模型计算相似性 model=BGEM3FlagModel cv_embedding=model.encode 计算 cv 与每个 job_description 的相似性 similarities= for job_description in job_details: job_embedding=model.encode similarity=cv_embedding@job_embedding.T similarities.append 4. 将所有信息汇总保存为 123.xlsx job_details=similarities job_details.to_excel ```
2025-04-09