Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

你都有什么能力呢?

Answer

我作为 AI 知识专家,具备以下能力:

  1. 作为提示词专家,能将常规的提示词转化为结构化的提示词,并输出符合预期的回复。了解 LLM 的技术原理和局限性,具有丰富的自然语言处理经验,具备迭代优化能力。
  2. 能为您介绍小白参与活动的流程和组队所需的人员类型,如脚本编写、出图、出视频、配音乐、剪辑、统筹等。
  3. 为您讲解扣子提供的基础功能,包括提示词(设定 Bot 身份及回复逻辑)、插件(通过 API 连接集成平台和服务)、工作流(规划和实现复杂功能逻辑)、记忆库(保留和理解对话细节,添加外部知识库),并为您提供相关参考链接。
Content generated by AI large model, please carefully verify (powered by aily)

References

Han:优质Prompts分类精选

|Role名称|作者|版本|描述|prompt|其他|案例||-|-|-|-|-|-|-||提示词专家|pp|2.1|你是一名优秀的Prompt工程师,擅长将常规的Prompt转化为结构化的Prompt,并输出符合预期的回复。|#Role:Prompt工程师<br><br>##Attention:<br>-我总是被老板骂写不出来Prompt,如果你能写出优秀的Prompt会避免让我失业,请认真思考并竭尽全力,拜托了!<br><br>##Profile:<br>-Author:pp<br>-Version:2.1<br>-Language:中文<br>-Description:你是一名优秀的Prompt工程师,擅长将常规的Prompt转化为结构化的Prompt,并输出符合预期的回复。<br><br>###Skills:<br>-了解LLM的技术原理和局限性,包括它的训练数据、构建方式等,以便更好地设计Prompt。<br>-具有丰富的自然语言处理经验,能够设计出符合语法、语义的高质量Prompt。<br>-迭代优化能力强,能通过不断调整和测试Prompt的表现,持续改进Prompt质量。<br>|||

元子:小白的离谱村流水账:第二弹-黑客松准备

来都来了,参加一下活动吧,反正这个活动的核心就是一起动起来做点事,能力就在这个过程中培养了。那么问题来了,要按照自己心意搞个有情节有爆点的离谱村视频出来,咱得经过怎样的步骤嘞?截取上次活动Runway离谱村的流程,可以做个全局了解,我知道你如果是小白,直接看复盘会晕的,所以我这边是傻瓜快乐流程版~~[协作流程](https://waytoagi.feishu.cn/wiki/BVpnws9Fbi3BD0kIXg7cZbP3nhf)[heading2]组个队要啥人呀[content]根据上面的流程图,我数了一下,如果要搞个视频,咱需要6种能力,组队的话嘞,就6个人1.脚本:编造咱讲一个啥样的故事的人2.出图:根据故事不停地根据需求出图改图的人3.出视频:根据出好的图出视频的人4.配音乐:根据出好的视频搞音乐和配音的人5.剪辑:把所有的东西都综合在一起剪辑出片的人6.统筹:在整个过程中催稿、提醒、流程管理的人[heading2]偷偷打广告找队友[content]作为一个喜欢编故事的工具控小白,1和6俺都能干,2-5在AGI工具的加持下,也可以跟着小伙伴一起打磨完善,提升能力。所以这篇东西侧重1和6,2-5也都浅尝辄止可以跑通,大家之后来一起细化。那咱一起来看看我的最小闭环心路历程吧。

功能概述

你可以使用扣子提供的以下功能,定制你的AI Bot:提示词(人设与回复逻辑功能)设定Bot的身份及其目标和技能,例如产品问答助手、新闻播报员、翻译助理等等。Bot的提示词决定了Bot如何与你的用户进行互动。详情请参考[编写提示](https://www.coze.cn/docs/guides/prompt)。插件通过API连接集成各种平台和服务,扩展Bot能力。扣子平台内置丰富的插件供你直接调用,你也可以创建自定义插件,将你所需要的API集成在扣子内作为插件来使用。详情请参考[插件介绍](https://www.coze.cn/docs/guides/create_plugin)。工作流一种用于规划和实现复杂功能逻辑的工具。你可以通过拖拽不同的任务节点来设计复杂的多步骤任务,提升Bot处理复杂任务的效率。详情请参考[工作流介绍](https://www.coze.cn/docs/guides/workflow)。记忆库扣子的记忆库功能可以保留和理解对话细节,并支持添加外部知识库给模型补充知识,使Bot与用户的互动更加有针对性和个性化。你可以通过以下方式来存储和管理外部知识。知识库:支持上传本地或线上内容,然后将这些内容分割成知识分片,通过语义匹配给模型补充知识。详情请参考[知识库介绍](https://www.coze.cn/docs/guides/knowledge)。数据库:用来存储和管理结构化数据,并支持用户通过自然语言方式对数据库中的数据进行增删改查。详情请参考[数据库](https://www.coze.cn/docs/guides/database)。

Others are asking
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
runway属于什么ai能力类型
Runway 是一家总部位于旧金山的 AI 创业公司推出的产品。 在 AI 能力类型方面: 年初爆火,其 Gen2 代表了当前 AI 视频领域最前沿的模型,能够通过文字、图片等方式生成 4 秒左右的视频。 内测能力可根据参考图像进行 Video to Video 视频风格化。 致力于专业视频剪辑领域的 AI 体验,同时也在扩展图片 AI 领域的能力。 11 月 25 日发布新图像生成模型 Frames,专注打造特定美学和视觉氛围,支持细粒度控制“外观、感觉和氛围”,强调“世界构建”,可设计完整的视觉世界,包括场景、氛围、情感等,提供全面的视觉叙事支持。 目前 Runway 支持在网页、iOS 访问,网页端目前支持 125 积分的免费试用额度(可生成约 105 秒视频),iOS 则有 200 多,两端额度貌似并不同步。官方网站:https://runwayml.com/
2025-04-15
runway的能力类型,核心功能
Runway 的能力类型和核心功能包括以下方面: 在 Gen2 模型上推出了较多细节控制能力,并且支持精细数值调节,是当下 AI 视频生成产品中可控性最强的产品。 多笔刷控制局部运动:支持最多 5 个笔刷控制,包括物体运动方向、运动曲线调节。调高 Ambient,笔刷绘制区域物体的运动将和周边环境产生更多关联,并加大运动幅度。 相机控制:支持水平/垂直平移,水平/垂直翻转,镜头缩放/旋转。 Lip Sync Video:支持文本转 TTS 音频、音频文件换音,还有上半年大火的 Lip sync video 对口型能力。 不论是工具栏中不断丰富的音频、视频处理能力,还是 Runway Watch 栏目中的优秀合作案例,都能看出 Runway 一直坚定得在影视制作方向发展。未来若能打通 AI 生成和视频剪辑能力,Runway 未来将对影视制作起到至关重要的作用,成为视频领域必不可少的重要工具。
2025-04-15
2025年人工智能大模型的技术提升有哪些,是参数?推理能力?还是语料
2025 年人工智能大模型的技术提升可能体现在以下几个方面: 1. 视频生成能力:如 2024 年推出的多个先进的 AI 模型能够从文本输入生成高质量视频,相比 2023 年有显著进步。 2. 模型规模与性能:更小的模型能驱动更强的性能,如 2022 年最小能在 MMLU 上得分高于 60%的模型是具有 5400 亿参数的 PaLM,到 2024 年,参数仅 38 亿的微软 Phi3mini 也能达到相同阈值。 3. 推理能力:尽管加入了如思维链推理等机制显著提升了大语言模型的性能,但在一些需要逻辑推理的问题上,如算术和规划,尤其在超出训练范围的实例上,这些系统仍存在问题。 4. AI 代理:在短时间预算设置下,顶级 AI 系统得分高于人类专家,但随着时间预算增加,人类表现会超过 AI。 5. 算法变革:如 DeepSeek 的出现标志着算力效率拐点显现,其通过优化算法架构显著提升了算力利用效率,同时 2025 年发布的大模型呈现低参数量特征,为本地化部署到 AI 终端运行提供了可能,其训练过程聚焦于强化学习,提升了模型的推理能力。
2025-04-14
有哪些针对CoT能力的微调工具
以下是一些针对 CoT 能力的微调工具: 1. Selfconsistency CoT:使用手动设计的 Prompt 生成采样一组不同的推理路径,再通过“多数投票”找到推理步骤中“最一致”的路径,使用这条解码路径驱动原始的贪心解码方式来提示 CoT 性能。 2. MMCoT:侧重使用微调方法嵌入 CoT,通过将语言和图像合并在一个包含推理生成与答案推理的两阶段的框架中,使用微调大模型赋予输入多模态 CoT 的能力。 3. GoTInput 方法:通过对 CoT 生成的思维图进行抽取构建三元组,并使用 GNN 将文本、图像与 CoT 统一,从而生成包含 CoT 信息的最终答案。 4. VCoT:解决了一个输出多模态的问题,通过以生成图片的“标题”以及识别核心关注点作为图像生成的启动过程,通过递归的方式填充图像信息,从而实现输出多模态。 此外,在将 DoT 扩展到预训练的扩散语言模型 Plaid 1B 并在更复杂的推理任务上进行评估时,自回归模型和扩散模型在使用 CoT 或 DoT 进行微调时都显示出显著提高的性能。在微调 Plaid 1B 时,也探索了几种替代方案。 在强化学习驱动的合成数据生成与模型优化流程中,也涉及到 CoT 的相关应用和优化,如初始 CoT 生成、CoT 存储等。
2025-04-12
应用到律师软件的AI能力
以下是应用到律师软件的 AI 能力相关内容: 律师在工作中的优势包括: 1. 在沟通和谈判中能够与客户方、相对方、其他机构建立信任、表达观点、促成交易等。 2. 能够针对新兴行业或监管空白提出合规建议,如为新技术制定合法性指导。 3. 作为专业人士,在紧急情况下能做出专业判断,提供及时的法律建议和解决方案。 律师不擅长的方面有: 1. 处理大量信息和数据,在需要处理大量文本和数据的情况下,人工效率非常有限,如大量文件调查中的数据提取和整理。 2. 处理细节,可能难以记住各类案件中的所有事实和细节,尤其是在复杂案件中。 3. 精力与情绪,在处理复杂案件时,可能会面临情绪、精力、时间等带来的压力,从而影响专业判断。 基于以上,律师和 AI 的协同并非简单相加,而是一种借助互相优势、相互加持的关系。律师在运用大模型这一强大工具时,最关键的任务是根据不同的法律业务场景,精准地提出问题、指令(Prompt),以引导 AI 发挥其最大的效用。 在处理信息检索与整理任务时,律师可以指导 AI 精确抓取相关法律法规、先例判决等关键信息,能够迅速获得案件准备所需的素材,花更多的时间进行法律分析。当需要自动化处理文档时,律师可以指导 AI 生成和修改标准化合同。 在法律领域,生成式 AI 具有文本总结方面的能力。通过使用大模型,律师可以快速总结法律研究报告、实务文章、法学论文以及法律法规,帮助他们更高效地获取核心内容和深度见解。 对于如何认识 AI,作为不具备理工科背景的文科生,可以把 AI 当成一个黑箱,只需要知道它是某种模仿人类思维可以理解自然语言并输出自然语言的东西。驱动 AI 工具和传统道教的驱神役鬼拘灵遣将有奇妙的相似之处,都是通过特定的文字、仪轨程式来引用已有资源,驱使某种可以一定方式/程度理解人类文字的异类达成自己预设的效果,且皆需要面对工具可能突破界限(发疯)的情况。当想让 AI 实现愿望时,基于它的“非人”一面,需要尽可能通过语言文字(足够清晰的指令)压缩它的自由度,不仅要清晰告诉它需要干什么、边界在哪里、目标是什么、实现路径方法是哪一条,最好还直接给到它所需的正确的知识。
2025-04-10