Navigate to WaytoAGI Wiki →
Home/All Questions
想了解AI短视频矩阵
以下是关于 AI 短视频矩阵的相关内容: AI 视频短片工作流: 1. 概念设定:使用 MJ。 2. 剧本+分镜:借助 ChatGPT。 3. AI 出图:可选择 MJ、SD、D3。 4. AI 视频:运用 Runway、pika、PixVerse、Morph Studio。 5. 对白+旁白:使用 11labs、睿声。 6. 音效+音乐:选择 SUNO、UDIO、AUDIOGEN。 7. 视频高清化:利用 Topaz Video。 8. 字幕+剪辑:使用 CapCut、剪映。 使用 Pika、Pixverse、Runway、SVD 四大 AI 视频工具制作短片: 1. 对于不同类型的影片,如科幻片、战争片、奇幻片等,会有相应的特定场景设定。 2. 制作流程包括视频粗剪、视频定剪、音效/音乐、特效、包装(如字幕)等环节。 视频粗剪时,先确定画面逻辑,声音作为部分参考,等画面确定后再制作和精调。粗剪画面无需精美,重在快速把握片子全貌,便于后续调整和替换素材。 视频定剪要将画面素材调整和替换至满意效果。 音效/音乐方面,以剪映为例,其有简单音效库可用于制作简单短片,复杂真实音效可能需另外制作。使用商用音乐要注意版权问题。 特效方面,以剪映为例,虽不会加太多特效,但会添加一些光的效果以弥补 AI 视频生成时吃掉的光影,提升效果。
2024-08-09
可分离卷积
可分离卷积是卷积的一种特殊形式。在深度学习中,卷积具有多种解释和应用。 卷积可以描述信息的扩散,例如在不搅拌时牛奶在咖啡中的扩散,在量子力学中描述测量粒子位置时量子粒子在某个位置的概率,在概率论中描述互相关即重叠的两个序列的相似程度,在统计学中描述标准化输入序列上的加权移动平均值。 卷积滤波器可以被解释为特征检测器,输入针对某个特征进行过滤。图像的互相关可以通过反转核转换为卷积,内核可被解释为特征检测器,检测到特征会导致大输出,没有特征则小输出。 对于深度学习中卷积的哪种解释正确尚不明确,但目前最有用的解释是卷积滤波器作为特征检测器对输入进行过滤以解释图像的互相关。 相关参考资料包括: 图 3:通过在整个图像上滑动图像块来计算卷积。将原始图像(绿色)的一个图像块(黄色)乘以核(黄色斑块中的红色数字),并将其和写入一个特征映射像素(卷积特征中的红细胞)。图片来源:。 图 4:图像的互相关。卷积可以通过反转核(倒置图像)转换为互相关。然后,内核可以被解释为一个特征检测器,其中检测到的特征导致大输出(白色)和小输出(如果没有特征存在)(黑色)。图片取自。 附加材料:
2024-08-09
23个常见的中文数据集
以下是 23 个常见的中文数据集: 1. AlpacaCoT: 地址: 数据集说明:统一了丰富的 IFT 数据(如 CoT 数据,目前仍不断扩充)、多种训练效率方法(如 lora,ptuning)以及多种 LLM,三个层面上的接口,打造方便研究人员上手的 LLMIFT 研究平台。 2. pCLUE: 地址: 数据集说明:基于提示的大规模预训练数据集,用于多任务学习和零样本学习。包括 120 万训练数据,73 个 Prompt,9 个任务。 3. fireflytrain1.1M: 地址: 数据集说明:23 个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为 115 万。 4. BELLEdata1.5M: 地址: 数据集说明:通过 selfinstruct 生成,使用了中文种子任务,以及 openai 的 textdavinci003 接口,涉及 175 个种子任务。 5. Chinese Scientific Literature Dataset 此外,还有用于优化 Llama2 中文能力的数据集,包括: 1. 网络数据:互联网上公开的网络数据,挑选出去重后的高质量中文数据,涉及到百科、书籍、博客、新闻、公告、小说等高质量长文本数据。 2. :中文 Wikipedia 的数据。 3. :中文悟道开源的 200G 数据。 4. :Clue 开放的中文预训练数据,进行清洗后的高质量中文长文本数据。 5. 竞赛数据集:近年来中文自然语言处理多任务竞赛数据集,约 150 个。 6. :MNBVC 中清洗出来的部分数据集。 COIGCQIA 数据集的数据源包括: 1. 社交媒体和论坛:包括知乎、SegmentFault、豆瓣、小红书、弱智吧。 2. 世界知识:百科全书、四个特定领域的数据(医学、经济管理、电子学和农业)。 3. NLP 数据集:COIGPC、COIG Human Value 等。 4. 考试试题:中学和大学入学考试、研究生入学考试、逻辑推理测试、中国传统文化。
2024-08-09
算力是什么?
算力指的是计算能力(Computing Power)。可以简单粗暴地理解为 GPU 就是算力,电脑里的显卡就是 GPU,哪怕购买云服务,也是服务商买显卡“租”给用户用。一张显卡除了 GPU 外,还有一个重要参数是显存,显存用来存储显卡芯片处理过或者即将提取的渲染数据,如同计算机的内存一样,是存储要处理的图形信息的部件。 GPU 的诞生源自对 CPU 的减负,使显卡减少了对 CPU 的依赖,并进行部分原本 CPU 的工作,尤其是在 3D 图形处理时,GPU 所采用的核心技术有硬件 T&L(几何转换和光照处理)、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素 256 位渲染引擎等,而硬件 T&L 技术可以说是 GPU 的标志。GPU 的生产商主要有 NVIDIA 和 ATI。 算力对于 AI 的价值更加直接,NVIDIA 的股价可能就是最直接的例子。算力的提升目前还在性能上(而不是硅片栅漏极间隔的物理尺寸上)继续延续着摩尔定律,但量子隧穿效应普朗克长度的理论限制是 AGI 也无法突破的,因此需要除了工艺尺寸缩小的其他方案。从分析上能看到的几条路可能会有: 1. 继续在硅基上发展:3D 堆叠形态等(需要更好散热)。 2. 材料创新:硅基掺杂、石墨烯片等。 3. 如果再跳脱一些到计算原理的层次,就是量子计算。量子计算目前距离商用可能比可控核聚变还更远,目前的应用方向主要还在量子加密传输上,在“计算”上需要突破的理论和技术都还有不少。 4. 除了计算速度之外,另一个阻碍算力进展的是传输速度:可以想见高速网络会进一步进化、片间链接、片上内存等技术都会有明显的进展。 5. 最后,是能耗和散热问题。这里的明珠是高温超导技术。去年已经有好几篇半造假的“高温超导突破”,今年加上了 AI 或许就会有真的突破。广义机器人也与算力相关。
2024-08-09
音频视频合成
以下是关于音频视频合成的相关知识: 一、开源的 aiauto_v0.1 流程 跑通流程包括小说生成、语音合成、字幕生成、图像生成和视频合成: 1. 小说生成:使用 openai 的 api“gpt40613”模型 prompt 生成小说开篇,并续写至 2000 字左右。 2. 语音合成:使用 pyttsx3 开源库进行文本到语音的生成。 3. 字幕生成:使用开源 whisper 进行语音到文字识别(可输出每个词的开始与结束时间),并处理成字幕。 4. 图像生成:使用 openai 的 api“gpt40613”模型 prompt,进行“字幕文件“的分段,以及生成 dalle3 prompt,并调用 dalle3 api 接口,生成对应图片。 5. 视频合成:将图片、音频、字幕合成视频。 二、语音合成的技术原理 传统的语音合成技术一般会经过以下三个步骤: 1. 文本与韵律分析:先将文本分词,再标明每个字的发音以及重音、停顿等韵律信息,然后提取文本的特征,生成特征向量。 2. 声学处理:通过声学模型将文本特征向量映射到声学特征向量。 3. 声音合成:使用声码器将声学特征向量通过反变换生成声音波形,然后依次拼接得到整个文本的合成语音。在反变换过程中,可以调整参数,从而改变合成语音的音色、语调、语速等。 三、照片数字人工作流及语音合成(TTS)API 出门问问 Mobvoi 1. 调用参数及说明: 字段名“text”:必填,类型为 String,要合成的文本内容,限制为 1000 字符。支持 ssml 标记语言,使用说明见附录 3。 字段名“appkey”:必填,类型为 String,开发者在 AI 开放平台上申请的 appkey。 字段名“signature”:必填,类型为 String,签名,通过“appkey+secret+timestamp”进行 md5 加密,得到的 32 位 MD5 值。其中加号也参与 MD5 的计算。每次请求实时计算签名,签名有效期为 10 分钟。 字段名“timestamp”:必填,类型为 Long,当前时间戳,单位为秒。 字段名“speaker”:否,类型为 String,合成音频指定发音人。默认值:cissy_meet,其他发音人传值及计费价格请参考声音商店。 字段名“audio_type”:否,类型为 String,合成音频的格式。默认值:mp3,可选值:pcm/mp3/speexwb10/wav,只支持这四种格式中的一种。 字段名“speed”:否,类型为 Float,发音人合成的语速,支持小数点后两位。默认值:1.0,可选值:0.5 2.0。 字段名“convert”:否,类型为 String,默认值:无,可选值:robot,是否转化为机器声。
2024-08-09
图表分析ai
以下是关于图表分析 AI 的相关信息: 在专利审查方面,AI 可以分析专利申请中的图像和图表,帮助识别和分类技术内容。 示例平台有: Aulive:利用 AI 技术分析专利中的图像和图表,自动识别技术内容和创新点。 AIpowered image recognition tools:用于专利文献中的图像识别和分析,提高图像处理的效率和准确性。 另外,对于判断一张图片是否为 AI 生成的,现在已有不少网站在做这件事情,通过对大量的图片数据的抓取和分析,给出对画作属性的判断可能性。例如使用 AI 来鉴别 AI 绘图性质的网页:ILLUMINARTY(https://app.illuminarty.ai/)。但在测试过程中,有些结构严谨的真实摄影作品,反而会被识别为 AI 作图。这是因为鉴定 AI 自身的逻辑算法,并不能像人类一样综合去考虑不符合人的逻辑的各种表现。
2024-08-09
如何构建一个专属自己的智能体,用于撰写公司新闻稿,我会长期输入公司信息 请选择几家大模型公司的产品,具体说下操作步骤
以下是一些可用于构建专属智能体以撰写公司新闻稿的平台及操作步骤: 1. Coze:这是新一代的一站式 AI Bot 开发平台,适用于构建基于 AI 模型的各类问答 Bot。它集成了丰富的插件工具,能极大地拓展 Bot 的能力边界。 2. Microsoft 的 Copilot Studio:其主要功能包括外挂数据、定义流程、调用 API 和操作,以及将 Copilot 部署到各种渠道。 3. 文心智能体:百度推出的基于文心大模型的智能体平台,支持开发者根据自身需求打造大模型时代的产品能力。 4. MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机、知识,以及访问第三方数据和服务或执行设计良好的工作流。 5. 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于客服、营销、销售等多种场景,提供多种成熟模板,功能强大且开箱即用。 6. 钉钉 AI 超级助理:依托于钉钉强大的场景和数据优势,提供更深入的环境感知和记忆功能,在处理高频工作场景如销售、客服、行程安排等方面表现出色。 在实际构建和应用智能体时,您可以遵循以下准则: 1. 彻底让自己变成一个“懒人”。 2. 能动嘴的不要动手(用嘴说出您想做的事远比打字来的快)。 3. 能动手的尽量用 AI(用 AI 远比您苦哈哈的手敲要来的快)。 4. 把您手上的工作单元切割开,建设属于自己的智能体。 5. 根据结果反馈不断调整自己的智能体。 6. 定期审视自己的工作流程,看哪个部分可以更多的用上 AI。 您可以根据自己的需求选择适合的平台进行进一步探索和应用。
2024-08-09
如何构建一个专属自己的智能体,用于撰写公司新闻稿,我会长期输入公司信息
构建一个用于撰写公司新闻稿的专属智能体,您可以按照以下步骤进行: 1. 明确需求和目标:确定您希望智能体生成的新闻稿的风格、格式、内容重点等方面的要求。 2. 数据收集与整理:长期输入公司的相关信息,包括但不限于公司的发展历程、业务范围、近期重大事件、领导讲话等。确保数据的准确性、完整性和时效性。 3. 选择合适的技术和平台:有许多自然语言处理和机器学习的框架和平台可供选择,例如 TensorFlow、PyTorch 等。 4. 模型训练:使用收集到的数据对模型进行训练,不断调整参数以提高生成效果。 5. 测试与优化:在训练完成后,进行测试,查看生成的新闻稿是否符合预期,并根据测试结果对模型进行优化。 6. 持续学习与更新:随着公司的发展和信息的变化,持续为智能体提供新的数据,使其能够不断学习和改进。 需要注意的是,构建这样一个智能体需要一定的技术知识和实践经验,如果您不具备相关能力,可能需要寻求专业的技术团队或服务提供商的帮助。
2024-08-09
老照片修复 软件
以下是一些老照片修复软件及相关工具: 【SD】:将图片发送到图生图中,打开 stableSR 脚本放大两倍,切换到 sd2.1 模型进行修复,vae 选择 vqgan,启用 MutiDiffusion 插件。 辅助工具: 视频放大:Kraken.io 主要用于图像压缩,也提供免费图像放大功能,能保证图像细节清晰度;Deep Art Effects 是强大的艺术效果编辑器,通过 AI 技术放大图像并赋予艺术效果,支持多种滤镜和风格。 图片放大:本地工具放大可使用 https://www.upscayl.org/download;SD 放大的扩散模型可增加更多细节;开源工作流有;stability.ai 的 https://clipdrop.co/tools;画质增强可选择 magnific.ai ;Krea 为 https://www.krea.ai/apps/image/enhancer;Image Upscaler 为 https://imageupscaler.com/;佐糖为 https://picwish.cn/photoenhancerapi?apptype=apsbdapi&bd_vid=8091972682159211710;腾讯 ARC 为 https://arc.tencent.com/zh/aidemos/humansegmentation?ref=88sheji.cn,其开源模型能恢复老照片,在线测试地址为 https://replicate.com/tencentarc/gfpgan;美图老照片修复为 https://www.xdesign.com/quality/?channel=sllbd90&bd_vid=11711254260543749686;Imglarger 为 https://imglarger.com/;Let's Enhance 为 https://letsenhance.io/;Waifu2x 为 http://waifu2x.udp.jp/,能够提供图片的放大和降噪功能,使用深度学习技术提高图像质量,保留细节和纹理。 使用 Photoshop Generative AI 功能修复破损老照片,主要工具包括 Remove tool、Clone brush、Generative fill 以及 Neural filters。
2024-08-09
不翻墙就可以使用的写亚马逊产品文案的AI工具有哪些
以下是一些不翻墙就可以使用的用于写亚马逊产品文案的 AI 工具: 1. Jasper.ai:这是一个商业文案写作平台。使用过程为:先选择文案的使用场景,Jasper.ai 会加载对应的模板,然后跟着模板步骤填写文案信息,最后生成完整文案并进行局部调整。 2. 目前市面上还没有专门针对亚马逊产品文案的特定 AI 工具,但一些通用的 AI 写作工具可能会有所帮助,比如利用 AI 进行市场分析、关键词优化、内容生成等方面来辅助撰写亚马逊产品文案。例如,利用 AI 分析工具研究市场趋势、消费者行为和竞争对手情况,获取关键信息;通过 AI 推荐高流量、高转化的关键词来优化产品标题和描述;使用 AI 文案工具撰写有说服力的产品描述和营销文案等。
2024-08-09