Navigate to WaytoAGI Wiki →
Home/All Questions
创造数字人的ai
以下是关于创造数字人的方法: 1. 生成数字人 在剪映右侧窗口顶部,打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。 选择数字人形象后,软件会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中。剪映会根据之前提供的内容生成对应音视频并添加到视频轨道中。 左下角会提示渲染完成时间,可点击预览按钮查看生成的数字人效果。 2. 增加背景图片 直接删除先前导入的文本内容,因为视频音频已包含文字内容。 点击左上角“媒体”菜单并点击“导入”按钮,选择本地一张图片上传,如书架图片。 点击图片右下角的加号将图片添加到视频轨道(会覆盖数字人)。 点击轨道最右侧竖线向右拖拽,直到与视频对齐。 选中背景图片所在轨道,在显示区域拖动图片角将其放大到适合尺寸,并将数字人拖动到合适位置。 3. 增加字幕 点击文本智能字幕识别字幕,点击开始识别。 软件会自动将文字智能分段并形成字幕。 至此,数字人视频完成。点击右上角“导出”按钮,导出视频备用。 另外,若希望数字人换成自己希望的面孔,则需要用另一个工具进行换脸。结合“一人公司”的愿景,未来的 AI 数字员工会以大语言模型为大脑,串联所有已有工具和新造的 AI 工具。创造者的学习也依照这个方向,用大模型和 Agent 模式把工具串起来,着重关注在创造能落地 AI 的 agent 应用。大模型的开发研究和演进,可交给学术界和大厂。
2024-08-10
国内各大主流AI的特点及优势对比分析,请用表格形式展示
|AI名称|特点|优势| |||| |XiaoHu.AI|提供实时互动学习体验|测试版模型在高中和初中数学问题上的准确率比 GPT4 高 20%,数学推理方面比 GPT4o 高 15%,已被全球 200 多个国家的 40 万名学生使用,创始人是 14 岁考入大学的女学霸| |阿里 CosyVoice 语音合成模型|精细控制、自然模拟、情感和风格|生成符合性别、年龄和个性特征的声音,模拟笑声、咳嗽和呼吸等人类语音自然特征,为声音添加情感和风格,更具表现力| |百度“文心 4.0”|/|是当前国内能力最好的模型之一| |阿里“通义千问” QwenVLMAX 和 Qwen2.0|/|有比较好的指标,与钉钉的结合可圈可点| |字节“云雀”|/|/| |腾讯“混元”|/|/|
2024-08-10
如何能够写好提示词
写好提示词(prompt)需要注意以下几点: 1. 明确任务:清晰定义任务,如写故事时包含背景、角色和主要情节。 2. 提供上下文:若任务需特定背景知识,提供足够信息。 3. 使用清晰语言:尽量简单、清晰,避免模糊或歧义词汇。 4. 给出具体要求:明确格式、风格等要求,如文章遵循特定格式或引用特定文献。 5. 使用示例:如有特定期望结果,提供示例帮助理解需求。 6. 保持简洁:避免过多信息导致模型困惑,生成不准确结果。 7. 使用关键词和标签:有助于模型理解任务主题和类型。 对于律师写好提示词用好 AI 还有以下特殊要求: 1. 先请求用户提供案例洞察报告作为基础材料,并询问文章面向的目标群体。 2. 输出纲要和每一部分的写作方案,让用户检查是否符合要求,重点是操作建议具体、清晰、有帮助,不满意则重新生成。 3. 文字简练精准,有足够信息密度,建议具体细致且易于操作。 4. 对文章中案例进行脱敏,替换具体人物姓名、时间和地点。 5. 深化写作时,每次对话输出文章一个部分,控制各部分字数,组合成高质量、实用的公众号普法文章。 初始化时,使用中文与用户对话,欢迎用户说“十方诸天尊,其数如沙尘,化形十方界,普济度天人。灵机应召来也!”
2024-08-10
SD在哪里下载?
您可以通过以下方式下载 SD: 1. 确保您的整合包版本是最新的秋叶 4.2 整合包(6 月 23 号更新),下载包已更新至云盘,后台回复【SD】即可下载。 2. 进入 SD 的版块,需要下载两个 SD 的 ControlNET 模型和一个预处理器。您可以添加公众号【白马与少年】,回复【SD】获取。获取后,在【QR ControlNET】的文件夹中,后缀为【.yaml】的放在“……\\sdwebuiakiv4.2\\extensions\\sdwebuicontrolnet\\models”这个路径下,后缀为【.safetensors】的放在“……\\sdwebuiakiv4.2\\models\\ControlNet”这个路径下。
2024-08-10
大陆如何使用chatgpt
在大陆使用 ChatGPT 可以参考以下步骤: 1. 注册谷歌账号:国外很多软件支持谷歌账号一键登录,注册谷歌账号可省去日后的部分注册流程。目前注册谷歌账号支持国内手机号码和国内邮箱验证,过程较为简单。 2. 安装 ChatGPT: 对于安卓系统,到谷歌商店搜索“ChatGPT”进行下载安装,开发者是 OpenAI,注意别下错。此步骤可能遇到“google play 未在您所在的地区提供此应用”的问题。经过测试,可按以下路径解决:在 google play 点按右上角的个人资料图标,依次点按:设置>常规>帐号和设备偏好设置>国家/地区和个人资料。若账号没有地区,可以“添加信用卡或借记卡”,国内的双币信用卡即可,填写信息时地区记得选美,最后的结果可参考相关红款标识信息。如果回到 google play 首页还搜不到 chatgpt,可以卸载重装 google play,操作过程保持梯子的 IP 一直是美,多试几次。 3. 关于版本和订阅:目前 ChatGPT 官网有两个版本,一个是 GPT3.5,一个是 GPT4。GPT3.5 是免费版本,拥有 GPT 账号就能使用,但 GPT3.5 的智能程度不如 GPT4 高,且无法使用 DALL.E3(AI 画图功能)和 GPTs 商店和高级数据分析等插件。想要使用更多功能更智能的 GPT4 需要升级到 PLUS 套餐,PLUS 的收费标准是 20 美金一个月。GPT4 还有团队版和企业版,功能更多、限制更少,但费用也更贵,一般推荐使用 PLUS 套餐。
2024-08-10
token 什么意思
在大语言模型领域,Token 通常用来表示文本数据中的一个单元。在不同的语境下,一个 Token 可能代表一个字、一个词,或者是一个句子。在英文中,一个 Token 通常是一个词或者是标点符号。在一些汉语处理系统中,一个 Token 可能是一个字,也可能是一个词。Token 是处理和理解文本数据的基本单元。 在深度学习的语言模型中,如 Transformer,输入的文本首先被切分成一系列的 Tokens。这些 Tokens 被转换成向量,然后被输入到神经网络中进行处理。因此,在这种情况下,Token 可以被理解为语言模型接收和处理的最小的信息单元。在训练过程中,每个 Token 会关联一个预测,这个预测可以是下一个 Token 的预测,也可以是该 Token 的属性预测,如词性、情感等。训练 Token 的数量会影响模型的性能和准确性。更多的训练 Token 通常意味着更多的训练数据,这可能会提升模型的准确性和泛化能力。然而,处理更多的 Token 也会增加计算的复杂性和计算资源的需求。 Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。例如中文中的“你”字对应如下 Unicode 编码:\\u 表示后面是一个 Unicode 编码,它用 16 进制数表示。4F60 转换成 10 进制对应 20320,20320 表示在 Unicode 编码中,第 20320 个编码对应的字是“你”。最后将 20320 转换为 2 进制。有意思的是,Unicode 不仅有自然语言,实际上也包含 emoji 等自然语言之外的符号。这也是为什么 ChatGPT 能理解和回复 emoji 的原因。所以,GPT 实际是将我们输入的文字转换成 Token,然后通过 GPT 模型预测 Token,再将 Token 转换成文字,最后再输出给我们。通过 Token 的学习,我们能感觉到 ChatGPT 理解文本的方式和人类并不相同,它在以自己的方式理解这个世界。 基于上述解释,很多同学把 Token 理解为中文语义里的“字节”,对于这种理解,只能说从类比关系上有一定的相似度,因为“字节”是计算机存储和处理数据的基本单元,而“Token”则是语言模型处理文本信息的基本单元。但这种理解不够准确的地方在于:“Token”在语言模型中的作用比“字节”在计算机中的作用更加复杂和多元。在大语言模型中,“Token”不仅代表文本数据中的一个单位,而且每个“Token”都可能携带了丰富的语义信息。比如,在处理一句话时,“Token”可能表示一个字,一个词,甚至一个短语,这些都可以被认为是语言的基本单元。同时,每个“Token”在模型中都有一个对应的向量表示,这个向量包含了该“Token”的语义信息、句法信息等。另外,如果现在正在浏览这篇帖子的你曾经“机翻”过一些文档的话,你会经常看到“token”被自动翻译工具翻译为“令牌”。
2024-08-10
学会了工作流,怎么变现
以下是关于学会 AI 工作流如何变现的相关内容: AI 工作流就像是一个可视化的拼图游戏,由很多个小块块(节点)组成,这些小块块可以是大语言模型 LLM、自己写的代码、做判断的逻辑等。工作流能将插件、大语言模型、代码块等功能组合在一起,创造出复杂但稳定的业务流程。当面对多步骤且对结果要求严格的任务时,工作流最为合适。 那些熟练掌握 AI 工作流的人,能在原有的工作流程中及时更新工具,应用 GPT5 等强大的能力,实现效率的指数级提升。而未学习 AI 工作流的人会落后,形成强者越强、弱者越弱的马太效应。 通过学会调用外部不同类型 API 来获取模型缺少的额外信息、代码执行能力、访问专有信息源等,比如获取实时天气、联网搜索等。Agentic Workflow 可以从提升效率、提高质量、节省时间的角度思考,它将复杂任务分解为较小步骤,融入更多人类参与的规划与定义,减少对 Prompt Engineering 和模型推理能力的依赖,提高 LLM 应用面向复杂任务的性能,更丰富、更精确。 变现方面,您可以利用工作流提升工作效率,为自己的工作创造更多价值,从而获得更高的收益。例如在一些需要高效处理复杂任务的工作中,凭借高效的工作流获得更多业务机会或更高的薪酬。或者利用工作流开发创新的产品或服务,满足市场需求,实现商业价值。
2024-08-09
什么是大模型语言呢?
大模型语言通俗来讲,是输入大量语料让计算机获得类似人类“思考”能力,从而能够理解自然语言,并进行文本生成、推理问答、对话、文档摘要等工作。 大模型的训练和使用过程可以用“上学参加工作”来类比: 1. 找学校:训练大模型需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练。 2. 确定教材:大模型需要大量数据,几千亿序列(Token)的输入基本是标配。 3. 找老师:用合适算法让大模型更好理解 Token 之间的关系。 4. 就业指导:为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:就业指导完成后,进行如翻译、问答等工作,在大模型里称为推导(infer)。 大模型的架构包括 encoderonly、encoderdecoder 和 decoderonly 三种。encoderonly 通常适用于自然语言理解任务,如分类和情感分析,代表模型是 BERT;encoderdecoder 同时结合 Transformer 架构的 encoder 和 decoder 来理解和生成内容,代表是 google 的 T5;decoderonly 更擅长自然语言生成任务,众多 AI 助手基本采用这种结构,包括 ChatGPT。这些架构都由谷歌 2017 年发布的“attention is all you need”中提出的 transformer 衍生而来。 大模型的“大”体现在: 1. 预训练数据非常大,来自互联网上的论文、代码、公开网页等,最先进的大模型一般用 TB 级别的数据进行预训练。 2. 参数非常多,Open 在 2020 年发布的 GPT3 就已达到 170B 的参数。 简单来说,Prompt 是一套与大模型交互的语言模板,通过它可以输出对大模型响应的指令,指定大模型应做什么、完成什么任务、如何处理具体任务,并最终输出期望的结果。在大模型时代,Prompt 可能成为人机交互的主要方式。
2024-08-09
大学生如何简单的利用AI赚钱
大学生利用 AI 赚钱可以从以下几个方面入手: 1. 关注热门场景:如护肤、健身、穿搭和考编考证等。这些领域是社交媒体上的热门话题,大学生作为主流用户群体,乐于分享和交流相关内容,带动了对相关 AI 应用的关注和使用。 健身方面:AI 应用可实时追踪锻炼进度,呈现效果并提供针对性建议。 穿搭方面:AI 应用能快速展示不同搭配的效果。 考编考证方面:AI 应用能低成本、有针对性地帮助准备考试和面试,提高就业机会。 2. 学习 AI 技术:虽然学习 AI 有可能赚钱,但不保证每个人都能赚到。人工智能领域有很多高薪工作,如数据科学家、机器学习工程师等。掌握 AI 技能可增加就业机会和职业发展可能性,但能否赚钱还取决于个人的学习能力、实际应用能力、对市场和商业的理解等,需要持续学习和实践。
2024-08-09
如何用AI赚钱
以下是一些利用 AI 赚钱的方式和相关工具: 就业方面:人工智能领域有很多高薪工作,如数据科学家、机器学习工程师等。学会 AI 技术,可在金融、医疗、制造业等行业的相关岗位找到工作,获得不错收入。但能否赚钱取决于个人的学习能力、实际应用能力、对市场和商业的理解等,需要持续学习和实践。 工具方面:2023 年,以下 48 个 AI 工具可能帮助您赚钱: AI 研究工具:Claude、ChatGPT、Bing Chat、Perplexity。 图片处理:DallE、Leonardo、BlueWillow、Midjourney。 版权写作:Rytr、Copy AI、Wordtune、Writesonic。 设计:Canva、Clipdrop、Designify、Microsoft Designer。 网站搭建:10Web、Framer、Hostinger、Landingsite。 视频处理:Klap、Opus、Invideo、Heygen。 音频处理:Murf、LovoAI、Resemble、Eleven Labs。 SEO 优化:Alli AI、BlogSEO、Seona AI、Clearscope。 Logo 设计:Looka、LogoAI、Brandmark、Logomaster。 聊天机器人:Droxy、Chatbase、Voiceflow、Chatsimple。 自动化工具:Make、Zapier、Bardeen、Postman。 市场营销:AdCopy、TryPencil、Mailchimp、AdCreative。
2024-08-09