Navigate to WaytoAGI Wiki →

Home/Question List/Question Detail

大模型生成UI方向进展

Answer

根据搜索结果，大模型在生成 UI 设计方面取得了以下进展：

出现了专门针对 UI 设计的生成式 AI 工具，如"即时 AI"。这类工具可以根据文字描述快速生成可编辑的 UI 设计稿，大大提高了设计效率。
国内外都有相关的大模型产品在发展，如 OpenAI 的 GPT-4、百度的文心一言等。这些大模型在理解语义、生成内容等方面不断进步，为 UI 设计工具提供了强大的基础能力。
新一代的生成式 UI 设计工具，如 Galileo AI，已经开始支持对生成结果进行自定义样式调整，如颜色、字体、圆角等。这种交互式的设计流程更符合实际需求。
大模型生成 UI 设计的方向正在从单纯的内容生成，向交互式的设计协作模式发展。用户可以通过对话方式不断优化设计，大大提高了设计质量。
总的来说，大模型技术正在推动 UI 设计工具从静态内容生成向动态、可交互的方向发展。未来设计师可以更高效地利用 AI 辅助完成设计工作。

综上所述，大模型在 UI 设计领域取得了显著进展，为设计师提供了更强大的创作工具和方法。这一趋势值得持续关注和研究。

Content generated by AI large model, please carefully verify (powered by aily)

References

质朴发言：大模型时代的产品长啥样&壁垒在哪？｜Z 沙龙第 2 期

手把手教你本地部署大模型以及搭建个人知识库

教程：深入浅出完整解析Stable Diffusion（SD）核心基础知识 - 知乎

红杉：生成式AI的第二阶段

生成式人工智能领域的 4 个突破点

最近招聘信息-持续更新中

Others are asking

comfyui工作流

ComfyUI 工作流主要包括以下内容： FLUX 低显存运行工作流：目的是让 FLUX 模型能在较低的显存情况下运行。分阶段处理思路为：先在较低分辨率下使用 Flux 模型进行初始生成，然后采用两阶段处理，即先用 Flux 生成，后用 SDXL 放大，有效控制显存的使用，最后使用 SD 放大提升图片质量。工作流的流程包括初始图像生成（Flux）的一系列操作，如加载相关模型、处理输入提示词、生成初始噪声和引导等，以及初始图像预览；图像放大和细化（SDXL）的一系列操作，如加载 SDXL 模型、对初始图像进行锐化处理等，还有最终图像预览。工作流网站： “老牌”workflow 网站 Openart.ai：https://openart.ai/workflows/ 。流量比较高，支持上传、下载、在线生成，免费账户总共有 50 个积分，加入 Discord 可以再加 100 积分，开通最低的每个月 6 美元的套餐后，每个月会有 5000 积分。 ComfyWorkflows 网站：https://comfyworkflows.com/cloud 。支持在线运行工作流，从 workflow 的实际下载量和访问量来看，略少于 openart。 Flowt.ai：https://flowt.ai/community 。绿幕工作流：包含两个组，即生成绿幕素材和绿幕素材抠图。因为 SD 无法直接生成透明背景的 png 图片，所以要先生成一张素材图，前景是重要的主体素材，背景是纯色（方便识别），选择绿幕是为了方便抠图。工作流文件可通过链接 https://pan.quark.cn/s/01eae57419ce 提取（提取码：KxgB），下载拖入 ComfyUI 中自动加载工作流进行学习。

ComfyUI 是一个基于节点流程式的 stable diffusion AI 绘图工具 WebUI，类似于集成了 stable diffusion 功能的 substance designer，通过将 stable diffusion 的流程拆分成节点，实现了更精准的工作流定制和完善的可复现性。其优势包括： 1. 对显存要求相对较低，启动速度快，出图速度快。 2. 具有更高的生成自由度。 3. 可以和 webui 共享环境和模型。 4. 可以搭建自己的工作流程，可以导出流程并分享给别人，报错时能清晰发现错误所在步骤。 5. 生成的图片拖进后会还原整个工作流程，模型也会选择好。劣势有： 1. 操作门槛高，需要有清晰的逻辑。 2. 生态没有 webui 多（常用的都有），也有一些针对 Comfyui 开发的有趣插件。官方链接：从 github 上下载作者部署好环境和依赖的整合包，按照官方文档按照即可：https://github.com/comfyanonymous/ComfyUI 。安装部署方面： 1. 地址：https://github.com/comfyanonymous/ComfyUI ，可以下载安装包也可以直接 Git clone https://github.com/comfyanonymous/ComfyUI.git ，或者下载安装包 file:ComfyUI.zip ，下载安装包或者点击链接下载并解压至本地除 C 盘外的任意盘。然后找到文件名称为 run_nvidia_gpu 的文件双击并启动。启动完成即进入基础界面。 2. 节点存放目录：comfyUI 的节点包括后面安装的拓展节点都存放在本目录下 D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\custom_nodes 。 3. 模型存放目录：大模型：D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\checkpoints 。 Lora：D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\loras 。 Vae：D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\vae 。 4. 模型共用：已经安装了 SDWebUI 的同学可以通过修改文件路径和 WebUI 共用一套模型即可，这样就不用重复下载模型了。找到已安装好的 ComfyUI 目录文件下的 extra_model_paths.yaml.example 文件，将后缀.example 删除，然后右键用记事本打开。此外，还可以直接在 Comfy UI 中训练 LoRA 模型。

ComfyUI 是一个基于节点流程式的 stable diffusion AI 绘图工具 WebUI，可想象成集成了 stable diffusion 功能的 substance designer，将 stable diffusion 流程拆分成节点，实现更精准工作流定制和完善的可复现性。其优势包括： 1. 对显存要求相对较低，启动和出图速度快。 2. 生成自由度更高。 3. 可以和 webui 共享环境和模型。 4. 能搭建自己的工作流程，可导出流程并分享，报错时能清晰发现错误所在。 5. 生成的图片拖进后会还原整个工作流程，模型也会选择好。劣势有： 1. 操作门槛高，需要有清晰逻辑。 2. 生态没有 webui 多（但常用的都有），也有一些针对 Comfyui 开发的有趣插件。官方链接：https://github.com/comfyanonymous/ComfyUI 。安装部署方面： 1. 地址：https://github.com/comfyanonymous/ComfyUI ，可以下载安装包也可以直接 Git clone https://github.com/comfyanonymous/ComfyUI.git ，或者下载安装包 file:ComfyUI.zip ，下载安装包或者点击链接下载并解压至本地除 C 盘外的任意盘。然后找到文件名称为 run_nvidia_gpu 的文件双击并启动，启动完成即进入基础界面。 2. 节点存放目录：comfyUI 的节点包括后面安装的拓展节点都存放在 D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\custom_nodes 。 3. 模型存放目录：大模型：D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\checkpoints 。 Lora：D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\loras 。 Vae：D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\vae 。 4. 模型共用：已经安装了 SDWebUI 的同学可以通过修改文件路径和 WebUI 共用一套模型，找到已安装好的 ComfyUI 目录文件下的 extra_model_paths.yaml.example 文件，将后缀.example 删除，然后右键用记事本打开。此外，还可以直接在 Comfy UI 中训练 LoRA 模型。默认情况下，训练结果直接保存在 ComfyUI lora 文件夹中，训练后只需刷新并选择 LoRA 就可以测试。

comfyui漫画工作流

ComfyUI 漫画工作流包含以下内容： 1. 绿幕工作流：包含两个组，即生成绿幕素材和绿幕素材抠图。因为 SD 无法直接生成透明背景的 png 图片，所以要先生成一张素材图，前景是重要的主体素材，背景为纯色（方便识别），选择绿幕是为了便于抠图。工作流文件链接：https://pan.quark.cn/s/01eae57419ce 提取码：KxgB 2. 动画工作流：啊朔提供的动画工作流文件，如：

comfyui动画片工作流怎么构建

构建 ComfyUI 动画片工作流的步骤如下： 1. 打开 Comfyui 界面后，右键点击界面，找到 Comfyui LLM party 的目录。您可以学习手动连接节点来实现最简单的 AI 女友工作流，也可以将工作流文件拖拽到 Comfyui 界面中一键复刻提示词工程实验。 2. 从 ollama 的 github 仓库找到对应版本并下载。启动 ollama 后，在 cmd 中输入 ollama run gemma2 将自动下载 gemma2 模型到本地并启动。将 ollama 的默认 base URL=http://127.0.0.1:11434/v1/以及 api_key=ollama 填入 LLM 加载器节点即可调用 ollama 中的模型进行实验。 3. 若 ollama 连接不上，很可能是代理服务器的问题，请将 127.0.0.1:11434 添加到不使用代理服务器的列表中。此外，还有以下相关工作流搭建的信息供您参考： 1. 搭建艺术二维码工作流：打开 ComfyUI 导入相应工作流。工作流所用到的节点包括大模型节点（可选择如 AWPainting、primemixanything、xxmix9realistic v40 等，并提供了相应链接）、关键词节点、Lora 节点、ControlNet 节点（选用 qrcode_monster V2 版本，下载链接：https://huggingface.co/monsterlabs/control_v1p_sd15_qrcode_monster/tree/main/v2 ）、采样器节点（Step 选择高步数，35 50 即可，采样器默认的 euler a/dpmpp 2m sde ）。 2. 搭建 ComfyUI 基础工作流：从零开始搭建时，首先准备加载大模型的节点，在工作区鼠标右键点击，选择 Add Node > 选择 loaders > 选择 Load Checkpoint，并选择对应的模型。然后加载 Conditioning（条件），在工作区鼠标右键点击，选择 Add Node > 选择 Conditioning > 选择 CLIP TEXT Encode，输入正反向提示词。添加采样器时，部分参数设置与 WEB_UI 有所不同，如 seed 值只有固定、随机、每次增加、每次减少这四个选项，采样器和调度器是分开的。

怎样用ai创建精美的ui/ux原型图

以下是一些利用 AI 创建精美的 UI/UX 原型图的方法： 1. 利用 Agent 构建：通过基本的产品和运营概念，利用 Agent 构建完整的产品、架构、UX 设计文档集，并通过多次的 rerun 输出，进行多个 UI 方案的概念探索。一个 flow 能帮助产品经理一次性完成 idea 的脑暴、打磨、市场调研、竞争力分析、功能设计、架构、UE/UI 规范，到完成可交互的高保真原型，并且可以不断产出不同的 UX 原型供内部比较和概念用研。 2. 使用 Midjourney 进行 UI 设计：直播礼物风格图标：在素材网站上找到喜欢的 icons 风格，然后喂图给机器人，并加上关键词，如“Gift icon, cartoon style, solid color background luminous effect, 3d –iw 1 –v 5 –q 2”，其中“Gift icon”可替换为其他关键词，如“beer icon”“Headphone icon”等。主题应用 icons：关键词如“icon design, light texture, glow, Dribbble, 3D, frosted glass effect, 3D, ui, ux, –upbeta –q 2 –v 4”。 B 端图标：关键词如“喂图+A data icon, blue gradient frosted glass, frosted glass building, white transparent technology sense white city building scene, data line link, chip, OCrenderer, big data, industrial machinery, high detailight gray background with simple linear details, studio lighting, 3d, c4d, pure white background, 8k”。

大模型的系统提示词

大模型的系统提示词主要包括以下方面： 1. 在“五津：一键生成‘摸鱼打工猫’视频”中，针对用户选择的主题和回答，总结用户的创作意图，如“打工猫摸鱼的 2 小时，在巴厘岛能看一场日落”，并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词，以数组形式输出到“tishici”，将用户意图输出到“biaoti”。 2. 在“云中江树：智能对决：提示词攻防中的 AI 安全博弈”中，系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意；模型侧对于有能力的厂商应增强安全性并平衡性能，开发者则要在开发中带着安全意识优化系统提示词，加入安全引导和禁止内容等；输出侧可使用传统防御和内容过滤手段，并针对大模型特点进行私有数据泄露等检查。此外，还提到间接注入和提示词泄露的情况，间接注入常发生在应用获取依赖外部数据资源时，攻击者通过隐藏恶意指令完成攻击；提示词泄露指试图操纵模型输出获取部分或全部系统提示词，大模型输出内容可分为系统提示词、用户提示和助手提示词三段，通过攻击手段可获取系统提示词。

通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash，这3个视觉理解大模型哪个最厉害？

以下是对通义千问 Qwen2.5VL 模型的介绍：版本：有 3B、7B 和 72B 三个尺寸版本。主要优势：视觉理解能力：在 13 项权威评测中夺得视觉理解冠军，全面超越 GPT4o 与 Claude3.5。视频理解能力：支持超 1 小时的视频理解，无需微调即可变身为 AI 视觉智能体，实现多步骤复杂操作。万物识别：擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。精准的视觉定位：采用矩形框和点的多样化方式对通用物体定位，支持层级化定位和规范的 JSON 格式输出。全面的文字识别和理解：提升 OCR 识别能力，增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析：设计了更全面的文档解析格式，称为 QwenVL HTML 格式，能够精准还原文档中的版面布局。增强的视频理解：引入动态帧率（FPS）训练和绝对时间编码技术，支持小时级别的超长视频理解，具备秒级的事件定位能力。开源平台： Huggingface：https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope：https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat：https://chat.qwenlm.ai 然而，对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型，目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容，因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看，其在视觉理解方面具有较强的能力和优势。

目前全世界最厉害的对视频视觉理解能力大模型是哪个

目前在视频视觉理解能力方面表现出色的大模型有： 1. 昆仑万维的 SkyReelsV1：它不仅支持文生视频、图生视频，还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL：在 13 项权威评测中夺得视觉理解冠军，全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解，无需微调即可变身为 AI 视觉智能体，实现多步骤复杂操作。擅长万物识别，能分析图像中的文本、图表、图标、图形和布局等。

目前全世界最厉害的视频视觉理解大模型是哪个

目前全世界较为厉害的视频视觉理解大模型有以下几个： 1. 昆仑万维的 SkyReelsV1：不仅支持文生视频、图生视频，是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元：语义理解能力出色，能精准还原复杂的场景和动作，如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5：全球最快的 AI 视频生成模型，Turbo 模式下可在 10 秒内生成视频，最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能，具备顶尖动漫生成能力。

目前全世界最厉害的视觉理解大模型是哪个

目前在视觉理解大模型方面，较为突出的有 DeepSeek 的 JanusPro 模型，它将图像理解和生成统一在一个模型中；还有通义千问的视觉理解模型，其价格有较大降幅。此外，Pixverse V3.5 是全球最快的 AI 视频生成模型，在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型，因为这取决于不同的评估标准和应用场景。

大模型对话产品的优劣

大模型对话产品具有以下优点： 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验，具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接，产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务，适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景，如私有领域知识问答、个性化聊天机器人、智能助手等。大模型对话产品也存在一些缺点： 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情，全靠用户脑补，导致用户上头期短，疲劳度高，长期留存低。 3. 无法回答私有领域问题（如公司制度、人员信息等）。 4. 无法及时获取最新信息（如实时天气、比赛结果等）。 5. 无法准确回答专业问题（如复杂数学计算、图像生成等）。

生成提示词的提示词

以下是关于生成提示词的相关内容：生成提示词的思路和方法：可以根据效果好的图片中的高频提示词去反推效果，结合不同字体效果的描述，打包到一组提示词中。提示词给到 AI 后，AI 会根据给定文字的文义，判断适合的情绪风格，然后给出适合情绪的字体和风格描述、情感氛围等，加上一些质量/品质词，形成输出提示词结构。为了让 AI 更能描述清晰风格，可以先给定多种参照举例。具体操作步骤：打开 AI 工具的对话框，将相关提示词完整复制粘贴到对话框。推荐使用 ChatGPT 4o。当 AI 回复后，发送您想要设计的文字。可以仅发送想要的文字，也可以发送图片（适合有多模态的 AI）让 AI 识别和反推。将 AI 回复的提示词部分的内容复制到即梦 AI。对生成提示词的一些观点：提示词生成提示词并非必要，不一定能生成最好的 Prompt 框架，修改过程可能耗时且不一定能修改好，不如花钱找人写。一句话生成完整符合需求的 Prompt 非常困难，只能大概给出框架和构思，需要更低成本地调整需求和修改 Prompt。不同生图工具生成提示词的特点：即使是简短的描述，生成的提示词也非常细节、专业。会解析需求，找出核心要点和潜在的诠释点，并给出不同的提示词方案。提示词构建更多在于增强，而不是发散，生成的内容更符合期望。同时生成中、英双版本，国内外工具通用无压力。 14 款 AI 生图工具实测对比：本次实测用到的工具包括国内版的即梦 3.0（https://jimeng.jianying.com/aitool/home）、WHEE（https://www.whee.com）、豆包（https://www.doubao.com/chat）、可灵（https://app.klingai.com/cn/texttoimage/new）、通义万相（https://tongyi.aliyun.com/wanxiang/creation）、星流（https://www.xingliu.art）、LibiblibAI（https://www.liblib.art），以及国外版的相关工具。

有没有能根据描述，生成对应的word模板的ai

目前有一些可以根据描述生成特定内容的 AI 应用和方法。例如：在法律领域，您可以提供【案情描述】，按照给定的法律意见书模板生成法律意见书。例如针对商业贿赂等刑事案件，模拟不同辩护策略下的量刑结果，对比并推荐最佳辩护策略，或者为商业合同纠纷案件设计诉讼策略等。在 AI 视频生成方面，有结构化的提示词模板，包括镜头语言（景别、运动、节奏等）、主体强化（动态描述、反常组合等）、细节层次（近景、中景、远景等）、背景氛围（超现实天气、空间异常等），以及增强电影感的技巧（加入时间变化、强调物理规则、设计视觉焦点转移等）。一泽 Eze 提出的样例驱动的渐进式引导法，可利用 AI 高效设计提示词生成预期内容。先评估样例，与 AI 对话让其理解需求，提炼初始模板，通过多轮反馈直至达到预期，再用例测试看 AI 是否真正理解。但需要注意的是，不同的场景和需求可能需要对提示词和模板进行针对性的调整和优化，以获得更符合期望的 word 模板。

如何自动生成文案

以下是几种自动生成文案的方法： 1. 基于其它博主开源的视频生成工作流进行优化：功能：通过表单输入主题观点，提交后自动创建文案短视频，创建完成后推送视频链接到飞书消息。涉及工具：Coze 平台（工作流、DeepSeek R1、文生图、画板、文生音频、图+音频合成视频、多视频合成）、飞书（消息）、飞书多维表格（字段捷径、自动化流程）。大体路径：通过 coze 创建智能体，创建工作流，使用 DeepSeek R1 根据用户观点创建文案，再创建视频；发布 coze 智能体到飞书多维表格；在多维表格中使用字段捷径，引用该智能体；在多维表格中创建自动化流程，推送消息给指定飞书用户。 2. 生成有趣的《图文短句》：实现原理：先看工作流：包括第一个大模型生成标题、通过“代码节点”从多个标题中获取其中一个（可略过）、通过选出的标题生成简介、通过简介生成和标题生成文案、将文案进行归纳总结、将归纳总结后的文案描述传递给图像流。再看图像流：包括提示词优化、典型的文生图。最终的 Bot 制作以及预览和调试。 3. 腾讯运营使用 ChatGPT 生成文案：步骤：通过 ChatGPT 生成文案，将这些文案复制到支持 AI 文字转视频的工具内，从而实现短视频的自动生成。市面上一些手机剪辑软件也支持文字转视频，系统匹配的素材不符合要求时可以手动替换。例如腾讯智影的数字人播报功能、手机版剪映的图文成片功能。这类 AI 视频制作工具让普罗大众生产视频变得更轻松上手。

如何通过输入一些观点，生成精彩的口播文案

以下是通过输入观点生成精彩口播文案的方法： 1. 基于其它博主开源的视频生成工作流进行功能优化，实现视频全自动创建。效果展示：可查看。功能：通过表单输入主题观点，提交后自动创建文案短视频，并将创建完成的视频链接推送至飞书消息。涉及工具：Coze平台（工作流、DeepSeek R1、文生图、画板、文生音频、图+音频合成视频、多视频合成）、飞书（消息）、飞书多维表格（字段捷径、自动化流程）。大体路径：通过 coze 创建智能体，创建工作流，使用 DeepSeek R1 根据用户观点创建文案，再创建视频。发布 coze 智能体到飞书多维表格。在多维表格中使用字段捷径，引用该智能体。在多维表格中创建自动化流程，推送消息给指定飞书用户。 2. 智能体发布到飞书多维表格：工作流调试完成后，加入到智能体中，可以选择工作流绑定卡片数据，智能体则通过卡片回复。选择发布渠道，重点是飞书多维表格，填写上架信息（为快速审核，选择仅自己可用），等待审核通过后即可在多维表格中使用。 3. 多维表格的字段捷径使用：创建飞书多维表格，添加相关字段，配置后使用字段捷径功能，使用自己创建的 Coze 智能体。表单分享，实现填写表单自动创建文案短视频的效果。 4. 自动化推送：点击多维表格右上角的“自动化”，创建所需的自动化流程。另外，伊登的最新 Deepseek+coze 实现新闻播报自动化工作流如下：第一步是内容获取，只需输入新闻链接，系统自动提取核心内容。开始节点入参包括新闻链接和视频合成插件 api_key，添加网页图片链接提取插件，获取网页里的图片，以 1ai.net 的资讯为例，添加图片链接提取节点，提取新闻主图，调整图片格式，利用链接读取节点提取文字内容，使用大模型节点重写新闻成为口播稿子，可使用 Deepseek R1 模型生成有吸引力的口播内容，若想加上自己的特征，可在提示词里添加个性化台词。

小红书图文批量生成

以下是关于小红书图文批量生成的详细内容：流量密码！小红书万赞英语视频用扣子一键批量生产，这是一个保姆级教程，小白都能看得懂。原理分析：决定搞之后，思考生成这种视频的底层逻辑，进行逆推。这种视频由多张带文字图片和音频合成，带文字图片由文字和图片生成，文字和图片都可由 AI 生成，音频由文字生成，文字来源于图片，也就是说，关键是把图片和文字搞出来。逻辑理清后，先找好看的模版，未找到好看的视频模版，最后看到一个卡片模版，先把图片搞出来，才有资格继续思考如何把图片变成视频，搞不出来的话，大不了不发视频，先发图片，反正图片在小红书也很火。拆模版：要抄这种图片，搞过扣子的第一反应可能是用画板节点 1:1 去撸一个，但扣子的画板节点很难用，Pass 掉。用 PS 不行，太死板不灵活，html 网页代码可以，非常灵活。经过 2 个多小时和 AI 的 battle，用 html 代码把图片搞出来了。这里不讲代码怎么写，直接抄就行。要抄，首先要学会拆，不管用什么方式批量生成这样的图片，都必须搞清楚里面有哪些是可以变化的参数，也就是【变量】，如主题、主题英文、阶段、单词数、图片、正文、翻译、普通单词、重点单词等。想方法：大概知道批量生成这样的图片需要搞清楚哪些参数，图片用 html 代码搞出来了。但问题是视频怎么搞，这种视频由多张不同的【带文字的图片】生成，比如读到哪句，哪句就高亮起来，图片也可以随着读到的句子变更。最后，视频就是用这样的图片一张张拼起来的。

ai如何什么生成表格

AI 生成表格通常可以通过以下技术实现： 1. 利用变分自编码器（VAEs）和序列到序列模型（Seq2Seq）等技术生成表格文件、表格公式，并清理、创建、转换和分析表格中的文本数据，例如表格结构设计、数据分析表、表格自动化等。 2. 借助一些办公软件中的 AI 插件，如飞书中的相关插件，先通过 AI 理解图片中的内容并填充到表格列中，然后利用自带插件总结生成相关指令。此外，在多模态数据生成中，结构化数据生成包括表格生成，多模态合成数据从大类来看有非结构化数据（图片、视频、语音等）和结构化数据（表格等）两大类。非结构化数据生成包括文本生成、图像生成、音频和语音生成、视频生成、3D 生成、合成数据生成等。

目前deepseek的进展

目前 DeepSeek 的进展如下：持续 5 天的“开源周”已进行到第 3 天。周一开源了专为英伟达 Hopper GPU 打造的高效 MLA 解码内核 FlashMLA，已正式投产使用。周二开源了专为混合专家系统（MoE）和专家并行（EP）设计的通信库 DeepEP。周三开源了支持稠密和 MoE 模型的 FP8 GEMM（通用矩阵乘法）计算库 DeepGEMM，可为 V3/R1 的训练和推理提供强大支持。总的来说，英伟达和 DeepSeek 开源的内容都是通过对英伟达 GPU 和集群的优化，来推动 AI 模型的高效计算和部署。华尔街分析师对 DeepSeek 的反应：展示出媲美领先 AI 产品性能的模型，但成本仅为其一小部分，在全球主要市场的 App Store 登顶。Jefferies 警告其技术可能打破资本开支狂热，Citi 对其技术突破提出质疑。高盛预测其可能改变科技巨头与初创公司的竞争格局，降低 AI 行业进入门槛。 DeepSeek 的实际使用体验：在文字能力上表现突出，尤其在中文场景中高度符合日常、写作习惯，但在专业论文总结方面稍弱。数学能力经过优化，表现不错；编程能力略逊于 GPT，据用户反馈。GRPO 算法替代传统 PPO，降低价值函数估计难度，提高语言评价场景的灵活性与训练速度。

上一周 ai有什么新的进展

以下是上一周 AI 的一些新进展：应用形态的重构方面，AI Agent 取得突破，为机器人赋予自主行动能力，AI 编程工具的进展或预示人机协作模式的变革。 2 月，OpenAI 发布视频生成模型 Sora，实现高质量文本生成视频，开创 AI 视频生成新纪元。 3 月，Suno 发布 V3 版本，AI 音乐生成进入生产力可用状态。 4 月，Meta 发布高性能开源大模型 Llama3，降低了 AI 技术的准入门槛。 5 月，GPT4 发布，RayBan 与 Meta 合作的智能眼镜销量突破百万，字节上线即梦 AI。 6 月，快手发布可灵，Apple Intelligence 发布。 9 月，OpenAI 发布 o1 预览版。 10 月，Rosetta 和 AlphaFold 算法的研发者因在蛋白质结构设计和预测中的突破性贡献获得诺贝尔化学奖，约翰·霍普菲尔德和杰弗里·辛顿因人工神经网络和深度学习的开创性贡献获诺贝尔物理学奖，Anthropic 大模型 Claude 3.5 Sonnet 获得“computer use”功能。 12 月，OpenAI 发布 o3 系列模型。此外，还有一些关于 AI 的讨论和话题，如把 350 万条 Midjourney 提示词放进一张可视化图里，2 套权威的 AI 术语表，天工新功能的定位靠近元宇宙，NotebookLM 与 AI 播客的关系，Bob 类似于更轻巧的能选多种大模型的桌面端应用“豆包”，Monica.im 的发展，物圆 TreLoop 的情况，对 AGI 距离的讨论，Arc 浏览器的状态，李开复关于 AI 应用爆发和 AGI 的观点，李继刚的 Prompt 玩法，OpenAI 研究副总裁离职，15 岁开发者的开源项目被收购，关于 AI 编程效率的讨论等。

请推荐最新的AI相关进展新闻

以下是一些最新的 AI 相关进展新闻：在医疗领域： ChatGPT 和 Google Bard 等技术极大加速了医疗健康生物制药的研究，AI 在抗癌、抗衰老、早期疾病防治等方面发挥着重要作用。例如，AI 提前三年诊断胰腺癌；两名高中生与医疗技术公司合作发现与胶质母细胞瘤相关的新靶基因；AI 帮助抗衰老，筛查出高效的药物候选物；利用 AI 寻找阿尔兹海默症的治疗方法；使用神经网络分析患者体液中的生物标志物以早期诊断帕金森。在技术应用方面： AI Agent 的突破让行业看到更多可能性，如机器人获得自主行动能力。AI 编程工具的进展预示着人机协作模式的变革。 2024 年 AI 关键进展时间线包括：2 月 OpenAI 发布视频生成模型 Sora；3 月 Suno 发布 V3 版本；4 月 Meta 发布高性能开源大模型 Llama3；5 月 GPT4 发布等。赛博月刊显示，AI 音频公司在效果和延迟方面取得突破，3D 世界生成领域处于初级阶段但有望在明年取得巨大进步，AI 应用的更新集中在搜索、知识库、编程等领域，越来越多应用公司受到资本青睐。

transformer是通往AGI的必经之路吗？什么是世界模型，当前有哪些进展

Transformer 并非通往 AGI 的必经之路。在已知的 token space 中，Transformer 符合一些条件，但在更通用的场景中不太符合。AI 本质包含一堆 scaling law，一个值得被 scale up 的架构是基础，且架构要支持不断加入更多数据。当前在数据方面，如限定问题的数据生成有进展，但通用问题还没有完全的解法。世界模型方面，目前的研究正在以指数级别的速度增长。对于语言这种有结构、有规则的指令系统，其逻辑受指向描述变化，如早期语言模型建模中用到的 RNN、LSTM 及当前 LLM 的 Transformer 模型结构，都是对语言序列性所体现逻辑结构的适配。同时也在思考是否存在其他形式的符号化表征及相应的建模结构，以及对于非碳基生物语言的使用情况等。未来通往 AGI 的道路并非简单，需要探寻 RL 与 LLM 的本质普遍性。

请帮我整理关于AI最新进展和应用的介绍内容

以下是关于 AI 最新进展和应用的介绍：医疗领域： ChatGPT 和 Google Bard 等技术极大加速了医疗健康生物制药的研究。AI 在抗癌、抗衰老、早期疾病防治等方面发挥着重要作用。提前三年诊断胰腺癌。两名高中生与医疗技术公司合作发现与胶质母细胞瘤相关的新靶基因。帮助抗衰老，筛查超过 80 万种化合物发现高效药物候选物。用于寻找阿尔兹海默症的治疗方法。帮助早期诊断帕金森。法律法规方面： AI 在许多领域已经取得重大进展和效率提升，如交通监控、银行账户欺诈检测、工业大规模安全关键实践等。 AI 具有巨大的潜力来改变社会和经济，可能产生与电力或互联网相当的影响。大型语言模型等技术进步带来了变革性的发展机会。基础通识课方面：流式训练方式提升了训练速度和质量，基于 Transformer 模型进行流匹配优于扩大模型。有多种 AI 生成工具，如能创作音乐的 so no 音频生成工具、创建个人 AI 智能体的豆包、生成播客的 Notebook LN。端侧大模型能部署在手机端等设备，通过压缩解决存储和性能问题。 AI 工程平台对模型和应用有要求，如 define 平台，coach 平台有新版本模板和众多插件工具，还有工作流。有魔搭社区等为大模型提供服务的平台。预告了 AI 建站，需安装基础软件帮助文科生和无基础人员建站。

新手如何更好使用该网站，主要了解人工智能或者AGI进展，主流软件的学习和应用

对于新手想要更好地使用该网站来了解人工智能或 AGI 进展以及主流软件的学习和应用，以下是一些相关内容： AE 软件：基本功能：可通过图层软件抠元素加插件做特效，如利用 auto field 自动填充工具，轨道遮罩功能让图层按特定形状变化等。与 AI 结合运用：如用 runway 生成烟花爆炸素材，结合 AE 的图层混合模式、遮罩等功能实现特效可控的画面。其他应用：用内容识别填充功能处理视频画面，如抹掉入镜的人；从素材网站获取粒子素材为画面添加氛围感。学习路径：可在 B 站找丰富的 AE 软件入门课程自学，也可从包图网下载工程文件学习。学习方法：通过拆解视频、留意路边广告特效、按层级逻辑思考画面运动来学习 AE，还可参考模板。与 AI 的关系：AI 出现后，AE 使用减少，有些动效可用 AI 完成。在短剧中的应用：在火焰、文字、光线等方面有少量应用。 AI 相关技术与活动： AI 音乐创作：通过输入更高级的词汇与 AI 音乐对话能产生更好效果，有 AI 音乐的版块、挑战、分享会和教程，可通过王贝加入 AI 音乐社区。数字人语音合成：介绍了声音克隆技术，提到了微软、阿里等的相关成果，常用的是 JPT service。 Config UI 的应用：能降低成本、提高效率，在图书出版、引流等方面有应用，岗位稀缺，社区有相关共学课程。社区共创项目：包括东京的 confii 生态大会、AI 文旅视频、娃卡奖、李普村共创故事、AI 春晚等活动。作业与报名：作业是询问对 AI 方向的兴趣和想做的项目，活动报名可通过填写名字和申请新增学校参与。线下寄送物料组织活动：会给大家寄送线下活动物料，在学校内组织。 AI 春晚即将开始：去年 300 人 30 天共创了 AI 春晚，今年的也即将开始，可报名参与多种岗位。 AIPO 活动及相关挑战：10 月 20 日的 AIPO 活动，可提前构思展示项目，有会话和视频相关的挑战赛。共学活动与技能提升：接下来 10 天有从零基础到建站等内容的讲解，回放会放在链接里，可先从练习提示词入手。硬件机器人材料购买：若搞硬件机器人，部分材料需尽快购买。自媒体发布与流量扶持：在小红书发布活动内容带特定标签有流量扶持，作品也可发布在 GitHub 等平台。活动奖项与历史玩法：设最佳创业奖和最佳投资奖各四个，有线下摆摊展示交流、IPO 路演等玩法，之前在多个城市举办过 AI 切磋大会。工具使用与新大赛预告：可使用多种 AI 工具，新的大赛即将开启，有百万奖金池，相关动态会在社区活动栏目公布。 AI 音乐和数字人语音合成： AI 音乐方面，提到草爷、格林 king、狗哥带大家入门，有相关课程与教程，且淘宝上有套壳工具抄袭。社区伙伴做的 AI 音乐专辑不错。数字人语音合成部分提到声音克隆，有新的声音克隆且音质很不错。提到了微软新出的成果、阿里的 Cozy voice（指出其泛化能力不强）、大家常用的 GPT solve it、刚举办的 AI 3D 活动。以小田的 config UI 基础工作流一日谈展开，讲述了多个案例，如许建拍摄场景图成本降低，郭佑萌在图书出版行业提升效率，影楼可进行换装等操作，文旅文创场景有有趣的合影生成方式，还提到该工作流岗位稀缺且社区有课程可供学习。 AJ 介绍平台资源，包括共学课程、专栏报告、数据等，还提及就业创业及一些企业专栏的内容。