Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

DIT架构

Answer

DiT 架构是一种在 AI 领域,特别是在 3D 模型生成和视频生成中应用的架构。

在 3D 模型生成方面,Rodin Gen-1 采用了 DiT 架构,其拥有超过 1.5B 参数量,能够在数秒内生成带规整四边面片与 PBR 材质的 3D 资产,是目前最接近 Production-Ready 的通用 3D 生成大模型。

在视频生成方面,Sora 为了更好地扩大模型规模,采用了 DiT 架构,其操作的是视频和图像隐代码的时空块(spacetime patch),会将视觉输入表示成一个时空块序列,并将这些时空块用作 Transformer 输入 token。

Content generated by AI large model, please carefully verify (powered by aily)

References

工具汇总:AI生成3D模型工具介绍

Rodin Gen-1采用Diffusion Transformer(DiT)架构,拥有超过1.5B参数量,能够在数秒内生成带规整四边面片与PBR材质的3D资产,是目前最接近Production-Ready的通用3D生成大模型。https://hyperhuman.deemos.com/rodin

Lilian Weng|视频生成的扩散模型

SSR和TSR模型都基于在通道方面连接了有噪声数据?_?的上采样的输入。SSR是通过双线性大小调整来上采样,而TSR则是通过重复帧或填充空白帧来上采样。Imagen Video还应用了渐进式蒸馏来加速采样,每次蒸馏迭代都可以将所需的采样步骤减少一半。在实验中,他们能够将所有7个视频扩散模型蒸馏为每个模型仅8个采样步骤,同时不会对感知质量造成任何明显损失。为了更好地扩大模型规模,Sora采用了DiT(扩散Transformer)架构,其操作的是视频和图像隐代码的时空块(spacetime patch)。其会将视觉输入表示成一个时空块序列,并将这些时空块用作Transformer输入token。图5:Sora是一个扩散Transformer模型。

Lilian Weng|视频生成的扩散模型

图2:3D U-net架构。该网络的输入是有噪声视频z_?、条件信息c和对数信噪比(log-SNR)λ_?。通道乘数M_1,...,M_?表示各层的通道数量。Ho,et al.在2022年提出的Imagen Video基于一组级联的扩散模型,其能提升视频生成的质量,并将输出升级成24帧率的1280x768分辨率视频。Imagen Video架构由以下组件构成,总计7个扩散模型。一个冻结的T5文本编码器,用以提供文本嵌入作为条件输入。一个基础视频扩散模型。一组级联的交织放置的空间和时间超分辨率扩散模型,包含3个TSR(时间超分辨率)和3个SSR(空间超分辨率)组件。图3:Imagen Video的级联式采样流程。在实践中,文本嵌入会被注入到所有组件中,而不只是基础模型中。基础去噪模型使用共享的参数同时在所有帧上执行空间操作,然后时间层将各帧的激活混合起来,以更好地实现时间一致性;事实证明这种方法的效果优于帧自回归方法。图4:Imagen Video扩散模型中一个空间-时间可分离模块的架构。

Others are asking
How do children edit games with AI?
以下是一个用国产 AI 为孩子开发游戏的案例教程中的开发过程: 1. 元素设计: 狼:图片放进去,调整大小。 栅栏:图片放进去,调整大小。 洞:调整背景颜色,让 AI 提供,改进背景颜色。 槌子:点一下转动,最初 AI 给的代码未实现动画效果,简化为点一下马上旋转 90 度,放开时恢复,点击时洞的高度变短。 羊:生成 20 只羊时出现重叠问题,让 AI 调整每只羊间隔 10PX。控制羊的移动花费较多时间,重写多轮。 2. 图片生成: 直接让智普生成羊、狼、锤子、栅栏、胜利图片、失败图片。其中羊、狼、锤子、栅栏生成无背景的,用 PS 做成透明 PNG。栅栏生成多次以选择合适的效果,胜利和失败图片因 AI 无法理解需求生成多次。 3. 框架搭建: 让 AI 生成 HTML 的大框架,验证元素摆放位置,生成的 HTML 代码简洁符合期待,CSS 结构不错但 position 定位模式不对,修改为 position:fixed 修复 BUG。 4. 效果实现: 失败判断在羊的跑的动作中实现,羊跑光显示失败图像。 胜利判断在槌子事件中,洞全部修好即胜利。 第二关:胜利时多一个步骤跳转到第二页,复制代码并修改,如加入长相凶狠的狼,用 AI 作图。 5. 完成与测试: 2024 年 5 月 11 日 17:34:04 完成所有内容并上传服务器测试,存在小 BUG 但先凑合用。 需要注意的是,AI 生成的内容可能有 90%能用,但仍有 10%需要人工调整,多轮干预可能是必要的,AI 只是辅助,学习和专家指导仍很重要。
2025-02-23
additional networks 安装下载
以下是关于 additional networks 安装下载的相关信息: LORA 模型: LORA 可以固定画风、人物、物品、动作姿态等的特征,文件通常有几十上百兆,承载信息量远大于 Embedding,在还原真人物品时细节精度更高。 下载的 LORA 放在根目录的【……\\models\\Lora】文件夹下,使用时点击红色小书,找到 LORA 选项卡加载。 使用 LORA 时要注意作者使用的大模型,一般需配套使用,还可能需要加入特定触发词。 Hypernetworks 模型: 主要针对画风训练,可像 LORA 一样加载。 下载的文件放在根目录的【…\\models\\hypernetworks】文件夹下,使用时点击红色小书,找到 Hypernetworks 选项卡加载。 常用模型下载网站: 模型安装: 大模型(Ckpt):放入 models\\Stablediffusion VAE 模型:一些大模型需要配合 vae 使用,对应的 vae 同样放置在 models\\Stablediffusion 或 models\\VAE 目录,然后在 webui 的设置栏目选择。 Lora/LoHA/LoCon 模型:放入 extensions\\sdwebuiadditionalnetworks\\models\\lora,也可以在 models/Lora 目录 Embedding 模型:放入 embeddings 目录 模型存放位置示例(InstantID): 下载并放在 ComfyUI/models/insightface/models/antelopev2 git 地址:https://github.com/deepinsight/insightface/releases 网盘地址:https://www.123pan.com/s/fOu4Tdb3Vdd.html 提取码:KAKA 下载文件并放在 ComfyUI/models/instantid git 地址:https://huggingface.co/InstantX/InstantID/resolve/main/ipadapter.bin?download=true 网盘地址:https://www.123pan.com/s/fOu4Tdc3Vdd.html 提取码:KAKA 下载并放在 ComfyUI/models\\controlnet huggingface 地址 https://huggingface.co/InstantX/InstantID/resolve/main/ControlNetModel/diffusion_pytorch_model.safetensors?download=true 下载文件 Faceid 并放在 ComfyUI/models\\ipadapter 不同类型的模型后缀名几乎一样,无法通过后缀名区分时,可以通过检测。
2025-01-02
帮我写一段120字的英文,回答这个问题: the role of tradition in modern society
Tradition plays a significant role in modern society. It provides a sense of identity and belonging, connecting people to their roots. It also offers valuable wisdom and moral guidance. Moreover, traditions help preserve cultural heritage and foster social cohesion. However, it's essential to adapt traditions to modern needs while maintaining their essence.
2024-11-04
帮我写一段120字的英文,回答这个问题: Talk about a cultural tradition from another country that you find interesting
I find the Japanese tea ceremony very interesting. It involves elaborate rituals and precise movements, emphasizing harmony, respect, and tranquility. The use of beautiful tea sets and the focus on creating a serene atmosphere make it a unique and captivating cultural tradition. It showcases the Japanese pursuit of refinement and inner peace.
2024-11-04
文生图中DiT架构比SDXL架构好在哪
DiT 架构相比 SDXL 架构具有以下优势: 1. Scaling 能力:相比于 Unet,Transformer 结构的 Scaling 能力更受认可,即模型参数量越大,性能越强。 2. 额外信息处理:DiT 在 Vision Transformer 模块基础上做了略微修改,能够在图片生成过程中接受一些额外的信息,如时间步 t 和标签 y。 3. 场景模拟真实性:Sora 背后的 DiT 架构在大数据量情况下具有强大的刻画能力,能展现出类似大语言模型涌现出逻辑推理等能力的现象。 4. 文本编码器:在提升文生图模型的语义理解能力方面,新的文生图模型纷纷优化文本编码器的能力,而 HunyuanDiT 作为使用 DiT 架构的模型,在中文生图方面有一定进展,但开源界中文、细粒度文生图模型的文本编码器仍有较大优化空间。
2024-08-20
我想寻找一个AI模型,能快速读懂视频,并总结成为知识架构的应用或网站
以下为您推荐能快速读懂视频并总结成为知识架构的应用或网站: 百炼大模型平台:其影视传媒视频理解能力可对视频进行语音转写、视觉语言分析等处理并总结成文,有清晰使用步骤,可生成爆款文案,还能根据偏好调试提示词。2025 年 1 月 9 号更新的模型可通过 API 调用纹身 AI 等,Windows 用户可在左下角开始运行输入命令提示符进行本地调用,但生成过程较缓慢。 应用场景:包括商品信息图片生成淘宝上架规格参数、智能手表文案生成、社交媒体内容生成、合同提取、拍照搜题、图片转换、模特换装等。 提供 AI 硬件底层能力,AI 拍立得相机拍照可快速成诗并打印,其对接多模态能力可通过智能体应用或工作流形式的 API 调用。 开源使用:有开源地址,可下载到本地,配置阿里云百炼平台的 API key 及 appid 实现场景,运行项目需特定 Python 包和依赖,可新建应用获取 appid,拍照时需设置 API key。 此外,关于 AI 技术原理与框架的相关知识: 生成式 AI 生成的内容称为 AIGC。 相关技术名词: AI 即人工智能。 机器学习包括监督学习、无监督学习、强化学习,电脑通过找规律进行学习。 监督学习使用有标签的训练数据,目标是学习输入和输出之间的映射关系,包括分类和回归。 无监督学习的数据没有标签,算法自主发现规律,经典任务如聚类。 强化学习从反馈里学习,最大化奖励或最小化损失,类似训小狗。 深度学习参照人脑有神经网络和神经元,因层数多称为深度,神经网络可用于监督学习、无监督学习、强化学习。 生成式 AI 可以生成文本、图片、音频、视频等内容形式。 LLM 即大语言模型,生成图像的扩散模型不属于大语言模型,对于大语言模型,生成只是其中一个处理任务,如谷歌的 BERT 模型可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类。 技术里程碑:2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出了 Transformer 模型,它完全基于自注意力机制处理序列数据,无需依赖循环神经网络或卷积神经网络。
2025-04-09
我们是搜索团队的产品经理,团队定位倾向于“对于插件的建设与调用”定位,现在要做AI相关的产品规划,请以通俗易懂的方式对以下问题做出回答 1、请通过流程图的方式,介绍【插件/工具】能力在大模型生态架构中的环节、定位、实现流程是什么 2、调研下对于我们搜索团队而言,插件应该做什么,可以做什么 3、思考对于大模型来说,有哪些(通用或垂类)的模块/功能/插件是无法绕开的,或高频使用的,作为我们团队后续争取的发力点(如搜索推荐对于传统综合搜索结果页)
以下是为您提供的关于 AI 相关产品规划的回答: 一、插件/工具能力在大模型生态架构中的环节、定位、实现流程 从 2023 年 3 月份 OpenAI 宣布插件计划开始,到 5 月份上线,其中包括联网、代码、画图三个插件。其实现流程大致为: 1. 经过对模型的微调,检测何时需要调用函数(取决于用户的输入)。 2. 使用符合函数签名的 JSON 进行响应。 3. 在接口层面声明可调用的工具。 4. 使用函数和用户输入调用模型。 5. 使用模型响应调用 API。 6. 将响应发送回模型进行汇总。 二、对于搜索团队,插件可以做和应该做的事 目前没有直接针对搜索团队插件具体可做和应做事项的明确内容,但可以参考 OpenAI 的插件计划,例如开发与搜索相关的特定功能插件,或者探索如何将现有的搜索推荐功能与大模型更好地结合。 三、对于大模型无法绕开或高频使用的模块/功能/插件 目前没有直接指出对于大模型无法绕开或高频使用的具体模块、功能或插件。但从相关信息中可以推测,例如与数据获取和处理相关的插件(如联网)、与技术开发相关的插件(如代码)以及与内容生成相关的插件(如画图)可能是较为重要和高频使用的。对于搜索团队来说,可以考虑在这些方向上寻找发力点,结合搜索推荐等传统功能,开发出更具竞争力的插件。
2025-04-08
有没有什么可以帮助产品自动生成功能架构图的AI工具
以下是一些可以帮助产品自动生成功能架构图的 AI 工具: 1. Lucidchart:流行的在线绘图工具,支持多种图表创建,包括逻辑视图、功能视图和部署视图,用户可通过拖放界面轻松创建架构图。 2. Visual Paradigm:全面的 UML 工具,提供创建各种架构视图的功能,如逻辑视图(类图、组件图)、功能视图(用例图)和部署视图(部署图)。 3. ArchiMate:开源的建模语言,专门用于企业架构,支持逻辑视图的创建,可与 Archi 工具配合使用,该工具提供图形化界面创建模型。 4. Enterprise Architect:强大的建模、设计和生成代码的工具,支持创建多种架构视图,包括逻辑、功能和部署视图。 5. Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板用于创建逻辑视图、功能视图和部署视图等。 6. draw.io(现称为 diagrams.net):免费的在线图表软件,允许创建各种类型的图表,包括逻辑视图和部署视图等。 7. PlantUML:文本到 UML 的转换工具,通过编写描述性文本自动生成序列图、用例图、类图等,帮助创建逻辑视图。 8. Gliffy:基于云的绘图工具,提供创建各种架构图的功能,包括逻辑视图和部署视图。 9. Archi:免费的开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图的创建。 10. Rational Rose:IBM 的 UML 工具,支持创建多种视图,包括逻辑视图和部署视图。
2025-03-31
深度学习模型架构有哪些
深度学习模型架构主要包括以下几种: 1. Transformer 模型: 由编码器(Encoder)和解码器(Decoder)两大部分组成。 每个部分由多个相同的层堆叠而成,每层包含多头注意力机制(Multihead Attention)和位置全连接前馈网络。 编码器将自然语言转换成向量文本,解码器基于编码器的输出和之前生成的输出逐步生成目标序列。 2. DiT 架构:结合扩散模型和 Transformer 的架构,用于高质量图像生成。 3. 存算一体架构: 是未来 AI 硬件的发展趋势。 运行几百亿个参数的大模型时具有优势,可避免数据搬运。 此外,在端到端算法的时代,有观点认为不应继续使用冯诺依曼架构,且在存算一体的芯片之上,有望诞生全新的算法。在将大模型与私域知识结合方面,有重新训练、微调、RAG、关键词工程、加长 Context 等方法,其中长 Context 和 RAG 被认为较有希望。
2025-03-22
生成组织架构图的AI工具
以下是一些可以生成组织架构图的 AI 工具: 1. Lucidchart:流行的在线绘图工具,支持多种图表创建,包括逻辑视图、功能视图和部署视图,用户可通过拖放界面轻松创建架构图。 2. Visual Paradigm:全面的 UML 工具,提供创建各种架构视图的功能,如逻辑视图(类图、组件图)、功能视图(用例图)和部署视图(部署图)。 3. ArchiMate:开源建模语言,专门用于企业架构,支持逻辑视图创建,可与 Archi 工具配合使用,该工具提供图形化界面创建 ArchiMate 模型。 4. Enterprise Architect:强大的建模、设计和生成代码工具,支持创建多种架构视图,包括逻辑、功能和部署视图。 5. Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板用于创建逻辑视图、功能视图和部署视图等。 6. draw.io(现称为 diagrams.net):免费在线图表软件,允许创建各种类型图表,包括软件架构图,支持创建逻辑视图和部署视图等。 7. PlantUML:文本到 UML 转换工具,可通过编写描述性文本自动生成序列图、用例图、类图等,帮助创建逻辑视图。 8. Gliffy:基于云的绘图工具,提供创建各种架构图的功能,包括逻辑视图和部署视图。 9. Archi:免费开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图创建。 10. Rational Rose:IBM 的 UML 工具,支持创建多种视图,包括逻辑视图和部署视图。 需要注意的是,虽然这些工具可以辅助创建架构视图,但它们不都是基于 AI 的。AI 在绘图工具中的应用通常涉及智能推荐布局、自动生成图表代码或识别图表中的模式和关系。在选择工具时,应考虑您的具体需求,比如是否需要支持特定的建模语言、是否需要与特定的开发工具集成、是否偏好在线工具或桌面应用程序等。
2025-03-17
Transformer 架构
Transformer 架构主要由编码器(Encoder)和解码器(Decoder)两大部分组成。 编码器可以将自然语言转换成向量文本,其内部参数包含了原始信息以及序列内元素间的相互关系。例如,输入“我喜欢猫”,会将自然语言转换成词嵌入向量,如“我”对应,然后通过自注意力机制输出一个表示对输入句子理解的向量序列。 解码器基于编码器的输出和之前生成的输出逐步生成目标序列,将向量文本重新转化成自然语言。例如生成中文句子“我喜欢猫”,解码器接收开始符号,然后逐步根据编码器输出和已生成的词决定生成后续的词。 Transformer 是一种使用注意力机制的编码器解码器模型,其模型架构使得它可以利用多元化的优势,同时处理大量数据,有助于提高机器翻译等应用程序的性能。 此外,Transformer 架构能够并行处理大量数据吞吐,且满足 scaling law,在各个模态和技术栈具有优势,被 OpenAI 广泛使用。使用同样的架构可以复用模型的参数来引导不同技术栈的训练,以及使用一套 infra 框架训练不同的模型。
2025-03-14