Chat with Wiki - 用AI把视频自动分段成若干个片段

Answer

以下是关于用 AI 把视频自动分段成若干个片段的相关内容：

Karpathy 曾有将 2 小时 13 分钟的“从头开始构建 GPT 分词器”的视频转换为一本书的章节或博客文章形式的想法，具体步骤包括为视频添加字幕或解说文字，将视频切割成若干带有配套图片和文字的段落，利用大语言模型的提示工程技术逐段进行翻译，将结果输出为网页形式并包含指向原始视频各部分的链接。他表示这是手动完成的任务，若能自动完成会更好。

Sora 之后，OpenAI 的 Lilian Weng 介绍了从头设计视频生成扩散模型的相关内容，如跨帧注意力、交替式帧平滑器机制、分层式采样器等。

使用 Gemini 1.5 Pro 可以进行视频分析和拆解，例如对库布里克的电影进行分析，能用于影视二创长剪短、警察查监控等场景，替代 Opus 等长剪短工具，有人测试后认为准确度很高。

Content generated by AI large model, please carefully verify (powered by aily)

References

Karpathy：从头开始构建GPT分词器

[title]Karpathy：从头开始构建GPT分词器原文来源：https://mp.weixin.qq.com/s/9O6Bu66C_uwdaISiGODuKg作者：新智元前段时间，AI大神Karpathy上线的AI大课，已经收获了全网15万次播放量。当时还有网友表示，这2小时课程的含金量，相当于大学4年。就在这几天，Karpathy又萌生了一个新的想法：那便是，将2小时13分钟的「从头开始构建GPT分词器」的视频，转换为一本书的章节（或者博客文章）形式，专门讨论「分词」。具体步骤如下：为视频添加字幕或解说文字。-将视频切割成若干带有配套图片和文字的段落。-利用大语言模型的提示工程技术，逐段进行翻译。将结果输出为网页形式，其中包含指向原始视频各部分的链接。更广泛地说，这样的工作流程可以应用于任何视频输入，自动生成各种教程的「配套指南」，使其格式更加便于阅读、浏览和搜索。这听起来是可行的，但也颇具挑战。他在GitHub项目minbpe下，写了一个例子来阐述自己的想象。地址：https://github.com/karpathy/minbpe/blob/master/lecture.mdKarpathy表示，这是自己手动完成的任务，即观看视频并将其翻译成markdown格式的文章。「我只看了大约4分钟的视频（即完成了3%），而这已经用了大约30分钟来写，所以如果能自动完成这样的工作就太好了」。接下来，就是上课时间了！

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

[title]Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型1.跨帧注意力：在自注意力模块中添加完整的跨帧交互。它引入了所有帧之间的交互，其做法是将所有时间步骤的隐含帧映射到?、?、?矩阵，这不同于Text2Video-Zero（其是让所有帧都关注第一帧）。2.交替式帧平滑器（interleaved-frame smoother）机制是通过在交替帧上采用帧插值来减少闪烁效应。在每个时间步骤?，该平滑器会插值偶数或奇数帧，以平滑其相应的三帧剪辑。请注意，平滑步骤后帧数会随时间推移而减少。3.分层式采样器能在内存限制下保证长视频的时间一致性。一段长视频会被分割成多段短视频，其中每一段短视频都会选出一帧关键帧。该模型会使用完全跨帧注意力预生成这些关键帧以实现长期一致性，而每段相应的短视频都基于这些关键帧按顺序合成。图15：ControlVideo概览。原文链接：https://lilianweng.github.io/posts/2024-04-12-diffusion-video/

用 Gemini 拆解视频

郑跃葵：拿个库布里克的电影来分析，连大师手法都学会了大峰AI绘画：太酷啦又多了一个AI视频创作助手Jones：b站大学复习有救了对！：拉片太方便了Shock：而且可以干掉人工标注了，安徽那边数据标注众包要失业了清慎：1.影视二创长剪短，一键生成小帅、小美、大壮、丧彪的故事2.警察叔叔查监控，一句话找出监控中的可疑现象3.替代Opus等长剪短工具[heading2]测试者：阿强[content]拆解作品[阿强：功夫熊猫版-如来神掌的完整复盘](https://waytoagi.feishu.cn/wiki/T6bFwVlppipd4ZkoddfcGbebnvd)好用，准确度很高，我把前几天用AI做的功夫熊猫-之离谱村版丢进去分析，效果很好拆解结果prompt：请你用极致详细的言语描述其中的每个镜头，包括其中有什么物体，在执行什么动作，产生什么形变，为什么这样设计分镜等等。感动，它竟然准确的认出了“如来神掌”Gemini 1.5 Pro给出的全文如下：[heading2]测试者：张余[content]拆解结果Gemini 1.5 Pro给出的全文如下：[heading2]测试者：Ling[heading2]测试者：洋洋[content]拆解结果