以下是关于用 AI 把视频自动分段成若干个片段的相关内容:
Karpathy 曾有将 2 小时 13 分钟的“从头开始构建 GPT 分词器”的视频转换为一本书的章节或博客文章形式的想法,具体步骤包括为视频添加字幕或解说文字,将视频切割成若干带有配套图片和文字的段落,利用大语言模型的提示工程技术逐段进行翻译,将结果输出为网页形式并包含指向原始视频各部分的链接。他表示这是手动完成的任务,若能自动完成会更好。
Sora 之后,OpenAI 的 Lilian Weng 介绍了从头设计视频生成扩散模型的相关内容,如跨帧注意力、交替式帧平滑器机制、分层式采样器等。
使用 Gemini 1.5 Pro 可以进行视频分析和拆解,例如对库布里克的电影进行分析,能用于影视二创长剪短、警察查监控等场景,替代 Opus 等长剪短工具,有人测试后认为准确度很高。
[title]Karpathy:从头开始构建GPT分词器原文来源:https://mp.weixin.qq.com/s/9O6Bu66C_uwdaISiGODuKg作者:新智元前段时间,AI大神Karpathy上线的AI大课,已经收获了全网15万次播放量。当时还有网友表示,这2小时课程的含金量,相当于大学4年。就在这几天,Karpathy又萌生了一个新的想法:那便是,将2小时13分钟的「从头开始构建GPT分词器」的视频,转换为一本书的章节(或者博客文章)形式,专门讨论「分词」。具体步骤如下:为视频添加字幕或解说文字。-将视频切割成若干带有配套图片和文字的段落。-利用大语言模型的提示工程技术,逐段进行翻译。将结果输出为网页形式,其中包含指向原始视频各部分的链接。更广泛地说,这样的工作流程可以应用于任何视频输入,自动生成各种教程的「配套指南」,使其格式更加便于阅读、浏览和搜索。这听起来是可行的,但也颇具挑战。他在GitHub项目minbpe下,写了一个例子来阐述自己的想象。地址:https://github.com/karpathy/minbpe/blob/master/lecture.mdKarpathy表示,这是自己手动完成的任务,即观看视频并将其翻译成markdown格式的文章。「我只看了大约4分钟的视频(即完成了3%),而这已经用了大约30分钟来写,所以如果能自动完成这样的工作就太好了」。接下来,就是上课时间了!
[title]Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型1.跨帧注意力:在自注意力模块中添加完整的跨帧交互。它引入了所有帧之间的交互,其做法是将所有时间步骤的隐含帧映射到?、?、?矩阵,这不同于Text2Video-Zero(其是让所有帧都关注第一帧)。2.交替式帧平滑器(interleaved-frame smoother)机制是通过在交替帧上采用帧插值来减少闪烁效应。在每个时间步骤?,该平滑器会插值偶数或奇数帧,以平滑其相应的三帧剪辑。请注意,平滑步骤后帧数会随时间推移而减少。3.分层式采样器能在内存限制下保证长视频的时间一致性。一段长视频会被分割成多段短视频,其中每一段短视频都会选出一帧关键帧。该模型会使用完全跨帧注意力预生成这些关键帧以实现长期一致性,而每段相应的短视频都基于这些关键帧按顺序合成。图15:ControlVideo概览。原文链接:https://lilianweng.github.io/posts/2024-04-12-diffusion-video/
郑跃葵:拿个库布里克的电影来分析,连大师手法都学会了大峰AI绘画:太酷啦又多了一个AI视频创作助手Jones:b站大学复习有救了对!:拉片太方便了Shock:而且可以干掉人工标注了,安徽那边数据标注众包要失业了清慎:1.影视二创长剪短,一键生成小帅、小美、大壮、丧彪的故事2.警察叔叔查监控,一句话找出监控中的可疑现象3.替代Opus等长剪短工具[heading2]测试者:阿强[content]拆解作品[阿强:功夫熊猫版-如来神掌的完整复盘](https://waytoagi.feishu.cn/wiki/T6bFwVlppipd4ZkoddfcGbebnvd)好用,准确度很高,我把前几天用AI做的功夫熊猫-之离谱村版丢进去分析,效果很好拆解结果prompt:请你用极致详细的言语描述其中的每个镜头,包括其中有什么物体,在执行什么动作,产生什么形变,为什么这样设计分镜等等。感动,它竟然准确的认出了“如来神掌”Gemini 1.5 Pro给出的全文如下:[heading2]测试者:张余[content]拆解结果Gemini 1.5 Pro给出的全文如下:[heading2]测试者:Ling[heading2]测试者:洋洋[content]拆解结果