Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

自己的ai来源模型是什么

Answer

智谱·AI 的开源模型包括以下部分:

  • 其他模型:
    • WebGLM-10B:利用百亿参数通用语言模型(GLM)提供高效、经济的网络增强型问题解答系统,旨在通过将网络搜索和检索功能集成到预训练的语言模型中,改进现实世界的应用部署。
    • WebGLM-2B
    • MathGLM-2B:在训练数据充足的情况下,20 亿参数的 MathGLM 模型能够准确地执行多位算术运算,准确率几乎可以达到 100%,其结果显著超越最强大语言模型 GPT-4 在相同测试数据上 18.84%的准确率。
    • MathGLM-500M
    • MathGLM-100M
    • MathGLM-10M
    • MathGLM-Large:采用 GLM 的不同变体作为骨干来训练 MathGLM,包括具有 335M 参数的 GLM-large 和 GLM-10B。此外,还使用 ChatGLM-6B 和 ChatGLM2-6B 作为基座模型来训练 MathGLM。这些骨干模型赋予 MathGLM 基本的语言理解能力,使其能够有效理解数学应用题中包含的语言信息。
  • 多模态模型:
    • CogAgent-18B:基于 CogVLM-17B 改进的开源视觉语言模型。CogAgent-18B 拥有 110 亿视觉参数和 70 亿语言参数,支持 1120*1120 分辨率的图像理解,在 CogVLM 功能的基础上,具备 GUI 图像的 Agent 能力。
    • CogVLM-17B:强大的开源视觉语言模型(VLM)。基于对视觉和语言信息之间融合的理解,CogVLM 可以在不牺牲任何 NLP 任务性能的情况下,实现视觉语言特征的深度融合。
    • Visualglm-6B:一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共 78 亿参数。

部署和训练自己的 AI 开源模型的主要步骤如下:

  1. 选择合适的部署方式,包括本地环境部署、云计算平台部署、分布式部署、模型压缩和量化、公共云服务商部署等,根据自身的资源、安全和性能需求选择合适的部署方式。
  2. 准备训练所需的数据和计算资源,确保有足够的训练数据覆盖目标应用场景,并准备足够的计算资源,如 GPU 服务器或云计算资源。
  3. 选择合适的预训练模型作为基础,可以使用开源的预训练模型如 BERT、GPT 等作为基础,也可以自行训练一个基础模型。
  4. 针对目标任务进行模型微调训练,根据具体应用场景对预训练模型进行微调训练,优化模型结构和训练过程以提高性能。
  5. 部署和调试模型,将训练好的模型部署到生产环境,对部署的模型进行在线调试和性能优化。
  6. 注意安全性和隐私保护,大模型涉及大量数据和隐私信息,需要重视安全性和合规性。

总的来说,部署和训练自己的大模型需要综合考虑多方面因素,包括部署方式、数据准备、模型训练、部署调试以及安全性等。需要根据具体需求选择合适的方法,并注意优化各个环节以提高模型性能和应用效果。

Content generated by AI large model, please carefully verify (powered by aily)

References

智谱·AI 开源模型列表

以下模型,以便用户使用我们多元化的产品。|模型|介绍|代码链接|模型下载||-|-|-|-||WebGLM-10B|利用百亿参数通用语言模型(GLM)提供高效、经济的网络增强型问题解答系统。它旨在通过将网络搜索和检索功能集成到预训练的语言模型中,改进现实世界的应用部署。|[WebGLM](https://github.com/THUDM/WebGLM)|[Huggingface](https://huggingface.co/THUDM/WebGLM)||WebGLM-2B|||[Huggingface](https://huggingface.co/THUDM/WebGLM-2B)||MathGLM-2B|在训练数据充足的情况下,20亿参数的MathGLM模型能够准确地执行多位算术运算,准确率几乎可以达到100%,其结果显著超越最强大语言模型GPT-4在相同测试数据上18.84%的准确率。|[MathGLM](https://github.com/THUDM/MathGLM)|[THU-Cloud](https://cloud.tsinghua.edu.cn/d/cf429216289948d889a6/)||MathGLM-500M|||[THU-Cloud](https://cloud.tsinghua.edu.cn/d/c80046ec7e234be4831b/)||MathGLM-100M|||[THU-Cloud](https://cloud.tsinghua.edu.cn/d/a6ca369a212c4df08359/)||MathGLM-10M|||[THU-Cloud](https://cloud.tsinghua.edu.cn/d/16a914d6db2a4b8f80f5/)||MathGLM-Large|采用GLM的不同变体作为骨干来训练MathGLM,包括具有335M参数的GLM-large和GLM-10B。此外,还使用ChatGLM-6B和ChatGLM2-6B作为基座模型来训练MathGLM。这些骨干模型赋予MathGLM基本的语言理解能力,使其能够有效理解数学应用题中包含的语言信息。||[THU-Cloud](https://cloud.tsinghua.edu.cn/d/3d138deaf93441b196fb/)|

智谱·AI 开源模型列表

,我们推出了具有视觉和语言双模态的模型。|模型|介绍|代码链接|模型下载||-|-|-|-||CogAgent-18B|基于CogVLM-17B改进的开源视觉语言模型。CogAgent-18B拥有110亿视觉参数和70亿语言参数,支持1120*1120分辨率的图像理解,在CogVLM功能的基础上,具备GUI图像的Agent能力。|[CogVLM&CogAgent](https://github.com/THUDM/CogVLM)|[Huggingface](https://huggingface.co/THUDM/CogVLM)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary)|[Swanhub](https://swanhub.co/ZhipuAI/cogagent-chat-hf)|始智社区||CogVLM-17B|强大的开源视觉语言模型(VLM)。基于对视觉和语言信息之间融合的理解,CogVLM可以在不牺牲任何NLP任务性能的情况下,实现视觉语言特征的深度融合。我们训练的CogVLM-17B是目前多模态权威学术榜单上综合成绩第一的模型,在14个数据集上取得了state-of-the-art或者第二名的成绩。||[Huggingface](https://huggingface.co/THUDM/cogvlm-chat-hf)|[魔搭社区](https://modelscope.cn/models/AI-ModelScope/cogvlm-chat/summary)||Visualglm-6B|VisualGLM-6B是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于[ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B),具有62亿参数;图像部分通过训练[BLIP2-Qformer](https://arxiv.org/abs/2301.12597)构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。|[VisuaGLM](https://github.com/THUDM/VisualGLM-6B)|[Huggingface](https://huggingface.co/THUDM/visualglm-6b)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/visualglm-6b/summary)|

问:如何部署和训练自己的AI开源模型

根据搜索结果,以下是部署和训练自己的大模型的主要步骤:1.选择合适的部署方式本地环境部署云计算平台部署分布式部署模型压缩和量化公共云服务商部署根据自身的资源、安全和性能需求选择合适的部署方式。2.准备训练所需的数据和计算资源确保有足够的训练数据覆盖目标应用场景准备足够的计算资源,如GPU服务器或云计算资源3.选择合适的预训练模型作为基础可以使用开源的预训练模型如BERT、GPT等作为基础也可以自行训练一个基础模型4.针对目标任务进行模型微调训练根据具体应用场景对预训练模型进行微调训练优化模型结构和训练过程以提高性能5.部署和调试模型将训练好的模型部署到生产环境对部署的模型进行在线调试和性能优化6.注意安全性和隐私保护大模型涉及大量数据和隐私信息,需要重视安全性和合规性总的来说,部署和训练自己的大模型需要综合考虑多方面因素,包括部署方式、数据准备、模型训练、部署调试以及安全性等。需要根据具体需求选择合适的方法,并注意优化各个环节以提高模型性能和应用效果。内容由AI大模型生成,请仔细甄别

Others are asking
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
Ai在设备风控场景的落地
AI 在设备风控场景的落地可以从以下几个方面考虑: 法律法规方面:《促进创新的人工智能监管方法》指出,AI 的发展带来了一系列新的安全风险,如对个人、组织和关键基础设施的风险。在设备风控中,需要关注法律框架是否能充分应对 AI 带来的风险,如数据隐私、公平性等问题。 趋势研究方面:在制造业中,AI Agent 可用于生产决策、设备维护、供应链协调等。例如,在工业设备监控与预防性维护中,Agent 能通过监测传感器数据识别异常模式,提前通知检修,减少停机损失和维修成本。在生产计划、供应链管理、质量控制、协作机器人、仓储物流、产品设计、建筑工程和能源管理等方面,AI Agent 也能发挥重要作用,实现生产的无人化、决策的数据化和响应的实时化。
2025-04-20
ai视频
以下是 4 月 11 日、4 月 9 日和 4 月 14 日的 AI 视频相关资讯汇总: 4 月 11 日: Pika 上线 Pika Twists 能力,可控制修改原视频中的任何角色或物体。 Higgsfield Mix 在图生视频中,结合多种镜头运动预设与视觉特效生成视频。 FantasyTalking 是阿里技术,可制作角色口型同步视频并具有逼真的面部和全身动作。 LAM 开源技术,实现从单张图片快速生成超逼真的 3D 头像,在任何设备上快速渲染实现实时互动聊天。 Krea 演示新工具 Krea Stage,通过图片生成可自由拼装 3D 场景,再实现风格化渲染。 Veo 2 现已通过 Gemini API 向开发者开放。 Freepik 发布视频编辑器。 Pusa 视频生成模型,无缝支持各种视频生成任务(文本/图像/视频到视频)。 4 月 9 日: ACTalker 是多模态驱动的人物说话视频生成。 Viggle 升级 Mic 2.0 能力。 TestTime Training在英伟达协助研究下,可生成完整的 1 分钟视频。 4 月 14 日: 字节发布一款经济高效的视频生成基础模型 Seaweed7B。 可灵的 AI 视频模型可灵 2.0 大师版及 AI 绘图模型可图 2.0 即将上线。
2025-04-20
ai视频教学
以下是为您提供的 AI 视频教学相关内容: 1. 第一节回放 AI 编程从入门到精通: 课程安排:19、20、22 和 28 号四天进行 AI 编程教学,周五晚上穿插 AI 视频教学。 视频预告:周五晚上邀请小龙问露露拆解爆火的 AI 视频制作,视频在视频号上有大量转发和播放。 编程工具 tree:整合多种模型,可免费无限量试用,下载需科学上网,Mac 可拖到文件夹安装,推荐注册 GitHub 账号用于代码存储和发布,主界面分为工具区、AI 干活区、右侧功能区等。 网络不稳定处理:网络不稳定时尝试更换节点。 项目克隆与文件夹:每个项目通过在本地新建文件夹来区分,项目运行一轮一轮进行,可新建会话,终端可重开。 GitHub 仓库创建:仓库相当于本地项目,可新建,新建后有地址,可通过多种方式上传。 Python 环境安装:为方便安装提供了安装包,安装时要选特定选项,安装后通过命令确认。 代码生成与修改:在 tree 中输入需求生成代码,可对生成的代码提出修改要求,如添加滑动条、雪花形状、颜色等,修改后审查并接受。 2. AI 视频提示词库: 神秘风 Arcane:Prompt:a robot is walking through a destroyed city,,League of Legends style,game modelling 乐高 Lego:Prompt:a robot is walking through a destroyed city,,lego movie style,bright colours,block building style 模糊背景 Blur Background:Prompt:a robot is walking through a destroyed city,,emphasis on foreground elements,sharp focus,soft background 宫崎骏 Ghibli:Prompt:a robot is walking through a destroyed city,,Spirited Away,Howl's Moving Castle,dreamy colour palette 蒸汽朋克 Steampunk:Prompt:a robot is walking through a destroyed city,,fantasy,gear decoration,brass metal robotics,3d game 印象派 Impressionism:Prompt:a robot is walking through a destroyed city,,big movements
2025-04-20
ai写程序
以下是关于使用 AI 写程序的相关内容: 1. 对于技术纯小白: 从最基础的小任务开始,让 AI 按照最佳实践写一个 say hello 的示例程序,并解释每个文件的作用及程序运行的逻辑,以学会必备的调试技能。 若学习写 chrome 插件,可让 AI 按照最佳实践生成简单的示范项目,包含全面的典型文件和功能,并讲解每个文件的作用和程序运行的逻辑。若使用 o1mini,可在提示词最后添加生成创建脚本的要求,并请教如何运行脚本(Windows 机器则是 create.cmd)。 2. 明确项目需求: 通过与 AI 的对话逐步明确项目需求。 让 AI 帮助梳理出产品需求文档,在后续开发时每次新起聊天将文档发给 AI 并告知在做的功能点。 3. 在独立游戏开发中的经验: 单独让 AI 写小功能没问题,但对于复杂的程序框架,可把不方便配表而又需要撰写的简单、模板化、多调用 API 且牵涉小部分特殊逻辑的代码交给 AI。 以 Buff 系统为例,可让 AI 仿照代码写一些 Buff。但目前 Cursor 生成复杂代码需要复杂的前期调教,ChatGPT 相对更方便。 教 AI 时要像哄小孩,及时肯定正确的,指出错误时要克制,不断完善其经验。 4. 相关资源和平台: AI 写小游戏平台:https://poe.com/ 图片网站:https://imgur.com/ 改 bug 的网站:https://v0.dev/chat 国内小游戏发布平台:https://open.4399.cn/console/ 需要注意的是,使用 AI 写程序时,对于技术小白来说,入门容易但深入较难,若没有技术背景可能提不出问题,从而影响 AI 发挥作用。
2025-04-19
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14
ai相关信息很多,如果只推荐一种信息来源,你会推荐什么
如果只推荐一种 AI 信息来源,以下是一些选择: 对于初学者,推荐看 Open AI 的官方 Cookbook,小琪姐做了中文精读翻译。 从简报方面,TLDR AI()等是不错的选择。 播客方面,No Priors podcast hosted by Sarah Guo and Elad Gil、Robot Brains Podcast hosted by Pieter Abbeel、Lex Fridman Podcast hosted by Lex Fridman、The Gradient podcast hosted by Daniel Bashir、Generally Intelligent hosted by Kanjun Qiu、Last Week in AI 等值得关注。 会议方面,工业界的 World AI Cannes Festival、Gen AI conference()等都是获取 AI 信息的重要渠道。 此外,还可以通过赛博蝉星公众号、国外优质博主的 blog 或 Twitter 等订阅获取最新信息,也可以参考通往 AGI 之路知识库中的相关内容,如 AI 相关名词解释、经典必读文章、历史脉络类资料等。
2025-03-21
AI应用赛道中top应用介绍,实现的功能和应用场景,产品Launch时间:AIGC功能 Launch时间、当前月活用户数、营收利润、一年成本投入、市场占有率、目前融资金额及估值、创始团队介绍、公司员工规模、所属国家、用户来源、用户来自于哪些国家、用户profile、转化率、ROI等等, 盈利模式,优劣势与未来发展趋势。
以下是关于 AI 应用赛道的相关介绍: 应用场景:涵盖医疗、制造业、金融风控、消费端个性化服务、办公、农业、能源优化、娱乐等领域。 关键技术: 1. 包括大语言模型作为中枢神经系统,记忆模块实现长期和短期记忆,以及规划能力中的目标设定、任务拆解、生成策略、执行与反馈、资源管理和多智能体协同。 2. 强化学习用于环境感知和决策调整,多模态融合涉及多种数据类型,低成本训练是考虑成本的重要因素。 智能体特征:包括自主性、交互性和适应性,如通过自我对弈和博弈不断进化,在金融风控领域利用大量数据提升准确率。 AI 技术路线:从有语言能力的 AI 到有推理能力,再到能使用工具、发明创新以及形成组织,共五级。 智能体框架类型:分为任务驱动型、多智能体协作、强化学习型、具身智能体、应用型智能体,每种类型都有代表性框架。 智能体与大模型的关系:大模型是中枢和基石,智能体是行动引擎,两者协同演进,智能体产生的数据可反哺大模型。 未来趋势:智能体可能在中小企业中更具效益,人机协作中人类成为监督角色,但存在算力成本、伦理风险、技术瓶颈等挑战。 B 端变现与创业方向: 1. B 端变现细分包括高频率和大规模的内容生产细分,如文字、视频、3D 模型、AI 智能体等,底层是需求和数据收集及训练模型,算力和能源是关键。 2. 自媒体创业:视频号等平台尚有蓝海空间,需具备内容创新和差异化,内容成本低且更新迭代快。 3. 游戏创业:个人或团队可做轻量化游戏,结合 AI 技术,满足放松和社交需求,专注垂类赛道,避免与大厂竞争。 4. 影视创业:25 年将是拐点,更多内容会采用 AI 技术,如哪吒 2 因前期规划未用 AI 技术。 5. 广告营销创业:重点是 AI 虚拟人,数字插画可走治愈类型,要明确平台用户画像和产品定位,做好次留存和引入私域。 AI 虚拟人的发展与创业机遇: 1. 创业难点:创业对创业者综合能力要求极高,找到志同道合且能力互补的战友是创业前期最难的事。 2. AI 虚拟人发展:从早期以首位为核心的宅文化虚拟偶像,到以 CG 技术和动捕语音合成技术为核心的角色,再到如今以动捕和人工智能技术为核心的服务型虚拟人,其发展历程不断演进。 3. 虚拟人产业链:包括基础层的硬件和软件研发,平台层如商汤、百度等提供工具和系统,应用层涉及影视、传媒、游戏、金融、文旅等内容变现。 4. 未来创业机遇:AI 虚拟人是未来 310 年 Web 3.0 的风口,提前布局未来有潜力的赛道,准备好迎接机遇。 相关案例和产品信息: 1. 10 月 26 日,AI 翻译和口型匹配技术在视频制作中的应用逐渐流行,公司如 Captions、HeyGen 和 Verbalate 通过 AI 生成字幕、配音和口型匹配等功能,帮助用户轻松实现视频翻译本地化。 2. 10 月 25 日,Perplexity 最新估值约为 5 亿美元,较 3 月宣布的 1.5 亿美元估值上涨 300%以上,当前的付费用户数量达到了 1.5 万人,截止本月,Perplexity 的 ARR 达到 300 万美元,最新估值约为 ARR 的 150 倍。 3. 《100 个有意思的 AI 应用》由国盛证券出品,分为基于 LLM 自然语言能力的对话、写作、阅读、分析等应用;多模态技术持续发展,图像、视频、音频、3D 等 AIGC 应用;企业级应用等。
2025-03-14
怎样操作来源模型
以下是关于操作来源模型的相关内容: 对于某些模型,如 Llama3.1 8B Instruct,操作方式如下: 1. 选择自定义提示词(也可选择预定义的话题,即黑色按钮,黑色按钮会有新手使用指引)。然后左边会出现熟悉的 chat 界面。 2. 输入对话内容,等待左右两边的内容生成。若右边的分析未刷新,在相关按钮间切换。 3. Activation Mode 可获得整段的推理判断;Attribution Mode 需选中一个 token,它会分析对应的最大关联内容。 对于 ComfyUI 玩 SDXL 的模型,操作要点包括: 1. 添加噪波:disable,运行后操作:fixed,步数:30,开始降噪步数:20,结束降噪步数:30,返回噪波:disable。 2. 若将 refiner 的模型连上提示词导致第一个 base 模型的链接断开,可通过加入新节点(右键点击【新建节点】【实用工具】【Primitive 元节点】),在文本节点上单击右键选择【转换文本为输入】,将元节点与文本节点相连接,复制出正负提示词节点分别给 base 模型和 refiner 模型,再将 base 模型的一套输出给第一个采样器节点,refiner 模型的一套输出给第二个采样器节点,使两个模型同时起作用。 对于 Tusiart 模型: 1. 首页包括模型、帖子、排行榜,可查看大手子炼成的模型、图片,不同模型有 checkpoint 和 lora 等标签,还有 XL 标签属于 SDXL 新模型,点击可看模型详细信息及返图区。 2. 基础模型(checkpoint)是生图必需的,任何生图操作必须选定,lora 是低阶自适应模型,可有可无,但对细节控制有价值。 3. ControlNet 可控制图片中特定图像,VAE 类似于滤镜可调整生图饱和度,选择 840000 即可。 4. Prompt 提示词是想要 AI 生成的内容,负向提示词 Negative Prompt 是想要 AI 避免产生的内容。
2025-02-21
优秀的来源大模型有哪些
以下是一些优秀的大模型: Google 的 T5:属于 encoderdecoder 类型的模型,适用于翻译和摘要等任务。 OpenAI 的 GPT3:预训练数据量大,参数众多,能根据用户输入的任务描述或示例完成任务。 ChatGPT:用户通过像和人类对话的方式即可完成任务。 国内的优秀大模型有: 智谱清言(清华&智谱 AI):基础模型为 ChatGLM 大模型。在工具使用排名国内第一,在计算、逻辑推理、传统安全能力上排名国内前三,更擅长专业能力,但代码能力有优化空间,知识百科稍显不足。可应用于 AI 智能体、较复杂推理、广告文案、文学写作等场景。 通义千问 2.0(阿里云):在语言理解与抽取、角色扮演能力上排名国内前一,在代码、生成与创作、上下文对话能力上排名国内前三,各项能力较为均衡。聚焦在移动设备端的应用,涵盖知识、记忆、工具、创作等方向,支持多种工具和文生文、文生图等场景。 Baichuan213BChat(百川智能):百川智能自主训练的开源大语言模型,是中文开源模型的主导力量。
2024-12-28
国内外最好的来源大模型有哪些 对比介绍一下
以下是国内外一些较好的大模型及其对比介绍: 国外大模型: GPT4 Turbo 总分 90.63 分遥遥领先,在各项能力上表现出色。 国内大模型: 文心一言 4.0(API)总分 79.02 分,过去 1 年有长足进步。 通义千问 2.0(阿里云):在代码、上下文对话基础能力上排名国内第一,各项能力较为均衡,位于国内大模型第一梯队,适合应用于金融、医疗、汽车等垂直专业场景及代码生成与纠错等场景。 AndesGPT(OPPO):在语言理解与抽取、角色扮演能力上排名国内前一,在代码、生成与创作、上下文对话能力上排名国内前三,各项能力较为均衡,聚焦在移动设备端的应用。 百川智能的 Baichuan213BChat:是中文开源模型的主导力量,在中文上表现优于国外开源模型。 在 SuperCLUE 测评中,国外模型的平均成绩为 69.42 分,国内模型平均成绩为 65.95 分,差距在 4 分左右,但国内外的平均水平差距在缩小。另外,国内开源模型在中文上表现要好于国外开源模型。
2024-12-28
AI数据来源
以下是关于生成式 AI 不同领域 2024 年 1 3 月的季度数据报告: 文字 社交: 数据来源:Similarweb,Visit,单位为万,变化公式为 3 月/2 月 1 100%。 3 月个人视频访问量为 71 万。 赛道方面:天花板潜力为 14 亿美金,对标公司无,总体趋势下滑严重,月平均增速为 5.7 万 PV/月,原生产品占比低,多为原有换脸产品升级。 竞争方面:Top1 占比 76%,Top3 占比 92%,马太效应较强,网络效应弱,大厂未入局,大厂占比低,技术门槛中。 Top1 公司(非大厂)为 Deepfakes Web,其最新月 PV 为 54 万。 音频大类: 网址:aiwatch.ai 数据来源:Similarweb,Visit,单位为万,变化公式为 3 月/2 月 1 100%。 赛道方面:天花板潜力为 200 亿美金,对标公司为 Spotify,总体趋势高速增长,月平均增速为 522 万 PV/月,原生产品占比高。 竞争方面:Top1 占比 33%,Top3 占比 53%,马太效应中,网络效应较高,大厂已入局,大厂占比低,技术门槛高。 Top1 公司(非大厂)为 sunoAI,其 3 月 PV 为 2192 万,单用户 PV 价值为 0.27 美元。 文字 教育: 网址:aiwatch.ai 数据来源:Similarweb,Visit,单位为万,变化公式为 3 月/2 月 1 100%。 赛道方面:天花板潜力约 30 亿,对标公司为 Chegg,总体趋势快速增长,月平均增速为 1793 万 PV/月,原生产品占比低。 竞争方面:Top1 占比 45%,Top3 占比 76%,马太效应弱,网络效应弱,大厂未入局,大厂占比低,技术门槛中。 Top1 公司(非大厂)为 Quizlet,其估值为 10 亿美元(2020.5),3 月 PV 为 1.3 亿,收入约 7500 万美元(2023),PS 为 13.3x,单用户 PV 价值为 7.5 美元。
2024-12-04