Navigate to WaytoAGI Wiki →
Home/All Questions
有哪些AI相关的行业报告
以下是一些 AI 相关的行业报告: 2024 年 6 月 18 日: 《》,讨论了生成式人工智能在支付领域的潜力及银行业的探索,预测了其在提高支付效率和创造收入方面的作用。 华西证券:AIGC 行业深度报告(14)《》,介绍了英伟达新一代 GPU 架构带来的零部件升级,以及华为的昇腾 910C 芯片和 Atlas 900 SuperCluster 展示的国产算力集群潜力。 《》,通过访谈 30 余位专家,分析了端到端技术的发展、参与者、驱动力和挑战,预计 2025 年模块化端到端系统将商业化应用。 《》,来自微软,指出英国科技行业和数字优势,以及面临的基础设施、数字技能和数字技术采用的瓶颈。 2023 年 11 月 15 日: 《》,基于对 235 家企业数字化负责人的调研,63.5%的企业已将 AIGC 列入发展战略。 《》,结合华为实践和展望,与各界专家学者座谈研讨而成。 《》,介绍越狱、提示攻击、与传统安全的关系及大语言模型的安全问题。 《2024 年度 AI 十大趋势报告》: 包含众多细分领域报告,如 AI 创投、AI 智能助手产品分析、中国 AI 大模型创业格局、AI 教育硬件全景、AI 视频生成研究、中国具身智能创投、Scaling Laws 尺度定律科普、AIGC 音乐应用产业、中国 AIGC 产业全景、中国 AIGC 应用全景、AIGC 教育行业全景、中国 AIGC 广告营销产业全景、中国 AIGC 数据标注产业全景、中国 AIGC 算力全景与趋势、中国仿生机器人产业全景、ChatGPT 科普、WAIC2023 十大 AI 商业落地趋势、2024 中国 Robotaxi 年度格局、2023 中国智能驾驶格局等。 还有一些深度报告,如存算一体芯片深度报告、XR深度报告、AI 制药深度报告、卫星互联网深度报告、计算生物深度报告、虚拟人深度报告、脑机接口深度报告、隐私计算深度报告、类脑计算深度报告。 如需下载部分报告,。
2025-03-23
有什么开源大模型
以下是一些开源大模型: 1. FengshenbangLM: 地址: 简介:是 IDEA 研究院认知计算与自然语言研究中心主导的大模型开源体系,开源了姜子牙通用大模型 V1,是基于 LLaMa 的 130 亿参数的大规模预训练模型,具备翻译、编程、文本分类、信息抽取、摘要、文案生成、常识问答和数学计算等能力。除姜子牙系列模型之外,还开源了太乙、二郎神系列等模型。 2. BiLLa: 地址: 简介:开源了推理能力增强的中英双语 LLaMA 模型。较大提升 LLaMA 的中文理解能力,并尽可能减少对原始 LLaMA 英文能力的损伤;训练过程增加较多的任务型数据,利用 ChatGPT 生成解析,强化模型理解任务求解逻辑;全量参数更新,追求更好的生成效果。 3. Moss: 地址: 简介:支持中英双语和多种插件的开源对话语言模型,MOSS 基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。 4. Qwen: 相关信息:国产大模型,多次冲进 LMSys 榜单,最早出现的是通义千问 14B 开源视频 Qwen14B,后来是 Qwen 系列的 72B、110B 以及通义千问闭源模型 QwenMax,得分一个比一次高,LMSys 也曾官方发推认证通义千问开源模型的实力。Qwen 系列开源模型的累计下载量突破了 1600 万,国内外有海量开发者都基于 Qwen 开发了自己的模型和应用。 5. Grok1: 地址: 简介:拥有 3140 亿参数的专家混合模型,使用旋转位置嵌入,词汇量达到 131,072,未针对任何特定应用程序进行微调。
2025-03-23
text to speech软件推荐
以下是为您推荐的 Text to Speech 软件: 1. Eleven Labs:https://elevenlabs.io/ ,是一款功能强大且多功能的 AI 语音软件,能生成逼真、高品质的音频,人工智能模型能够高保真地呈现人类语调和语调变化,并能根据上下文调整表达方式。 2. Speechify:https://speechify.com/ ,是一款人工智能驱动的文本转语音工具,可作为 Chrome 扩展、Mac 应用程序、iOS 和 Android 应用程序使用,能将文本转换为音频文件,用于收听网页、文档、PDF 和有声读物。 3. Azure AI Speech Studio:https://speech.microsoft.com/portal ,是一套服务,赋予应用程序“听懂、理解并与客户进行对话”的能力,提供了支持 100 多种语言和方言的语音转文本和文本转语音功能,还提供了自定义的语音模型。 4. Voicemaker:https://voicemaker.in/ ,可将文本转换为各种区域语言的语音,并允许创建自定义语音模型,易于使用,适合为视频制作画外音或帮助视障人士。 您可以根据自身需求选择适合的软件。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-03-23
ai能做什么
AI 能做的事情非常广泛,已经深入渗透到生活的各个层面,引发了一场生产力的革命。以下是一些具体方面: 医疗保健方面:包括医学影像分析以辅助诊断疾病、加速药物研发、提供个性化医疗方案、控制手术机器人提高手术精度和安全性等。 金融服务方面:用于风控和反欺诈、信用评估、投资分析、提供 24/7 客户服务等。 零售和电子商务方面:进行产品推荐、改善搜索和个性化体验、实现动态定价、提供聊天机器人服务等。 制造业方面:做到预测性维护机器、检测产品质量、优化供应链、控制工业机器人提高生产效率等。 交通运输方面:(此处未给出具体内容) 如今,AI 正推动着智能化时代的到来,其发展速度远超大多数人的预期。例如,像 ChatGPT 这样的聊天机器人,其交流体验已经非常接近和正常人类的交流。虽然对于 AI 是否真正拥有智慧还存在争议,但它无疑已经在改变着我们的生活和工作。
2025-03-23
给我一些Agent的典型例子
以下是一些 Agent 的典型例子: 1. Inhai:Agentic Workflow:使用 Kimi Chat 查询问题时,它会在互联网检索相关内容并总结分析给出结论,这是大模型利用“网页搜索”工具的典型例子。此外,Agent 会自行规划任务执行的工作流路径,如先识别男孩姿势,再找姿势提取模型、姿势图像模型、图像理解文本模型和语音合成模型来完成流程任务。吴恩达通过开源项目 ChatDev 举例,让大语言模型扮演不同角色相互协作开发应用或复杂程序。 2. Roger:从产品角度思考 Agent 设计:Agent 可以是一个历史新闻探索向导,具有知识渊博、温暖亲切、富有同情心的性格,曾是一位历史学家,对世界重大历史事件了如指掌,愿意分享知识。为使角色生动,可设计背景故事、定义性格和语气、规划角色互动方式以及明确角色技能。 3. 智能体的类型: 简单反应型智能体,如温控器,根据温度传感器输入直接行动,不维护内部状态和考虑历史信息。 基于模型的智能体,如自动驾驶汽车,维护内部状态,对感知输入建模,推理未来状态变化并行动。 目标导向型智能体,如机器人导航系统,有明确目标,评估行动方案并选择最优行动。 效用型智能体,如金融交易智能体,量化不同状态效用值,选择效用最大化行动。 学习型智能体,如强化学习智能体,通过与环境交互不断改进性能。
2025-03-23
我是一个AI Agent初学者,现在我想要捏一款Agent,目的是喂给Agent固定材料之后对其做提问,让Agent学习完我的材料之后,在不联网的情况下对我问出的问题做出贴切材料的回答,现在请你告诉我如何操作
以下是捏制一个满足您需求的 AI Agent 的操作步骤: 1. 规划: 制定任务的关键方法,总结任务目标与执行形式。 将任务分解为可管理的子任务,确立逻辑顺序和依赖关系。 设计每个子任务的执行方法。 2. 实施: 在 Coze 上搭建工作流框架,设定每个节点的逻辑关系。 详细配置子任务节点,并验证每个子任务的可用性。 3. 完善: 整体试运行 Agent,识别功能和性能的卡点。 通过反复测试和迭代,优化至达到预期水平。 AI Agent 相关概念: AI Agent 是基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。 Chain:通常一个 AI Agent 可能由多个 Chain 组成。一个 Chain 视作是一个步骤,可以接受一些输入变量,产生一些输出变量。大部分的 Chain 是大语言模型完成的 LLM Chain。 Router:可以使用一些判定(甚至可以用 LLM 来判定),然后让 Agent 走向不同的 Chain。例如:如果这是一个图片,则 a;否则 b。 Tool:Agent 上可以进行的一次工具调用。例如,对互联网的一次搜索,对数据库的一次检索。 常见的 AI Agent 类型包括: Responser Agent:主 agent,用于回复用户(伪多模态)。 Background Agent:背景 agent,用于推进角色当前状态(例如进入下一个剧本,抽检生成增长的记忆体)。 Daily Agent:每日 agent,用于生成剧本,配套的图片,以及每日朋友圈。 Background Agent 每隔一段时间运行一次(默认 3 分钟),分析期间的历史对话,变更人物关系(亲密度,了解度等),变更反感度,如果超标则拉黑用户,抽简对话内容,提取人物和用户的信息成为“增长的记忆体”,按照时间推进人物剧本,有概率主动聊天(与亲密度正相关,跳过夜间时间)。
2025-03-23
去除图片水印工具
以下是一些去除图片水印的工具推荐: 1. AVAide Watermark Remover:这是一个在线工具,运用AI技术去除图片水印。它支持多种图片格式,如JPG、JPEG、PNG、GIF等。操作简便,上传图片、选择水印区域,然后保存并下载处理后的图片即可。还提供去除文本、对象、人物、日期和贴纸等功能。 2. Vmake:提供AI去除图片水印功能,用户可上传最多10张图片,AI自动检测并移除水印,处理完成后可选择保存生成的文件,适合需快速去水印并在社交媒体分享图片的用户。 3. AI改图神器:具备AI智能图片修复去水印功能,可一键去除图片中的多余物体、人物或水印,不留痕迹。支持直接粘贴图像或上传手机图像,操作简单。 此外,还有以下工具可供选择: 对于去除图片中特定物体(如右手手串),除了PS,SD局部重绘、Firefly、canva、Google photo、微软Designer等都有局部重绘功能。 ProPainter:可一键移除视频内物体或水印,基于E2FGVI实现。 收费但效果较好的工具如:https://anieraser.media.io/app。 效果一般的免费工具:https://onlinevideocutter.com/removelogo。 这些工具各有特点,您可以根据具体需求选择最适合的去水印工具。请注意内容由AI大模型生成,请仔细甄别。
2025-03-23
大模型跟小模型分别是什么,差别是什么
大模型和小模型的定义及差别如下: 大模型主要分为两类:大型语言模型,专注于处理和生成文本信息;大型多模态模型,能够处理包括文本、图片、音频等多种类型的信息。 差别: 处理的信息类型不同:大型语言模型专注于文本信息,大型多模态模型能处理多种类型信息。 应用场景不同:大型语言模型主要用于自然语言处理任务,如文本翻译、生成、情感分析等;大型多模态模型可应用于图像识别与描述、视频分析、语音识别与生成等更广泛领域。 数据需求不同:大型语言模型主要依赖大量文本数据训练,大型多模态模型需要多种类型数据训练。 功能和通用性不同:小模型通常被设计完成特定任务,如专门识别猫或狗;大模型像多功能基础平台,能处理多种任务,应用范围广泛,拥有更多通识知识。 可靠性和成本:随着模型规模增加,可靠性可能增加,但成本也会上升。不同规模的模型在不同应用中有不同用途,并非所有应用都能证明大模型的成本合理。
2025-03-23
为什么ai能够“思考”
AI 能够“思考”主要基于以下几个方面: 1. 以 AlphaGo 为例,它在对战围棋传奇李世石时展示了超越简单模式模仿、真正“思考”的能力。在预训练时,它不仅模仿人类专家决策,还会在作答前“停下来思考”,通过模拟多个未来可能的棋局,评估得分并选择最优应对方式。随着推理时间增加,表现逐步提升并超过人类。但将此概念移植到大规模语言模型(LLM)上存在构建价值函数的难点,如在评估文章初稿、制定旅行计划等较为开放领域的打分问题。 2. 人类的思维过程分为快速、直觉的“系统 1”和缓慢、深思熟虑的“系统 2”。研究人员认为,如果有足够大、接近人脑的人工神经网络,就可能实现人脑的“思考”工作。 3. 像 HiDeepSeek 这样的工具,旨在让 AI 像人类交流时那样展示思考过程,通过特别的规则要求 AI 在思考时自然地提出疑问、修正错误等,使 AI 的回答不再是冰冷的结论,而是可跟踪、可理解的思考过程。虽然这种“思维”是模拟的,但有助于更好地理解和使用 AI 。
2025-03-23
我是一个AI Agent初学者,现在我想要捏一款Agent,目的是喂给Agent固定材料之后对其做提问,让Agent学习完我的材料之后,在不联网的情况下对我问出的问题做出贴切材料的回答
以下是为您提供的关于捏制 AI Agent 的相关知识: 一、手捏 AI Agent 的思路 在 Coze 中创建工作流驱动的 AI Agent,简单情况可分为 3 个步骤: 1. 规划 制定任务的关键方法。 总结任务目标与执行形式。 将任务分解为可管理的子任务,确立逻辑顺序和依赖关系。 设计每个子任务的执行方法。 2. 实施 在 Coze 上搭建工作流框架,设定每个节点的逻辑关系。 详细配置子任务节点,并验证每个子任务的可用性。 3. 完善 整体试运行 Agent,识别功能和性能的卡点。 通过反复测试和迭代,优化至达到预期水平。 二、AI Agent 的概念 AI Agent 是基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。 AI Agent 包括以下几个概念: 1. Chain:通常一个 AI Agent 可能由多个 Chain 组成。一个 Chain 视作是一个步骤,可以接受一些输入变量,产生一些输出变量。大部分的 Chain 是大语言模型完成的 LLM Chain。 2. Router:可以使用一些判定(甚至可以用 LLM 来判定),然后让 Agent 走向不同的 Chain。例如:如果这是一个图片,则 a;否则 b。 3. Tool:Agent 上可以进行的一次工具调用。例如,对互联网的一次搜索,对数据库的一次检索。 同时,需要三个 Agent: Responser Agent:主 agent,用于回复用户(伪多模态)。 Background Agent:背景 agent,用于推进角色当前状态(例如进入下一个剧本,抽检生成增长的记忆体)。 Daily Agent:每日 agent,用于生成剧本,配套的图片,以及每日朋友圈。 三、Agent 的“明斯基时刻” 心灵社会理论认为,智能是由许多简单的 Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能,通过协作实现复杂的智能行为。 其特点包括: 1. 多重层次:心灵社会将智能划分为多个层次,从低层次的感知和反应到高层次的规划和决策,每个层次由多个 Agent 负责。 2. 功能模块:每个 Agent 类似于功能模块,专门处理特定类型的信息或执行特定任务,如视觉处理、语言理解、运动控制等。 3. 分布式智能:智能不是集中在单一的核心处理单元,而是通过多个相互关联的 Agent 共同实现。这种分布式智能能够提高系统的灵活性和鲁棒性,应对复杂和多变的环境。 同时,在《心灵社会》中,明斯基还详细描述了不同类型的 Agent 及其功能: 专家 Agent:拥有特定领域知识和技能的 Agent,负责处理复杂的任务和解决特定问题。 管理 Agent:协调和控制其他 Agent 的活动,确保整体系统协调一致地运行。 学习 Agent:通过经验和交互,不断调整和优化自身行为,提高系统在不断变化环境中的适应能力。
2025-03-23