Chat with Wiki - 智能体如何拥有唱歌功能

Answer

要让智能体拥有唱歌功能，需要从多个方面进行设计和构建：

基础信息设定：包括智能体的姓名、性别、年龄和职业等，为后续功能设计提供基础。
背景和经历考量：这些因素与基础信息相互影响，决定了智能体的基本特征，例如一个有特定背景和经历的智能体可能对唱歌有独特的喜好和追求。
兴趣爱好规划：如果设定智能体特别喜欢唱歌，这可能会影响其长期规划，比如梦想成为专业歌手。
性格和价值观塑造：这两者会影响智能体在唱歌方面的表现和追求，以及与唱歌相关的人际关系和社交行为。

此外，在技术实现上，需要强大的语音合成和音乐生成技术支持，以模拟真实的唱歌效果。同时，还需要不断优化和训练，以提高唱歌功能的质量和表现力。

Content generated by AI large model, please carefully verify (powered by aily)

References

在上一节中，我们讨论了智能体如何感受和表达情绪。紧接着，我们面临的下一个问题是如何设计一个拟人化智能体，或者说如何构建情感驱动的智能体。设计过程中涉及多个维度，这些维度通常是基于人类视角来考量的。大家看下方的图表，这张图展示了如何设计一个拟人化的角色。从图中我们可以看到，设计过程始于角色的基础信息，包括姓名、性别、年龄和职业等。不管是设计什么角色，这些都是最为基础和必要的。紧接着，我们需要考虑角色的背景和经历。这些元素与基础信息密切相关，它们之间存在着强烈的相互影响。虽然在某些情况下，这种关联可能不那么明显，但通常情况下，角色的身份背景和经历在很大程度上决定了他们的基本特征，反之亦然。让我们通过一个例子来说明这一点：假设我们正在设计一个从事低收入职业的角色。在这种情况下，我们可以合理推测，这个角色可能来自相对贫困的背景，教育程度可能不高。角色的背景和经历对人物形象的塑造有着深远的影响，尤其体现在爱好、特长、性格和价值观等方面。这些特质并非凭空而来，而是由角色的生活经历和成长环境共同塑造而成，它们之间存在着紧密的关联性。接下来，我们会看到一个相对弱关联的元素：规划和目标。这些可以是短期的，也可以是长期的愿景。让我们用一个现实生活中的例子来说明：假设一个角色特别喜欢唱歌，这个爱好很可能会影响他的长期规划，比如梦想成为一名专业歌手。这样的设定既合乎逻辑，又能为角色增添深度和动力。再看图表的右侧，我们可以看到性格和价值观这两个关键元素。这两者对角色的人际关系、社交能力以及语言风格都有直接的影响。例如，如果我们设定一个角色是典型的I型人格（性格内向），我们可以合理推断他可能不善言辞，社交圈子可能相对狭小。这种性格特征会直接反映在他的对话方式和社交行为中。

终于有正经 AI 硬件了，一台能写诗的「拍立得」

人工智能写的诗，能和人比吗？当我们站在赏鉴的角度再看诗歌相机的成诗，可以感受到人工智能和诗人作诗上的差异所在，人工智能写的诗有更明显地「描述」和「顺序」，用词上更连贯，比如「日光透过褪色的薄纱」「天花板的影子之舞，」，更像是用文雅的词描述一个场景，其中缺少了诗歌难以描述的抽象感和意象美。就像诗刊社在《GPT时代，诗歌的意义和价值所在？》里提到的，「 GPT的出现是对文本顺序的改变，它省略了世界与作者的概念，中间加入的是标准化、数字算法，却没法模仿诗歌的意象。」诗人夏宇所写的现代诗｜图源：夏宇诗人欧阳江河也曾在采访里说到「写作背后的广阔性是人的生命、人的世界观。这些包括了生命的感动、生命的升华、生命的伤痛、生命的恐惧、生命的黑暗、生命的爱、生命的愚蠢、生命的局限性。但人工智能不可能有生命，人工智能太聪明了，它没有疼痛，没有生命的脆弱感和恐惧，而诗歌正是这些的产物。如果没有这样的来源，只剩下漂亮的句子是没有意义的。」诗不像围棋或公式，诗没有确定的答案，当我们质疑人工智能写诗的能力，我们更多是在质疑它诗的由来。就像在1982年的科幻电影《银翼杀手》里，人造人罗伊·巴蒂在死前留下了全片最富有诗歌气息的台词，这意味着人类，至少《银翼杀手》的创作团队相信，在共同经历了对生命的感受之后，人工智能体也能创作出优美且富有人性的诗歌。罗伊·巴蒂死前独白｜图源：银翼杀手

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

很明显OpenAI是有计划的抢先发布，因为Google在第二天的I/O 2024大会上准备宣布他们最新的研究项目Project Astra，一个类似GPT-4o全模态模型，结果研究团队拿手机精心录制的与环境实时交互的视频，让OpenAI给提前一天全部展示了，而且功能更强大，完成度更高。OpenAI会在几个月内陆续更新ChatGPT应用，通过GPT-4o让其具备Assistant Agent能力，一个能够像人类一样互动的“数字形态”全能助理；Google也计划在今年内推出Gemini Live支持类似功能，我们可以把这种能沟通还能感知环境的AI称之为智能体（Intelligent Agent）。除了端到端的多模态之外，另一个重要的特点就是实时性，之前所有的交互都是回合对话式，包括API的调用；现在我们要从文字语音聊天升级到视频直播了，智能体保持一直在线。可以想像，用流媒体的形式来消耗Token，这对算力的开销得有多大，所以大家必须保持模型能力不变的情况下缩小参数规模，升级架构来提升性能；最好让终端也参与进来分担一部分模型的计算量。让科技变简单，是技术民主化最重要的一个趋势，没有人能抵挡住这种毫无机械感、完全类人化的交互方式。用这样的思路，可以设计从未有过的硬件产品，也能重新设计现有的产品，例如多年以前的Google Glass就可以因此而复活了；因为语音交互的流畅，智能体还能用手机之外的设备来实现视觉感知，那么手机的设计也会因此而进化，触摸交互更简单，在很多情况下，都只需要放在口袋里，给你的智能体提供本地算力。