Chat with Wiki - WayToAGI

以下是为您从最基本的原理开始讲解的相关内容：强化学习：从最开始的 K 臂抽奖机器入手讲解了强化学习的基本原理，然后切入到 Qlearning 中学习如何使用 Q 表来进行强化学习，最后再借助神经网络将 Q 表替换成用函数来拟合计算 Q 值。参考文章： https://lilianweng.github.io/posts/20180123multiarmedbandit/ https://yaoyaowd.medium.com/%E4%BB%8Ethompsonsampling%E5%88%B0%E5%A2%9E%E5%BC%BA%E5%AD%A6%E4%B9%A0%E5%86%8D%E8%B0%88%E5%A4%9A%E8%87%82%E8%80%81%E8%99%8E%E6%9C%BA%E9%97%AE%E9%A2%9823a48953bd30 https://zh.wikipedia.org/wiki/%E8%92%99%E5%9C%B0%E5%8D%A1%E7%BE%85%E6%96%B9%E6%B3%95 https://rl.qiwihui.com/zh_CN/latest/partI/index.html https://github.com/ty4z2008/Qix/blob/master/dl.md https://hrl.boyuai.com/ http://zh.d2l.ai/ 苏格拉底辩证法及其第一性原理：这里所说的“辩证法”，是一种通过提问和回答，深入挖掘、质疑和明确观念的艺术，是始于苏格拉底的、源头上的“辩证法”。这门艺术可通过一系列问题，不断挑战人们对世界的既定认知，揭示其中的矛盾和不足，从而引领人们学会自我反思并走向真理。把 AI 作为方法，就是要用辩证法以对话方式引导出 AI 被预训练的世界级的知识和推理能力，然后使其变成我们可以重复调用的“专家级团队”。既然先进的大语言模型是预训练的、以自然语言对话为交互的，又因为人们创造“概念”是为了对事物达成共识，并能更好地交流，所以我们就选择从对话开始，追本溯源，探索如何对话、如何训练对话能力及如何操纵概念——直达认知事物的第一性原理，然后再回到应用上来。 Stable Diffusion：从艺术和美学的角度来看，扩散模型可以被理解为一种创作和表达过程，其中的元素通过互动和影响，形成一种动态的、有机的整体结构。前向扩散过程是一个不断加噪声的过程。例如，在猫的图片中多次增加高斯噪声直至图片变成随机噪音矩阵。对于初始数据，设置 K 步的扩散步数，每一步增加一定的噪声，如果设置的 K 足够大，就能够将初始数据转化成随机噪音矩阵。扩散过程是固定的，由 Schedule 算法进行统筹控制。同时扩散过程也有一个重要的性质：可以基于初始数据 X0 和任意的扩散步数 Ki，采样得到对应的数据 Xi 。反向扩散过程和前向扩散过程正好相反，是一个不断去噪的过程。将随机高斯噪声矩阵通过扩散模型的 Inference 过程，预测噪声并逐步去噪，最后生成一个小别墅的有效图片。其中每一步预测并去除的噪声分布，都需要扩散模型在训练中学习。