Navigate to WaytoAGI Wiki →

Home/Question List/Question Detail

目前全世界最厉害的视觉理解大模型是哪个

Answer

目前在视觉理解大模型方面，较为突出的有 DeepSeek 的 Janus-Pro 模型，它将图像理解和生成统一在一个模型中；还有通义千问的视觉理解模型，其价格有较大降幅。此外，Pixverse V3.5 是全球最快的 AI 视频生成模型，在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型，因为这取决于不同的评估标准和应用场景。

Content generated by AI large model, please carefully verify (powered by aily)

References

全新AI整活计划：鲸鱼

直到全世界再也无法忽视那头鲸鱼，DeepSeek的模型给全世界一个震撼，AI艺术家也用他们的方式进行表达。希望也能得到你的回应特此征集，大家一起用鲸鱼来表达，无论视频还是图像，让更多人看到。投稿地址：#小程序://腾讯频道/iitsoMH4nxixR2e或：https://pd.qq.com/g/pd17321136?tab=1&keyword=%E9%80%9A%E5%BE%80AGI%E4%B9%8B%E8%B7%AF&subc=675823847DeepSeek介绍[DeepSeek深夜发布大一统模型Janus-Pro将图像理解和生成统一在一个模型中](https://waytoagi.feishu.cn/wiki/SneLwRmsYiUaI6kvxltcEBPPnhb)[详解：DeepSeek深度推理+联网搜索目前断档第一](https://waytoagi.feishu.cn/wiki/D9McwUWtQiFh9sksz4ccmn4Dneg)

XiaoHu.AI日报

?Xiaohu.AI日报「12月31日」✨✨✨✨✨✨✨✨1⃣️?Pixverse V3.5模型发布全球最快的AI视频生成模型，Turbo模式下可在10秒内生成视频，最快仅需5-6秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能。具备顶尖动漫生成能力，仅需提示词即可快速生成动画画面。?[https://x.com/imxiaohu/status/1874093362032398471](https://x.com/imxiaohu/status/1874093362032398471)2⃣️?通义千问视觉理解模型降价最高降幅达85%。Qwen-vl-max输入价格降至0.003，输出价格降至0.009。对比Doubao vision Pro，输入价格也同为0.003。?[https://x.com/imxiaohu/status/1874084227568066608](https://x.com/imxiaohu/status/1874084227568066608)

XiaoHu.AI日报

?Xiaohu.AI日报「12月31日」✨✨✨✨✨✨✨✨1⃣️?Pixverse V3.5模型发布全球最快的AI视频生成模型，Turbo模式下可在10秒内生成视频，最快仅需5-6秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能。具备顶尖动漫生成能力，仅需提示词即可快速生成动画画面。?[https://x.com/imxiaohu/status/1874093362032398471](https://x.com/imxiaohu/status/1874093362032398471)2⃣️?通义千问视觉理解模型降价最高降幅达85%。Qwen-vl-max输入价格降至0.003，输出价格降至0.009。对比Doubao vision Pro，输入价格也同为0.003。?[https://x.com/imxiaohu/status/1874084227568066608](https://x.com/imxiaohu/status/1874084227568066608)

Others are asking

通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash，这3个视觉理解大模型哪个最厉害？

以下是对通义千问 Qwen2.5VL 模型的介绍：版本：有 3B、7B 和 72B 三个尺寸版本。主要优势：视觉理解能力：在 13 项权威评测中夺得视觉理解冠军，全面超越 GPT4o 与 Claude3.5。视频理解能力：支持超 1 小时的视频理解，无需微调即可变身为 AI 视觉智能体，实现多步骤复杂操作。万物识别：擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。精准的视觉定位：采用矩形框和点的多样化方式对通用物体定位，支持层级化定位和规范的 JSON 格式输出。全面的文字识别和理解：提升 OCR 识别能力，增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析：设计了更全面的文档解析格式，称为 QwenVL HTML 格式，能够精准还原文档中的版面布局。增强的视频理解：引入动态帧率（FPS）训练和绝对时间编码技术，支持小时级别的超长视频理解，具备秒级的事件定位能力。开源平台： Huggingface：https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope：https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat：https://chat.qwenlm.ai 然而，对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型，目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容，因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看，其在视觉理解方面具有较强的能力和优势。

目前全世界最厉害的对视频视觉理解能力大模型是哪个

目前在视频视觉理解能力方面表现出色的大模型有： 1. 昆仑万维的 SkyReelsV1：它不仅支持文生视频、图生视频，还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL：在 13 项权威评测中夺得视觉理解冠军，全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解，无需微调即可变身为 AI 视觉智能体，实现多步骤复杂操作。擅长万物识别，能分析图像中的文本、图表、图标、图形和布局等。

目前全世界最厉害的视频视觉理解大模型是哪个

目前全世界较为厉害的视频视觉理解大模型有以下几个： 1. 昆仑万维的 SkyReelsV1：不仅支持文生视频、图生视频，是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元：语义理解能力出色，能精准还原复杂的场景和动作，如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5：全球最快的 AI 视频生成模型，Turbo 模式下可在 10 秒内生成视频，最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能，具备顶尖动漫生成能力。

哪些AI可以支持对镜头的视觉理解

以下 AI 可以支持对镜头的视觉理解： 1. 通义千问的 Qwen2.5VL 模型：具有以下优势：视觉理解能力：在 13 项权威评测中夺得视觉理解冠军，全面超越 GPT4o 与 Claude3.5。视频理解能力：支持超 1 小时的视频理解，无需微调即可变身为 AI 视觉智能体，实现多步骤复杂操作。万物识别：擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。精准的视觉定位：采用矩形框和点的多样化方式对通用物体定位，支持层级化定位和规范的 JSON 格式输出。全面的文字识别和理解：提升 OCR 识别能力，增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析：设计了更全面的文档解析格式，称为 QwenVL HTML 格式，能够精准还原文档中的版面布局。增强的视频理解：引入动态帧率（FPS）训练和绝对时间编码技术，支持小时级别的超长视频理解，具备秒级的事件定位能力。开源平台： Huggingface：https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope：https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat：https://chat.qwenlm.ai 2. OpenAI 的 GPT4：在 12 月发布的更新中正式上架了“视频理解”功能，可以和用户就便签内容进行讨论。 3. 基于豆包视觉理解模型实现的具有视频通话功能的应用：能够对摄像头传输的实时画面进行分析，精准理解画面中的关键信息，包括图表论文人物表情、动作细节、场景环境等。同时支持高清流畅的视频通话，实现和大模型面对面的即时交流体验。

如何用AI 驱动的产品营销创新，从内容创作到视觉呈现的全方位变革？

以下是关于如何用 AI 驱动产品营销创新，从内容创作到视觉呈现的全方位变革的一些方法和案例：一、内容创作方面 1. 利用 AI 分析工具研究市场趋势、消费者行为和竞争对手情况，以获取关键信息，为营销内容创作提供方向。 2. 借助 AI 文案工具撰写有说服力的产品描述和营销文案，提高转化率。二、视觉呈现方面 1. 通过 AI 生成图像或素材，再结合平面合成及修正，确保符合品牌形象，精准表达营销活动主题，如淘宝天猫大促视觉的案例。 2. 对于需要定制化真人模特实景素材的主题活动，利用 AI 将策划、搭建、拍摄、设计融为一个闭环流程，完成页面所有素材的生产和输出，例如七夕主题活动页面。 3. 在 UI 设计场景中，采用 AI 能力快速定制多种用户需要的视觉效果，如通过 SD 中 controlnet 的有效控制生成指定范围内的 ICON、界面皮肤等内容。三、在阿里巴巴营销中的应用 1. 关键词优化：利用 AI 分析和推荐高流量、高转化的关键词，优化产品标题和描述，提高搜索排名和可见度。 2. 产品页面设计：借助 AI 设计工具根据市场趋势和用户偏好自动生成吸引人的产品页面布局。 3. 图像识别和优化：使用 AI 图像识别技术选择或生成高质量的产品图片，展示产品特点。 4. 价格策略：依靠 AI 分析不同价格点对销量的影响，制定有竞争力的价格策略。 5. 客户反馈分析：通过 AI 分析客户评价和反馈，优化产品和服务。 6. 个性化推荐：利用 AI 根据用户的购买历史和偏好提供个性化的产品推荐，增加销售额。 7. 聊天机器人：使用 AI 驱动的聊天机器人提供 24/7 的客户服务，解答疑问，提高客户满意度。 8. 营销活动分析：借助 AI 分析不同营销活动的效果，了解哪些活动更能吸引顾客并产生销售。 9. 库存管理：依靠 AI 帮助预测需求，优化库存管理，减少积压和缺货情况。 10. 支付和交易优化：利用 AI 分析不同的支付方式对交易成功率的影响，优化支付流程。 11. 社交媒体营销：通过 AI 在社交媒体上找到目标客户群体，进行精准营销提高品牌知名度。 12. 直播和视频营销：使用 AI 分析观众行为，优化直播和视频内容，提高观众参与度和转化率。四、大型视觉模型 Sora 的机遇 1. 对于学术界，OpenAI 推出 Sora 标志着战略转变，鼓励更广泛的 AI 社区深入探索文本到视频模型，利用扩散和变换器技术。以原生大小训练 Sora 的创新方法为学术界提供了灵感，强调使用未修改数据集的好处，开辟了创建更高级生成模型的新路径。 2. 对于行业，Sora 目前的能力预示着视频模拟技术进步的道路，突出了在物理和数字领域内增强现实感的潜力。公司可以利用 Sora 生产适应市场变化的广告视频，并创建定制化的营销内容，降低成本，增强吸引力和效果，彻底改变品牌与受众互动的方式。

视觉大模型的代表模型有哪些

以下是一些视觉大模型的代表模型： 1. Flamingo：一系列视觉语言（VL）模型，能处理交错的视觉数据和文本，并生成自由格式的文本输出。 2. BLIP2：引入资源效率更高的框架，包括用于弥补模态差距的轻量级 QFormer，能利用冻结的 LLM 进行零样本图像到文本的生成。 3. LLaVA：率先将 IT 技术应用到 MM 领域，引入新型开源 MM 指令跟踪数据集及基准 LLaVABench 以解决数据稀缺问题。 4. MiniGPT4：提出简化方法，仅训练一个线性层即可将预训练的视觉编码器与 LLM 对齐，复制 GPT4 的功能。 5. mPLUGOwl：提出新颖的 MMLLMs 模块化训练框架，结合视觉上下文，包含 OwlEval 教学评估数据集。 6. XLLM：扩展到包括音频在内的各种模式，具有强大的可扩展性，利用 QFormer 的语言可迁移性应用于汉藏语境。 7. VideoChat：开创高效的以聊天为中心的 MMLLM 用于视频理解对话，为该领域的未来研究制定标准。 8. Sora：符合视觉模型的规模化定律，是第一个展示确认新兴能力的视觉模型，包括遵循指令、视觉提示工程和视频理解等功能，能够根据人类指令生成长达一分钟的视频。 9. CLIP：开创性的视觉语言模型，将变压器架构与视觉元素结合，能在多模态生成框架中充当图像编码器。 10. Stable Diffusion：多才多艺的文本到图像 AI 模型，采用变压器架构和潜在扩散技术生成各种风格的图像。

现在做数据分析比较厉害的ai是什么

目前在数据分析方面表现较为出色的 AI 工具包括智谱清言、Open Interpreter 等。 AI 在数据分析中具有以下优势： 1. 降低入门门槛：过去学习数据分析需要掌握编程语言和专业知识，现在通过 AI 工具，门槛大大降低。 2. 规范的分析流程：对于初学者来说，AI 直接做的数据分析比他们自己第一次做的更好，其规范化流程更严谨，结果更可靠。 3. 自动化处理：会自动进行模型选择以匹配数据，还能根据 log 检查错误并改正源代码。 4. 减少重复性工作：重复性劳动可先交给 AI 做，人类用户只需做验证和检查结果。实际应用的工具方面，GPT4 可以帮助建立和评估机器学习模型，Claude 等大语言模型可以进行数据分析和可视化，Open Interpreter 等工具可以辅助编程和数据处理。使用时的建议包括：对 AI 结果要进行严格验证，不要完全依赖 AI，要保持独立思考，对 AI 的能力边界有清晰认识，合理使用以提高工作效率。同时，AI 应被视为辅助工具而非完全替代品，人类在整个过程中仍起主导作用和具有判断力。

你现在是一个特别厉害的预言家，告诉我ai什么时候能统治世界

目前关于 AI 何时能统治世界尚无确切定论。但从相关研究来看，各国已将 AI 上升为国家战略，视其为下一代全球竞争的制高点。如果某一国家率先突破真正的 AGI，其国际地位和影响力或将急剧攀升。例如俄罗斯总统普京曾警告“谁在人工智能上领先，谁就能统治世界”。 AGI 实现后可能会在未来 20 年给人类社会带来多方面的变革。在经济与社会结构方面，AGI 可能带来生产力的爆炸式增长，同时导致大规模技术性失业，财富可能更多地集中于拥有 AGI 资本的少数人。在文化、价值观与信仰方面，AGI 将挑战人类对智能与意识的认知，引发对“人之为人”意义的新思考，人类价值观可能在科学理性与精神信仰之间重新定位。在政治与权力结构方面，AGI 可能重塑全球权力版图，拥有先进 AI 的国家和跨国企业将获得前所未有的影响力，可能出现“AI 寡头”新统治阶层，引发社会分化，各国还可能陷入 AGI 军备竞赛。此外，有观点认为 2045 年，人工智能将超越人类智能，届时人类的知识、思考能力等将发生巨大变化。但目前这仍只是一种预测。

你有知道那些做AI比较厉害的培训课程

以下是一些比较厉害的 AI 培训课程： B 站 up 主的课程：每节 15 分钟，免费且内容好，涵盖 AI 艺术字等。由白马老师和麦菊老师带领的 AI 星图及相关创作课程，包括毛毡字、光影字、机甲字等。 16 号晚上中老师会带领的炼丹操作课程，炼丹需提前准备一些图，老师会提前发布内容让大家准备。关于 AI 文旅视频的课程，几位老师带来了干货课程，工作流开源，学习后可制作类似视频。高效 PB 及相关案例课程，有厉害的伙伴，案例在社区，有多种 battle 方式，会有菩萨老师专门介绍。 11 月 2 号左右将开展博物馆奇妙日主题活动的新的 AI 视频主题课程。 AI 音乐相关课程，有 AI 音乐的流派和 prompt 电子书，格林同学做了翻译。以下是一些其他的课程资源：一位投资人推荐的课程： MIT Deep Learning： Stanford CS 324Advances in Foundational Models： The Full Stack LLM Bootcamp：野菩萨的课程：预习周课程：包括 AI 绘画电脑配置要求、高效 AIGC 创意者的数字人工具包、SD 插件安装方法、画静为动的 AIGC 视频制作讲解等。基础操作课：涵盖 AI 绘画通识课、AI 摄影虚拟的真实、AI 电影穿越的大门等内容。核心范式课程：涉及词汇的纸牌屋、核心范式应用、控制随机性等方面。 SD WebUi 体系课程：包括 SD 基础部署、SD 文生图、图生图、局部重绘等。 ChatGPT 体系课程：有 ChatGPT 基础、核心文风、格式、思维模型等内容。 ComfyUI 与 AI 动画课程：包含部署和基本概念、基础工作流搭建、动画工作流搭建等。应对 SORA 的视听语言课程：涉及通识欢迎参加电影的葬礼、影像赏析、基础戏剧影视文学等。如果想要免费获得野菩萨的课程，可以来参与 video battle，每期的 video battle 的评委野菩萨老师都非常严格，需要寓意深度审美并存。冠军奖励 4980 课程一份，亚军奖励 3980 课程一份，季军奖励 1980 课程一份，入围奖励 598 野神殿门票一张。您可以扫码添加菩萨老师助理，了解更多课程信息。

大模型的系统提示词

大模型的系统提示词主要包括以下方面： 1. 在“五津：一键生成‘摸鱼打工猫’视频”中，针对用户选择的主题和回答，总结用户的创作意图，如“打工猫摸鱼的 2 小时，在巴厘岛能看一场日落”，并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词，以数组形式输出到“tishici”，将用户意图输出到“biaoti”。 2. 在“云中江树：智能对决：提示词攻防中的 AI 安全博弈”中，系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意；模型侧对于有能力的厂商应增强安全性并平衡性能，开发者则要在开发中带着安全意识优化系统提示词，加入安全引导和禁止内容等；输出侧可使用传统防御和内容过滤手段，并针对大模型特点进行私有数据泄露等检查。此外，还提到间接注入和提示词泄露的情况，间接注入常发生在应用获取依赖外部数据资源时，攻击者通过隐藏恶意指令完成攻击；提示词泄露指试图操纵模型输出获取部分或全部系统提示词，大模型输出内容可分为系统提示词、用户提示和助手提示词三段，通过攻击手段可获取系统提示词。

大模型对话产品的优劣

大模型对话产品具有以下优点： 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验，具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接，产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务，适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景，如私有领域知识问答、个性化聊天机器人、智能助手等。大模型对话产品也存在一些缺点： 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情，全靠用户脑补，导致用户上头期短，疲劳度高，长期留存低。 3. 无法回答私有领域问题（如公司制度、人员信息等）。 4. 无法及时获取最新信息（如实时天气、比赛结果等）。 5. 无法准确回答专业问题（如复杂数学计算、图像生成等）。

coze搭建工作流调用deepseek如何把模型的输出存入到多维表中

以下是将模型的输出存入到多维表中的步骤： 1. 逐步搭建 AI 智能体：搭建整理入库工作流。设置大模型节点提取稍后读元数据，使用 MiniMax 6.5s 245k，设置最大回复长度至 50000，以确保能完整解析长内容网页。进行日期转时间戳，后续的飞书多维表格插件节点在入库日期字段时只支持 13 位时间戳，需要使用「日期转时间戳time_stamp_13」插件进行格式转化。把稍后读元数据转换为飞书多维表格插件可用的格式，飞书多维表格插件目前（2024 年 08 月）只支持带有转义符的 string，以 Array<Object>格式输入，所以必须将之前得到的元数据数组进行格式转换。添加「飞书多维表格add_records」插件，只需要设置{{app_token}}与{{records}}参数，将元数据写入飞书表格。 2. 搭建 Coze 工作流：打开 Coze 的主页，登录后，在【工作空间】创建一个智能体。在编排页面，给智能体编辑好人设，可先写一个简单的，然后点右上角自动优化，系统会自动补全更精细的描述。点击工作流的+，创建一个工作流。大模型节点把 input 给到 DeepSeek，让 DeepSeek 按照提前规定的输出框架生成对应文案。生图节点将输出给到图像生成组件画图。结束输出时，两个输出给到最终的 end 作为最终的输出。注意在编写系统提示词时，如果需要 input 可被 DeepSeek 调用，需要用{{input}}作为参数引入，不然大模型不知道自己需要生成和这个 input 相关的结果。编排完，点击【试运行】，调试至满意后点击发布。

我想知道全世界最新的AI资讯

以下是为您提供的全世界最新的 AI 资讯： 2024 年 10 月 1 日：Notion 近期进行了重构更新，增强了内置 AI 功能，采用对话式交互，用户可通过聊天与 AI 进行工作安排，并能跨页面、跨应用调用素材。但写作辅助功能在复杂文本处理上存在局限。Notion 以出色的 UX 设计和社区支持在效率软件领域领先。推荐 6 个精准的海外 AI 信息渠道，包括 TechURLs（科技媒体汇总）、Toolify.ai（AI 产品导航和排行榜）、SimilarWeb（数据分析工具）、A16Z（硅谷知名投资机构）等，适合对 AI 感兴趣的读者和行业从业者。 12 月 25 日： AI 绘画：Recraft AI 更新了 60 种新的图像风格，用户可生成和编辑插画、海报、产品周边等，每日有免费试用点数，允许商业使用。地址：https://www.recraft.ai/ AI 公文智能体：学习强国 x 百度 AI 推出的“学习强国公文助手”在文小言 APP 正式上线，可进行文汇检索、AI 公文书写、AI 公文润色等。使用方式：下载文小言 APP，找寻学习强国公文助手。关于最新的国内大模型排名，可能会有变化。您可以查阅相关科技新闻网站、学术论坛或关注人工智能领域的社交媒体平台获取最新信息。在通往 AGI 之路的知识库里，会定期更新相关排名报告。但请注意内容由 AI 大模型生成，请仔细甄别。

全世界最先进的模型是什么

目前全世界较为先进的模型包括： Meta 发布的 Meta Movie Gen 文生视频模型，Meta 称其为“迄今为止最先进的媒体基础模型（Media Foundation Models）”，但模型未公开上线。相关链接：https://ai.meta.com/research/moviegen/ 媒体报道：量子位：Meta 版 Sora 无预警来袭！抛弃扩散模型，音视频生成/画面编辑全包，92 页论文无保留公开 https://mp.weixin.qq.com/s/rs7JQigqHO9yT_0wbF6cTg 歸藏的 AI 工具：Meta 发布视频生成和编辑模型，来看看项目负责人的论文导读 https://mp.weixin.qq.com/s/BLXNgCW0vAHNZtHgd4623g OpenAI 的 GPT4 是其最新和最强大的模型，GPT3.5Turbo 是为 ChatGPT 提供支持的模型，此模型专为对话模式进行了优化。相关链接：https://platform.openai.com/docs/quickstart Llama 3.1 是迄今为止最大版本，其在推理、数学、多语言和长上下文任务中能够与 GPT4 相抗衡。这标志首次开放模型缩小与专有前沿的差距。此外，由 DeepSeek、零一万物、知谱 AI 和阿里巴巴开发的模型在 LMSYS 排行榜上取得了优异的成绩，尤其在数学和编程方面表现尤为出色。中国的最强模型与美国生产的第二强前沿模型竞争，同时在某些子任务上挑战了 SOTA。中国模型更能优先考虑计算效率，以弥补 GPU 访问的限制，并学会比美国同行更有效地利用资源。中国模型各有优势。例如，DeepSeek 在推理过程中通过多头隐式注意力减少内存需求，并且改进了 MoE 架构。同时，零一万物更加关注数据集的建设而不是建筑创新。由于在像 Common Crawl 这样的流行存储库中相对缺乏数据，因此它更加关注建立强大的中文数据集来弥补不足。