凤凰卫视推出全新AI数据业务发布“中文访谈对话数据集”

时间：2024-01-22 13:57:22 点击：910 次来源：杏彩体育官网

凤凰数据的核心目标是为 AI 时代的中华文化传播奠定坚实基础，让 AI 与中华文化认知对齐更简单。

11 月 13 日，在“数聚未来 —— 凤凰大模型数据研讨沙龙”上，凤凰卫视正式推出 “凤凰智媒 AI 数据业务”，并发布首批 “中文访谈对话数据集” 和 “正向价值对齐数据集”。

除上述两个数据集外，凤凰数据还有多个数据集正在加工生成中，包括面向财经领域的评论数据集、面向视频内容理解领域的视频问答数据集、面向数字人领域的谈话动作数据集和语音合成数据集等。同时，凤凰数据也在同有关数据伙伴共同构建具有高价值和稀缺性的高质量数据集，包括华语图文对数据集、华语书籍数据集和网络流行语数据集。

除了高质量数据集产品外，凤凰数据还将推出以数据为中心的一站式 AI 训练平台，计划于近期开放内测。平台将与高质量数据集市实现相互连通，确保数据在平台内的安全使用。平台也将提供一系列以数据为中心的服务，包括丰富的数据处理工具、可视化模型训练和微调套件、全面的数据和模型评估框架和多云异构的算力资源。

凤凰卫视执行副总裁兼运营总裁李奇表示，数据仍然是目前人工智能发展的短板之一。数据就像是AI时代的石油资源，它的开发和应用都将是一个系统工程，需要产业界无数企业一同参与。凤凰卫视作为一个立足香港、背靠内地、面向全球发展的国际媒体，也将是AI时代的积极参与者，期望发挥凤凰的媒体平台优势，为产业界建立一个共建共享的数据平台，共同推进人工智能的快速发展。

凤凰卫视融媒体研发副总经理冯伟表示，高质量的数据语料库是 AI 时代承载中华文化的新载体，凤凰数据的核心目标是为 AI 时代的中华文化传播奠定坚实基础，让 AI 与中华文化认知对齐更简单。

微博COO、新浪移动CEO 、新浪 AI 媒体研究院院长王巍在主旨演讲《数据赋能：微博探索AIGC多场景应用》中提出，围绕大模型，目前已形成由基础设施层、模型层、应用层共同构成的AIGC生态体系。对于媒体而言，AIGC将带来内容生产方式的变革，AIGC 时代的内容质量、效率及产量都将迎来快速地发展。在未来，AI将创造出一种新型的“人机共存消费模式”。

智谱 AI 副总裁刘佳带来《ChatGLM3: 模型、平台与应用》的主旨演讲。刘佳表示，随着 2020 年 ChatGPT 的问世，生成式 AI 步入 “第一阶段”。而在当前，市场已进入 “第二阶段”，生成式 AI 开始在千行百业落地。刘佳形容说，之前我们找到了锤子，现在我们要发现更多的钉子，让大模型的能力应用落地。

中国科学院信息工程研究所研究员张潇丹介绍了 “正向价值” 对于大模型的重要性。她表示，虽然大模型正处在蒸蒸日上的时代，但也存在诸多风险因素，比如虚假信息的生成、语言偏见等，这些风险源自于训练数据的偏颇、模型自身逻辑缺陷及缺乏纠错能力等，因此亟需建立大模型的正向价值体系。

香港科技大学 (广州) 协理副校长熊辉指出，虽然算力是行业公认的中国大模型面临的挑战之一，但在他看来，真正的挑战是数据。虽然国内大模型在中文数据上占有优势，但整体的中文数据在整个人类知识的数据体系中仅占很小一部分，中国大模型如何能够实际做到跨语言体系、跨文化体系，构建起高价值、高质量、全方位的数据集，仍然面临较大挑战。

视觉中国创始人、总裁柴继军表示，AIGC 将会对传统的版权生态形成极大挑战。在他看来，人类创作与机器创作能否实际做到人机协同尚无明确答案，如何更好地保护版权，让内容源头的创作者分享人工智能再创作的价值，也仍然充满挑战。

商汤科技数字文娱总经理栾青指出，当前市场对大模型的未来发展及应用暂时处在探索阶段，需要各方力量一起努力。作为发展大模型公司之一的商汤科技，她表示，凤凰卫视此次推出的数据平台令人振奋，期望行业中有更多的媒体、企业能去参加了，推出更多具备结构化、更丰富的数据资源。

中科闻歌创始合伙人兼 CTO 曹家认为，我们应该正视本土大模型与国外以 OpenAI 为首的大模型产品的差距，但本土大模型在中文能力仍具有一定优势。他表示，大模型的训练数据首先规模要足够大，其次需要平衡数据之间的内容配比，同时要保证数据的高质量，清洗掉数据中的冗余、劣质信息。

平台声明：该文观点仅代表作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。

凤凰卫视推出全新AI数据业务发布“中文访谈对话数据集”

时间：2024-01-22 13:57:22 点击：910 次 来源：杏彩体育官网

时间：2024-01-22 13:57:22 点击：910 次来源：杏彩体育官网