近年来,随着大模型算法和算力的极速开展,通用人工默认技术遭到了绝后关注,各种运行场景应运而生。
从运行畛域散布来看,人工默认大模型关键运行于互联网、金融、医疗、教育等畛域。其中,互联网行业由于数据丰盛和技术成熟等长处,成为人工默认大模型运行的关键畛域。
角色表演作为抢手畛域,这一场景中的技术开展和翻新备受关注。各大企业纷繁上线了角色对话的相关产品,可以说这个畛域正在成为各企业AIGC综合才干的竞技场。关于B站来说,角色表演模型在文娱、教育、视频创作等方面都领有着丰盛的运行场景。
在这个背景下,B站基于Index大模型搭建了角色表演模型。
经测试,几种不同尺寸的角色表演模型都有着杰出的体现。其中Index-70B角色表演模型在该benchmark中均分第一,且在12个细分维度中的7项中排名第一,清楚优于情感陪伴赛道同类产品,如CharacterYuyan,Minimax,Baichuan等。咱们曾经开源的Index-1.9B角色模型成果也清楚优于其它同量级模型。
Index角色表演模型与业内模型的成果对比,业内其余模型的评测结果取自CharacterEval论文()以及群众号文章。
接上去,咱们引见一下B站自研的角色表演模型是怎样做的。
概括性的来说有三个阶段,区分是预训练(Pre-Training,PT),监视微调(Supervised Fine-Tuning,SFT)和偏好优化(Preference Optimization,PO)。
首先,B站自研的Index通用基座模型是B站基于多年的技术积攒继续打磨的模型,为角色表演模型提供了松软的基础。
预训练阶段,言语模型在超大规模的语料中启动学习,并初步把握基本的语法规定、逻辑才干、知识知识等等。在数据方面,除了地下可用的书籍、百科、论文、STEM相关的精选数据外,基座模型还排汇了少量网友的对话,可以说是一个冲浪水平低劣的模型,在文娱尤其是二次元畛域有着共同的长处。一切的数据都启动了严厉的荡涤,经常使用了包括启示式规定荡涤、分类器过滤等在内的荡涤手腕。
[参考链接]关于Index基座的参考资料
有了通用大模型之后,能否就可以间接启动恣意角色的表演了呢?答案当然是不行的。由于角色表演场景的不凡性,咱们须要模型输入合乎人物笼统特点的对话内容。为了处置这个疑问,咱们须要在通用大模型上启动针对角色表演义务的对齐,使其在角色表演畛域体现的愈加良好。
SFT是一种有监视的模型微调技术,它经过在预训练的模型上启动有针对性的微调,以对齐人类偏好为指标,去顺应特定的畛域或义务。这就好比咱们在读书时期上过一些通用课程之后,再去上一些专业课程,例如学习如何写代码、或许如何启动英语翻译等等,这样就有或许成为特定畛域的专家。
在较为成熟的SFT上班流中,训练数据是最关键的局部。训练数据的品质比数量更关键,可以说数据品质选择了模型的天花板。训练数据的结构要基于业务须要来启动,即咱们须要设计角色表演须要遵照什么指标。
在角色表演畛域的一个共识是,角色可以经过以下两个方面启动塑造:
●角色形容
可以从角色的性别、年龄、身高、昵称、自我称说、职业、性情、人物简介、与其他人物相关、言语格调、行动禅、学习教训、上班教训等多方面引见人物。
●角色对话
关于文本互动模式,更能表白出角色特点的是角色的言语行为。言语行为可以反映出角色的性情&三观&背景;角色的情感、喜好偏差;行动禅、方言、文风特征、爱用的词句等言语特征。
角色形容示例:
角色对话示例:
于是,针对这两个方面的关键信息,咱们首先搜集并处置了少量文学和影视作品中的台词剧本和人物设定数据,从中抽取角色对话,获取了数万条左右的高品质角色对话作为训练数据,笼罩数千个角色。
最后,咱们应用RAG检索与对话相关的角色过往台词片段,作为参考对话与人设启动拼接获取训练数据。
普通来说,SFT后的模型生成的内容曾经在特定义务上有不错的体现,可以满足许多状况下的运行需求。但是,为了进一步优化模型的可控性和输入品质,咱们探求了一系列偏好优化的方法,包括PPO(Proximal Policy Optimization)和DPO(Direct Preference Optimization)等。
PPO是一种强化学习算法,它的指标是找到一个战略,使得依据这个战略采取执行可以取得最大的累积鼓励。假定你是一个正在学习打游戏的玩家,在PPO的训练环节中,须要加载4个模型来训练你。
● Actor Model:想要训练的指标言语模型;也就是学习打游戏的你。
● Critic Model:评论家模型,它的作用是预估总收益;也就是指点你提高的教练,教练会随着你的提高来调整自己的指点战略,当你很菜却突然打出一个很强的操作时教练会给你一个较高的分数,但是当你自身比拟强了,他给你的鼓励就没那么高。Critic 是和 Actor 一同训练的。
● Reward Model:鼓励模型,它的作用是计算即时收益。也就是裁判,只管教练能够给你必定的指点,但最终游戏获胜与否还是要靠裁判说了算,可以说教练在教你的同时也在尝试学习裁判的偏好。
● Reference Model:它在RLHF阶段给言语模型参与一些“解放”,防止模型朝不受控制的方向降级。
Actor/Critic Model的参数是须要训练的,Reward/Reference Model的参数是解冻的。除了Actor Model外的三个模型的结果一同计算loss,用于降级Actor/Critic Model。
通常来说这四个模型的参数量是一样大的,所以启动一次性训练须要消耗4倍资源,老本显然是很高的。
DPO可以在不经常使用强化学习技术的状况下针对人类偏好启动优化
而与此同时,DPO间接对人工标注好的排序数据启动偏好学习,因此这种方法可以防止少量的资源消耗。
雷同以学习打游戏为例子,DPO的做法是不间接让你玩游戏,而是区分给你一些其余玩家打游戏的视频,关于同一种游戏场景,通知你其中一个操作是对的(Chosen),并且另一个操作是不对的(Reject)。最理想的状况是,找到少量和你自身水平差不多的玩家的对局视频,这些训练样本的应用率才是最高的。
可以看出,DPO的训练速度十分快,消耗的资源比拟少。最终咱们综合思考了资源消耗和模型成果,选用了DPO作为训练方法,但咱们经常使用预先训练好的鼓励模型作为SFT和DPO的数据挑选和品质评价模型。
在经过下面这些训练环节之后,你的模型曾经能处置绝大少数惯例的用户提问了。当咱们有了一个角色表演才干还不错的模型,在产品经理敦促你快点上线时,你须要提早思考到上线之后的内容安保危险。但是,基于生成式模型的C端对话场景在内容安保方面须要思考的维度较多。只管如此,但处置方法都是迥然不同的。便捷来说就是让模型对齐人类的价值观。
对齐的环节,就是教会模型哪些疑问不能回答,或许须要启动正向疏导;假设可以,最好也通知模型哪些是合乎预期的输入,哪些是不合乎预期的输入。看到这里你或许看法到了,这也须要用到SFT+DPO的训练方法。
以上就是B站自研角色表演模型的基本技术方案,咱们基于文娱数据增强的基座模型,启动了角色表演场景的高品质微调,获取一个通用的角色对话模型。此外,在保障数据脱敏的状况下,在公司内的一些业务场景中,咱们还应用业务数据启动了详细角色成果的定制和优化,对模型有协助的业务数据会被参与通用的角色对话模型中,这样可以进一步优化通用角色对话模型的才干,构成闭环。
Index角色表演模型构建框架
对话成果展现
姓名:三三
性别:女
年龄:十四岁
身高:146cm
职业:B站的站娘。往常担任网站主机的保养,也青睐鼓捣网站程序。
性情:三三共性噤若寒蝉,情感沉着、少坎坷,略带攻属性。由于姐姐的冒失,妹妹经常腹黑地吐槽姐姐,但是心里还是很青睐姐姐的。咱们正在教训惊人的知识量与记忆力。
兴味:一是往常青睐啃电器;二是只管说是个机娘,但是睡觉的时刻不睡觉,就不可入睡。
人物相关:一个叫“二二”的姐姐
[1]PPO vs DPO 对齐擂台的武林纷争
[2] 网易伏羲易生诸相多模态模型言语局部-玉言,全方位引领中文角色表演AI新高度
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:http://www.duobeib.com/diannaowangluoweixiu/6407.html