LLM通常系列

电脑网络维修
2024-11-14

通过了数据搜集、挑选、去重，马上就可以开局训练试验了。然而在试验之前，咱们还须要先失掉一个言语模型的基石：分词器（Tokenizer）。Tokenizer 的作用是对一条文本数据启动切分、词表映射，失掉这条文本的token序列。

用开源 Tokenizer 还是自己训练

Tokenizer可以自己训练，也可以从目前开源的模型中扒一个来用，用开源Tokenizer有几个点须要着重关注：

有开源tokenizer，训练自己的tokenizer意义何在？用自己的数据训练的 tokenizer，在同词表大小的状况下，会比开源tokenizer有更高的紧缩率（也不会高太多），可以必定水平降落训练和推理老本。另外更客观一点的要素是，训tokenizer是个很基础的上班，训不训必定水平上反映了团队的技术栈能否片面。还有一点须要留意的是，不同紧缩率的tokenizer训练的模型loss或许有差异，然而性能不会有太大差异。

经典的分词器有WordPiece 、subword-nmt、Unigram等等，然而这些并不是本文的重点，本文关键说目前最盛行的两种tokenizer：BPE和BBPE。

BPE（Byte Pair Encoding）

BPE是目前大模型干流的两种分词法之一，训练环节总结成一句话就是：迭代兼并最高频的token对，直到抵达预设词表大小下限。举个详细的例子来说，假定我要训练一个词表大小是12的tokenizer，训练语料就是上方这句话：

“淡水潮潮潮潮潮潮落,浮云长长长长长长长消”

1、这句话首先会按字拆分红：海水潮潮潮潮潮潮落 , 浮云长长长长长长长消。

我没数错的话算上逗号应该是总共有9个不重复的字。这些字会被当作初始token，参与词表。如今咱们离指标词表大小还差12-9=3个token，上方开局迭代兼并。

2、统计曾经参与词表的一切token两两组合在训练语料中出现的次数。

这里有两点留意，首先是“”，也就是说每次迭代参与新token后，下一次性统计两两组合要算上这个新token。其次是“一切token两两组合”，也就是既要统计A token与B token的组合，也要统计A token与自身的组合。比如上方这个句子，咱们要统计“淡水”、“水潮”、“潮潮”、”潮落“....这些一切两两组合出现的次数。

3、取两两组合中出现次数最高的那一个，作为新token参与词表，同时记载下这个token的分解门路。

比如上方“潮潮”和“长长”是出现次数最高的组合，都出现了5次，那么咱们取更早出现的“潮潮”作为本无所谓参与词表的新token，同时记载下”潮“+”潮“=”潮潮“。如今词表大小为10。

4、假设词表没有到达设定的下限12，那么就迭代口头2-3步。

再一次性统计两两组合出现次数，这一次性最多的就是刚才并列第一的“长长”。当然也不要遗记上一步刚参与的“潮潮”这个token，他可以和前面的token组成“水潮潮”，也可以和前面的token组成“潮潮潮”，不过次数都不如“长长”。所以这一次性参与词表的是“长长”。

再迭代一次性，再统计组合，此时次数最多的是“潮潮”+“潮” 组成的“潮潮潮”，以及“长长”+“长”组成的“长长长”，区分出现4次。依照之前的准则，取次数最多且更靠前的“潮潮潮”参与词表，此时词表大小为12，训练中止，咱们曾经失掉了大小为12，在“淡水潮潮潮潮潮潮落,浮云长长长长长长长消”上训练的分词器。

BPE的训练环节还是很便捷很好了解的，然而还是有一些须要留意的中央。上方的解释中有两个我刻意谨严表白的点，一个是「取次数最多且更靠前的“潮潮潮”参与词表」，另一个是「“潮潮”+“潮” 组成的“潮潮潮”，以及“长长”+“长”组成的“长长长”」。前者想说明token参与词表的顺序是有先后的，是有优先级的，后者说明token的分解门路模式须要严厉遵照，扭转词表或许造成失误的分解门路。

特地强调这个是由于我看到一些改词表的开源上班其实是有疑问的。举个我看到的实践的例子，有一个地名”乌鲁木齐“，假定词表中蕴含”乌鲁“和”鲁木“两个token。首先说可无法能出现这俩token？齐全或许，假设我的训练语料是上方这样的就会出现这两个token：

乌鲁乌鲁鲁木鲁木齐

这个语料训进去的tokenizer词表大略率是这样的：「乌」「鲁」「木」「齐」「乌鲁」「鲁木」

假设词表里乌鲁这个token在前，分词结果就是「乌鲁」「木」「齐」，假设是鲁木这个token在前，分词结果就是「乌」「鲁木」「齐」。分词结果是不一样的。假设拿到一个训练过的模型，改一改词表顺序，肯能会造成分词结果的不分歧，模型或许齐全没有见过这样的token，造成一些无法了解的怪异生成结果。

再说分解门路，假设我的词表是「乌」「鲁」「木」「齐」「乌鲁」「木齐」，起初扩增了词表，参与了「乌鲁」+「木」=「乌鲁木」，和「乌鲁木」+「齐」=「乌鲁木齐」两个token，「乌鲁木齐」这个token是分解不进去的，由于「木齐」在「乌鲁木」之前，所以优先分解「木齐」，而不是「乌鲁木」，那么没有「乌鲁木」，人造无法分解「乌鲁木齐」。假设要启动词表删减、扩增，或许两个tokenizer启动兼并，尤其要留意这个疑问。

BBPE（Byte-Level Byte Pair Encoding）

BBPE和BPE大体上是一样的，区别在于BPE把文本看作字符汇合，第一步是依照字符切分取得初始token，BBPE把文本看作是二进制编码，依照8bit切分取得原始token。比如还是上方那句话，会先转成utf8编码：

“淡水潮潮潮潮潮潮落,浮云长长长长长长长消” =>

"\xe6\xb5\xb7\xe6\xb0\xb4\xe6\xbd\xae\xe6\xbd\xae\xe6\xbd\xae\xe6\xbd\xae\xe6\xbd\xae\xe6\xbd\xae\xe8\x90\xbd\x2c..."

而后取每一个2位16进制数作为初始token，也就是「\xe6」「\xb5」「\xb7」...这些。剩下的统计两两组合、分解门路都和BPE是一样的，不过都是在二进制层面去兼并。咱们知道utf8是变长编码，ascii字符在utf8中的编码长度是1，也就是刚好一个2位16进制数。比如我上方句子里的逗号对应的utf8编码是“\x2c”。所以ascii字符必定会作为一个基础字符参与词表，而且也不会被拆分，所以英文单词、数字这种ascii字符组成的词，必定是整数个token示意的。然而汉字的编码长度大局部是3，比如“海”的编码是“\xe6\xb5\xb7”，这就造成汉字在bbpe的词表中并不必定是1个、2个字这种整数个token组成。或许是3/2个token示意一个汉字。

BBPE与BPE的对比

从盛行度来说，BPE是去年、前年大家广泛经常使用的方法，而BBPE是去年底到往年的模型关键经常使用的方法。GPT2经常使用的tokenizer也是BBPE。

从编码的角度，有一些文章说BBPE对比BPE的优势是不存在OOV疑问，字符只需能转utf8，就必定能被BBPE示意，然而实践口头起来并不是，由于大局部BPE的库也支持bytes退步，遇到超出词表范畴的字符，也会退步到二进制示意。这么看上去BBPE剩下的优势就是多语种下、token切分更平均。毕竟一个中文能占3/2个token了。

从成功的角度，BPE的tokenizer用sentencepice库的居多，BBPE用huggingface的tokenizers库的居多，然而sentencepice库产出的tokenizer.model实质是一个protobuf文件，可以用protobuf库读出这个tokenizer原始的训练参数，甚至带着训练语料的磁盘门路，不太安保。

训练参数

除了最基本的词表大小外，实践训练的tokenizer还有一些可性能关键参数。我比拟青睐读google的文档，就拿sentencepice的训练参数来引见了，两个库的可性能参数其实差不多，可以类比。

--vocab_size

tokenizer预设的词表大小。最终模型训练的时刻，咱们普通会确保embedding层的shape可以被128整除，这个一方面是为了量化思考，一方面是为了序列并行思考。所以可以在这一步间接设置一个能被128整除的词表大小，也可以这里不设置，等tokenizer训练完了加一些不凡token，补到128的倍数。另外词表大小也选择了紧缩率。

--character_coverage

字符笼罩率。这个示意在最一开局，初始单字token要笼罩训练语料中所有token的百分之多少。假设是1，示意一切token只需出现就参与初始词表，这会造成词表的单字token过多。普通可以设置0.9998、0.9999，示意初始单字token要笼罩训练集字符的99.99%

--max_sentencepiece_length

繁多token最多多少个字符组成，普通设为2、4、6，8或以上就比拟大了，不太介绍，或许会出现低频超长token。

--split_digits

能否做数字的分歧性切分，说白了就是数字和其余token能否可以组分解新token，还是数字必定一个字符一个token不做兼并。早期一些上班以为开了对数学义务无好处，然而从我的试验过去看，是可以关上，但不是必定。数字在人造界是平均散布的，也就是说1、2、3还是111、222、132、863数量其实是差不多的，所以就算不开分歧性切分，这些token也都应该在词表里。只需模型训练充沛，模型是能分辨111和1 1 1是一个物品的。我不时以为不应该对言语模型的泛化抱有太失望的态度，它就只能说出见过的话。所以我不指望在欠训练的模型上，依赖分歧性切分提高数学才干。当然这是现实状况，假设数据集预备的不充沛，不能保障一切这些数字都出如今词表里，可以手动把0-9999参与到词表里，这样既坚持分歧性，又能提高紧缩率。说个题外话，前段期间知乎高端行讨论为什么9.11>9.8，我以为就是token欠训练，又刚好没有泛化过去。为什么没有泛化过去呢？由于真的有9.11大于9.8的时刻。python3.11就大于python3.8

--allow_whitespace_only_pieces

准许多个空格作为一个token，普通是准许，关键是为了排版，比如python的代码排版。当然也可以不开，手动把1-20个空格组成的token参与到词表里。

-user_defined_symbols

这个关键就是为了性能之前说的不凡token，可以预留几百比如<reserved_0> <reserved_1> ...，假设要手动参与数字的分歧切分和延续空格token，也可以在这里加

--byte_fallback

之前说的二进制退步，让BPE当半个BBPE用

--remove_extra_whitespaces

能否删除多余空格，这个普通改为False，不要让tokenizer随意动咱们的空格。

--unk_id 、--bos_id、--eos_id、--pad_id 、 --unk_piece、--bos_piece、--eos_piece、--pad_piece

指定控制字符和ID，这外面如今咱们普通只用pad和eos。在训练的时刻文档或许一个turn的末尾参与一个eos token。须要做padding补齐的时刻拼pad token，也可以间接用eos token当补齐token。不过倡导四个都设置上，也算是致敬一下之前的NLPer

番外篇1:tokenizer与loss

不同tokenizer的紧缩率，每个token的消息量是不同的，这就造成不同tokenizer在同一份数据下训练进去的模型loss不一样。假定不思考训练tokenizer的语料品质差异，那么tokenizer的紧缩率越高，同一个文本分词后发生的token越少，整句话的平均loss就越高。同样紧缩率越低，一句话的loss通常也越低。然而实践推理起来，两种tokenizer训进去的模型成果差异不大，所以更多的还是从效率和老本的角度思考紧缩率的取舍吧。

再引申一下，从这一点上不由让咱们升起一个纳闷，loss能代表模型性能吗？答案是不行。其实同loss不同tokenizer、同loss不同参数量的模型性能都不一样。这个详细可以等写到scaling law拟合、模型性能预测或许continue pretraining的时刻再讨论。

番外篇2：看一看实在的tokenizer

再拿qwen2的tokenizer举例，qwen2的tokenizer时BBPE，关键文件有这么几个：

merges.txt就是保管分解门路的文件，外面看上去会有一些像乱码的物品：

这些其实是转义后的控制字符。前面也说了BBPE的初始token是2位16进制数。假设间接存这些二进制字符，或许被翻译成ascii码中的控制字符，比如换行制表符之类的，所以这里坐了下转义。

vocab.json是每次token的映射id，tokenizer_config.json外面可以性能一下控制字符。tokenizer训练完之后假构想加不凡字符，也可以在这里性能。

番外篇3:词表增减疑问

词表的修正最好出当初模型训练之前，包括tokenizer兼并、参与不凡token、自定义token等等，这其中还尤其要留意参与词表。言语模型训练的时刻，计算logits时是hidden_states和一切token的logits_weight的乘积，softmax也是一切token的归一，删除词表相当于减小归一化的分母，会造成最后sample时的概率出现变动。参与token则跟要小心，假设参与的token未经训练，或许造成归一化后乱掉。假设参与的token初始化的不好，比如反常token是1e-2，新参与的token是1e-23量级，rms norm会回传给embedding层一个大略在1e21量级的梯度。这个时刻假设你开了梯度裁切，在求梯度的模长的时刻1e21求平方间接变成inf，再归一化其余token，一切token梯度都会变成0，这样你不太看得进去报错，然而embedding实践一点没训。

再有就是前文强调过的，留意解决分解门路和token顺序的抵触疑问。

本文转载自，作者：

关注微信

上一篇：你值得领有！！！ Qwen2.5系列模型开源

下一篇：大模型微调终极指南

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：https://duobeib.com/diannaowangluoweixiu/5460.html

LLM通常系列

用开源 Tokenizer 还是自己训练

BPE（Byte Pair Encoding）

BBPE（Byte-Level Byte Pair Encoding）

BBPE与BPE的对比

训练参数

番外篇1:tokenizer与loss

番外篇2：看一看实在的tokenizer

番外篇3:词表增减疑问

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

Python 代码用途无量你必定把握的 30 短小精悍个

u盘win10系统不识别怎么修复

将任何内容转化为单行代码管道操作符新 JavaScript

数据库DynamoDB的迁徙全环节详解

深度技术winxp下Internet选项打不开该怎么办

关注我们

LLM通常系列

用开源 Tokenizer 还是自己训练

BPE（Byte Pair Encoding）

BBPE（Byte-Level Byte Pair Encoding）

BBPE与BPE的对比

训练参数

番外篇1:tokenizer与loss

番外篇2：看一看实在的tokenizer

番外篇3:词表增减疑问

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号