LOADING

加载过慢请开启缓存 浏览器默认开启

LLM初探

AN OVERVIEW ON LANGUAGE MODELS: RECENT DEVELOPMENTS AND OUTLOOK

Chengwei Wei1, Yun-Cheng Wang1, Bin Wang2, and C.-C. Jay Kuo1

1University of Southern California, Los Angeles, California, USA
2National University of Singapore, Singapore

・"For this next step of my blog let me compare the population of California

and Alaska"

・"Ok let's get both of their populations"

・"I know that I am very likely to not know these facts off the top of my head,

let me look it up"

・"[uses Wikipedia] Ok California is 39.2M"

・"[uses Wikipedia] Ok Alaska is 0.74M"

・"Now we should divide one by the other. This is a kind of problem I'm not going

to be able to get from the top of my head. Let me use a calculator"

・"[uses calculator] 39.2 / 0.74 = 53"

・"(reflects) Quick sanity check: 53 sounds like a reasonable result, I can continue."

・"Ok I think I have all I need"

・"[writes] California has 53X times greater..."

・"(retry) Uh a bit phrasing, delete, [writes] California's population is 53 times

that of Alaska."

・"(reflects) I'm happy with this, next."

"California's population is 53 times that of Alaska."

Human text generation vs. LLM text generation

深度学习模型在处理文本数据时需要将文本分解成可理解的单元,以便进行各种文本相关的任务。模型需要通过这些单元来思考、分析和做出决策。

Structural LM

Bidirectional LM

它们用来理解句子中的词语之间的关系。有时候,句子中的某个词会被替换成一个特殊的符号 [MASK],这样句子就不完整了。这种模型的目标是通过大量没有标记的文本来学习语言的含义。

不同于其他语言模型,这种模型不是用来生成文本,而是作为一种基础模型,可以在后续的任务中进行微调,以帮助我们更好地理解语言和处理各种不同的问题。简单来说,它们帮助我们了解句子中词语之间的关系,并且可以用来做更多的工作

Permutation LM

有两种不同的语言模型,一种叫做 "masked LM",另一种叫做 "CLM"。它们各自有好处和不足之处。"masked LM" 需要使用一些特殊标记,比如 [mask],但这些标记在实际应用中并不会出现。而 "CLM" 只考虑文本的前面部分内容。

另外还有一种新型模型,叫做 "permutation LM"。它结合了 "CLM" 和 "masked LM" 的优点。这个模型的工作方式是,给定一组词语,它会随机改变词语的顺序,就像把单词的排列方式打乱一样。然后它会根据不同的排列方式来预测下一个词语是什么。

Statistics-based Subword Tokenizers

它们会找出文本中经常出现的一些字母组合,然后用一个新的符号(就像是一个新词)来代替这些字母组合。这个新符号在原来的文本中是不存在的,但它可以帮助我们用更少的字节来表示相同的信息。

举个例子,假设原来的文本中有很多次出现了 "ing" 这个字母组合,这个工具可以把它替换成一个新的符号,比如说 "$",这样文本就变得更短了。但是,使用这个新符号仍然可以准确地传达相同的信息。这对于在计算机中存储和传输大量文本信息时非常有用。

Byte Pair Encoding (BPE)

P(AB)/P(A)P(B) (rather than the highest frequency P(AB)) at each iterative step. For example, WordPiece merges the pair of “u” and “g” in Fig.3_______________________WordPiece.

CHATGPT训练步骤


Self-Organizing Feature Map/Proximal Policy Optimization

大模型训练关键优化技术总结

ZeRO1/2/3内存优化策略、重计算、3D并行、序列并行

高频算子优化:充分利用L1/L2 Cache提升Cube利用率

融合Kernel & Transformer加速库

高性能Kernel动态调度和下发

集合通信优化: SDMA&RDMA通信流水化及带宽复用

断点续训、按故障影响范围分级恢复,保障业务高可用

未来工作展望

1.面向在线服务的JCT job completion time) 的调度和batching优化, 缩短服务时延

2.基于计算图的weight预取与Cache驻留优化,提升访存性能

3.异腾亲和的FlashAttention2&业界最新融合算子实现, 提升计算性能

4.支持更丰富的量化计算组合、模型稀疏,降低内存占用