很多小伙伴在看完 Datawhale开源项目: self-llm 开源大模型食用指南后,感觉意犹未尽,想要深入了解大语言模型的原理和训练过程。于是我们(Datawhale)决定推出《Happy-LLM》项目,旨在帮助大家深入理解大语言模型的原理和训练过程。 本项目是一个系统 ...
2017 年谷歌将注意力机制引入神经网络,提出了新一代深度学习底层算法 Transformer。由于其在物体分类、语义理解等多项任务中准确率超过 CNN、RNN 等传统算法,且能应用于 CV、NLP 等多个模态,Transformer 的提出使得多任务、多模态的底层算法得到统一目前主流大 ...
快手可图大模型负责人李岩在演讲中介绍了可图大模型的相关情况,包括其技术特点、应用成果以及在模型选择与优化方面的思考,展示了快手在人工智能领域的技术实力和创新能力。 1. 可图大模型概述 - 模型体系全景:快手自研的可图大模型是图像生成大模型 ...
解码器是将编码输入和先前生成的标记转换为上下文感知输出的关键所在。 可以把它想象成艺术家,从草图中绘制出最终的画作。🖌️ STEP 1 - PROCESSING THE TARGET SEQUENCE STEP 1.1 Target Sequence Embedding 解码器首先对需要处理的序列进行嵌入,将原始数据转换为其能够 ...
在 LLM 推理中,常常会采用 KV Cache 来缓存之前 Token 的中间结果,以显著减少重复计算,从而降低自回归生成中的延迟。然而,KV Cache 的大小与序列长度成正比,在处理长序列时会面临极大的挑战。尤其当前许多模型开始支持几百 K 甚至几 M 的序列长度,进一步 ...
微软&清华最新研究,打破GPT系列开创的Decoder-Only架构——提出Decoder-Decoder新型架构,名为YOCO(You Only Cache Once)。 YOCO仅缓存一次键值对,可大幅降低GPU内存需求,且保留全局注意力能力。 一张图来看YOCO和标准Transformer的比较。 在处理512K上下文长度时,标准 ...
提出Decoder-Decoder新型架构,名为YOCO(You Only Cache Once)。 YOCO仅缓存一次键值对,可大幅降低GPU内存需求,且保留全局注意力能力。 一张图来看YOCO和标准Transformer的比较。 在处理512K上下文长度时,标准Transformer内存使用是YOCO的6.4倍,预填充延迟是YOCO的30.3倍,而 ...
这是微软再5月刚刚发布的一篇论文提出了一种解码器-解码器架构YOCO,因为只缓存一次KV对,所以可以大量的节省内存。 以前 ...