LLM - 搜索 News

1 天on MSN

谷歌 TurboQuant 重磅发布：LLM 键值缓存内存压缩 6 倍、速度提升 8 倍 ...

3月26日消息，谷歌研究团队（Google Research）近日正式推出全新向量量化压缩算法TurboQuant，通过创新的 PolarQuant 与 QJL 技术，将大语言模型（LLM）推理过程中的内存需求减少至少6倍，在 Nvidia H100GPU 上注意力计算速度提升最高8倍，且在多项长上下文基准测试中实现零精度损失。这一突破性进展有望大幅降低 ...

1 天on MSN

谷歌TurboQuant算法革新：LLM键值缓存内存锐减6倍，速度飙升8倍且精度 ...

谷歌研究团队近日宣布推出一项名为TurboQuant的突破性向量量化压缩算法，该技术通过创新双阶段压缩框架，成功将大语言模型推理过程中的键值缓存（KV Cache）内存需求降低至少6倍，同时在Nvidia H100 GPU上实现注意力计算速度最高8倍的提升。这项成果在保持模型精度的前提下，为长上下文AI应用的规模化部署提供了关键技术支撑。

1 天

谷歌新论文证明LLM可以少吃80%内存，闪迪盘中跌去50亿美元

3 月 24 日，Google Research 发布了一套名为 TurboQuant 的向量量化压缩算法，宣称能将大语言模型的 KV 缓存（Key-Value Cache）压缩至仅 3 比特，同时实现零精度损失。在 NVIDIA H100 GPU ...

腾讯网

在线教程丨狂揽7.7万stars，LLM Course覆盖从入门到进阶的干货知识与 ...

作者：李宝珠编辑：yudi转载请联系本公众号获得授权，并标明来源一个名为 LLM Course 的开源项目自发布以来便受到广泛关注，至今已获得 7.7 万 stars，其将分散在论文、博客与代码实践中的知识，重新组织成一套结构清晰、路径明确的学习体系 ...

腾讯网

IBM将llm-d分布式推理框架捐赠给CNCF

IBM Research专门从事AI混合云平台的杰出工程师Carlos ...

5 天

太疯了！MIT博士在Transformer里造计算机，攻破LLM终极缺陷

【导读】炸裂！就在刚刚，一位MIT博士，在Transformer里造出个计算机。现在，模型一举洗刷「9.11与9.9哪个大」的耻辱，几秒内运行数百万步程序，世界最难数独准确率100%！大模型的能力边界，从此彻底改变。

18 小时

维基百科向 AI 下“逐客令”：严禁 LLM 生成内容，违者或遭处罚

维基百科长期以来对生成式 AI 的“模糊态度”终于走到了终点。 3 月 27 日，据 OSCHINA 报道，维基百科发布了最新的政策变更声明，正式明确：禁止使用大语言模型（LLM）生成或重写文章内容。这一政策在维基百科庞大的志愿者编辑群体中获得了压倒性支持。禁令升级：从“不建议”到“严厉禁止” 维基百科此次修订彻底终结了此前较为暧昧的表述：核心冲突：维基百科指出，由 LLM 生成的文本通常会 ...

中国新闻网

京东公布五项AI进展开源大模型JoyAI-LLM Flash 并推出“龙虾天团”

“龙虾”火爆出圈，但高昂的token消耗让不少开发者和中小企业望而却步；机器人跳舞打拳刷屏，却因落地场景有限而被质疑......AI技术加速迭代的同时，成本效率和性能难平衡、产业落地“最后一公里”难打通，已经成为行业共性痛点。3月24日，京东公布部分 ...

虎嗅网

Sora之死，LLM与AGI路径

Sora的失败，表面看来是OpenAI正在回到它所赖以起家的大语言模型（LLM）。它用语言模型开辟了AGI之路，但是真正坚持语言模型并且可能已经打通这条路径的，是Anthropic，其创业团队正是OpenAI的一群叛将。

2 天

从LLM大模型到SLM小模型再到TinyML，这个领域有望增长31倍并催生新的 ...

边缘AI与DePIN结合，提升商业化潜力。生成式人工智能GenAI是否存在泡沫？这个问题日益成为业界热议的焦点。目前，全球对AI基础设施的投资已到了癫狂的成千上万亿美元的规模，然而大模型如何实现盈利却始终没有一个明确的答案。在众说纷纭之际，有一个领域的潜力却常常被低估，那就是边缘侧的人工智能（Edge AI）。作为一个方兴未艾的领域，边缘AI与云端AI可谓迥然不同。那些在数据中心行之有效的方法 ...