自然语言处理13
LLaMA2模型代码详解
Llama2 是 Meta 最近推出的大语言模型,它的训练数据集达到了两万亿个token。与前代产品 Llama 的 2048 的上下文长度相比,Llama2 的上下文长度扩展至 4096,使其能够理
...
大模型基础之归一化方法
对于预训练大型语言模型,训练的不稳定性是一个挑战性的问题。为了缓解这个问题,标准化被广泛地用作稳定神经网络训练的策略。在原始的Transformer中,采用了LayerNorm。近期,有几种高级的标准
...
大模型基础之旋转式位置编码(Rotary Position Embedding,RoPE)
旋转式位置编码(Rotary Position Embedding,RoPE),这是一种配合Attention机制能达到“绝对位置编码的方式实现相对位置编码”
...
大模型基础之Sinusoidal位置编码
近期,笔者深入研究了大模型中的位置编码工作。其中,Sinusoidal位置编码作为一篇基石性的研究,在"Attention Is All You Need"中
...
在本地CPU上运行大模型:深入解析大模型的运行机制!
大模型,尤其是近年来流行的GPT、Llama等大语言模型,已经在各种应用中取得了令人瞩目的效果。然而,随之而来的是模型大小的飞速增长,导致普通开发者和研究者难
...
【搜索算法入门系列】一、搜索系统简介
搜索系统又称为检索系统,一个检索系统通常是指一个用于查找、检索和提取信息的系统。这种系统广泛应用于各种领域,如互联网搜索引擎、企业信息检索、数字图书馆、内容管理系统等。一个典型的检索系统主要由以下几个
...
Efficient Streaming Language Models with Attention Sinks [论文翻译]
在流式应用中部署大型语言模型(LLMs),例如多轮对话这样的长时间交互场景,是迫切需要的,但存在两大挑战。首先,在解码阶段,缓存先前tokens的键和值状态(
...
SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models
生成型大型语言模型(LLM),如GPT-3,能够对各种用户提示生成高度流畅的响应。然而,众所周知,LLM会对事实产生幻觉,并做出非事实陈述,这可能会破坏对其输出的信任。现有的事实核查方法要么需要访问输
...
大语言模型中典型的涌现能力
在文献中,大型语言模型的“涌现能力”被定义为“一种在小型模型中不存在,但在大型模型中才会显现的能力”。这也是大型语言模型与之前的预训练语言模型最为显著的不同之
...
Scaling Laws:大语言模型成功背后的关键因素
目前,大语言模型(LLMs)主要基于Transformer架构,其中多头注意力层在非常深的神经网络中堆叠。现有的LLMs采用与小型语言模型相似的Transfo
...