自然语言处理14

大模型RLHF中PPO的直观理解

1. RLHF的流程 大模型的核心方法非RLHF(reinforcement learning from human feedback)莫属了。简单来说,RLH ...

LLaMA2模型代码详解

Llama2 是 Meta 最近推出的大语言模型,它的训练数据集达到了两万亿个token。与前代产品 Llama 的 2048 的上下文长度相比,Llama2 的上下文长度扩展至 4096,使其能够理 ...

大模型基础之归一化方法

对于预训练大型语言模型,训练的不稳定性是一个挑战性的问题。为了缓解这个问题,标准化被广泛地用作稳定神经网络训练的策略。在原始的Transformer中,采用了LayerNorm。近期,有几种高级的标准 ...

大模型基础之旋转式位置编码(Rotary Position Embedding,RoPE)

旋转式位置编码(Rotary Position Embedding,RoPE),这是一种配合Attention机制能达到“绝对位置编码的方式实现相对位置编码” ...

大模型基础之Sinusoidal位置编码

近期,笔者深入研究了大模型中的位置编码工作。其中,Sinusoidal位置编码作为一篇基石性的研究,在"Attention Is All You Need"中 ...

在本地CPU上运行大模型:深入解析大模型的运行机制!

大模型,尤其是近年来流行的GPT、Llama等大语言模型,已经在各种应用中取得了令人瞩目的效果。然而,随之而来的是模型大小的飞速增长,导致普通开发者和研究者难 ...

【搜索算法入门系列】一、搜索系统简介

搜索系统又称为检索系统,一个检索系统通常是指一个用于查找、检索和提取信息的系统。这种系统广泛应用于各种领域,如互联网搜索引擎、企业信息检索、数字图书馆、内容管理系统等。一个典型的检索系统主要由以下几个 ...

Efficient Streaming Language Models with Attention Sinks [论文翻译]

在流式应用中部署大型语言模型(LLMs),例如多轮对话这样的长时间交互场景,是迫切需要的,但存在两大挑战。首先,在解码阶段,缓存先前tokens的键和值状态( ...

SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models

生成型大型语言模型(LLM),如GPT-3,能够对各种用户提示生成高度流畅的响应。然而,众所周知,LLM会对事实产生幻觉,并做出非事实陈述,这可能会破坏对其输出的信任。现有的事实核查方法要么需要访问输 ...

大语言模型中典型的涌现能力

在文献中,大型语言模型的“涌现能力”被定义为“一种在小型模型中不存在,但在大型模型中才会显现的能力”。这也是大型语言模型与之前的预训练语言模型最为显著的不同之 ...