vllm框架深挖
首先学一个最有意思的知识点大模型的工作流程1. 输入与切分Tokenization你发送问题后大模型首先将句子切分成Token。2. 向量化映射Embedding模型查阅巨大的“数字字典”将每个 Token 转化成一串长长的数字向量3. 神经网络计算Forward Propagation这些向量被送入拥有数千亿个参数权重的深层神经网络Transformer中。4. 语义压缩与注意力机制Attention经过上百层的层层计算模型精准理解上下文的深层逻辑并将整句话的语义压缩成一组隐藏状态矩阵。5. 概率分布预测Logits Softmax基于这组隐藏状态矩阵模型在内部巨大的词表中为每一个可能的“下一个 Token”计算出一个精确的概率值。6. 采样与解码Sampling Decoding模型按照这些概率进行“掷骰子”采样抽中一个 Token并将其翻译回人类能看懂的文字输出在屏幕上。7. 自回归循环Autoregressive Loop模型将刚刚吐出的 Token 拼接到原问题后面作为新的历史上下文重新送入神经网络重复第 3 至 6 步。如此周而复始逐字生成直到吐出代表“结束”的特殊符号EOS Token为止。

相关新闻