GPT模型的强大的理解能力源自其核心机制——自注意力。通过注意力机制,GPT模型能够根据前面的一些token来预测后面的token。
为了更深入地了解生成的新token受到前面哪个token的影响更大,仿照AlphaCode我开发了一个用于可视化注意力的网站。
通过观察生成的新token与前面的token之间的注意力关系,我们可以更加清晰地了解模型对不同token的关注程度。同时,网站还会显示当前位置概率前五的token,这有助于揭示模型对于不同上下文的理解和生成偏好,进一步加深对模型内部机制的认识。
😊 网站提供了默认的Opt-125m的示例文件,你也可以通过脚本自己生成对应的文件,从本地加载来进行展现。
演示视频:📺BiliVideo
备用地址:https://attn-visual.writingo.ink/
脚本Repo: https://github.com/cauyxy/bilivideos/tree/master/attn-visual
前端Repo: https://github.com/cauyxy/attn-visual