3.3.4. mermaid作图

        graph LR
    A["输入: 中国"] -->|注意力| C[MLP第𝑙层]
    B["输入: 首都"] -->|注意力| C
    C -->|神经元𝑚激活| D["输出: 北京"]