AI教育｜大语言模型LLM 背后原理是甚么？教师：改变人类的文字接龙｜星岛教室

更新时间：14:00 2026-03-25 HKT
发布时间：14:00 2026-03-25 HKT

如果你曾玩过早期的角色扮演游戏（RPG），一定有过这种让人抓狂的体验：你来到城堡门口，面对守门的小兵。他回答：「你好！请出示通行证。」无论你尝试多少种搞怪的互动，得到的都是相同回复。这种「对话撞墙」的感觉，是因为传统游戏背后是一套「固定剧本」。玩家一旦做出剧本预设以外的行为，系统就会因为找不到对应指令而「跳针」，完全无法沟通。然而，随着「大语言模型」的出现，这场对话的规则被彻底颠覆了。现在的AI就像人类，不再被动地进行条件匹配，而是能真正「理解」你的意图。

何谓「大语言模型」？

谈及现时广为人知的AI，大家常提起的不外乎是ChatGPT、DeepSeek、豆包等等，但大家又知否它们其实是甚么？是AI、模型，还是一个程式、系统？

其实，它们本质上都是一种「大语言模型」（Large Language Model，简称LLM）。要拆解这个充满科技感的名词，我们得从它的三个字面意义看起，这能帮助我们看清它的真面目：

「大」——数据与参数的双重巨大：这里的「大」有两层意义︰1. 数据量大，它读过的文字量，来自网络上海量的资料，包括新闻报道、书籍论文、甚至是大家在网络论坛上的讨论；2. 参数规模大，参数就像人工智能大脑里的神经元连接点，数量高达数千亿个，参数越多，模型捕捉逻辑及理解能力就越强。

「语言」——掌握沟通规律：它专门学习人类说话的规律、语法和情感表达。透过海量的阅读，它不止学会单字，更掌握文字之间的「关联强度」与「逻辑结构」。

「模型」——训练后的科技结晶：当科学家透过「神经网络」及各种复杂演算法，从海量的资料中训练出来的成品，就称为「模型」。你可以把它想像成一个装满了知识与规律的「大脑」。

「词元」与「词向量」

当我们与大语言模型对话时，我们输入的是「文字」，但对电脑来说，它其实只认识「0」与「1」。为了让AI能够处理语言，它会经过两个关键转换步骤：

拆解「词元」（Token）︰在AI开始「读」你的说话之前，它会先把句子分拆。举一个简单例子：输入「我想学写程式」，AI就会将它拆解成「我」、想」、「学」、「写」、「程式」。为甚么要拆？因为全球语言有无数种组合，就像我们学习语言一样，比起直接死记硬背一整句长句，我们会先学习当中的词语，再学习如何组合成句子。AI便是透过记住这些词元在海量数据中的组合规律，进而拼凑出各种从未见过、却又合乎逻辑的句子。
嵌入（Embedding），给文字的座标系统︰分拆句子后，AI必须理解这些词元的「意义」。这时它会运用一种叫「嵌入」（Embedding）的技术，给每个词元分配一组专属的数学向量座标。对于不熟悉向量的读者，你可以想像一个简单的二维座标系统（如数学课学过的x轴与y轴），只不过在AI的世界中，这个座标系统不是二维，而是高达数千个维度。

距离代表关系：AI会把意义相近的词（如「猫」与「狗」）放置在空间中距离较近的位置。

方向代表逻辑：逻辑关系相关的词（如「国王」对「男人」，与「女王」对「女人」），在座标的方向上会呈现规律。

当你输入指令，AI其实是在这套座标系统上进行精准导航。它计算出不同词元之间的数学距离，从而真正「理解」你这句说话背后的意图，而不仅仅是看字面上的符号。而当学习并分拆过来，这些大语言模型的运作模式，其实就像文字接龙，当你给它一个开头，它就在脑袋里根据数千亿个参数的运算，判断下一个出现机率最高的字是甚么。

创造力关键：「温度」

既然AI已经把文字变成了座标，也知道了词元之间的关系，那么它在进行「文字接龙」时，是不是永远都只挑选机率最高的词元呢？如果AI每次都选机率最高的选项，它说话会变得非常死板、甚至不断重复。因此，科学家在模型中加入了一个变数，称为「温度」。这温度不是指冷热的温度，而是控制AI创造力的「旋钮」。

低温度︰当我们把温度调低，AI就会变得非常保守、谨慎。它在接龙时，几乎只会选择那些机率最高的词元。因此，其说话会变得四平八稳，逻辑极强，不容易出错。
高温度︰当我们把温度调高，AI的「胆子」就会变大！它不再只看第一名，而是尝试去选择那些机率排在后面、较为罕见的词元。因此，其文字的使用会变得多元，富有创意，甚至会产生让你意想不到的幽默感。

而为甚么需要「温度」？正是为了让AI能根据不同的用途与目的，在「准确性」与「多样性」之间取得平衡。我们希望它在回答科普知识时能「低温」以确保准确；而在陪伴我们创作时能「高温」以激发创意。