AI教育｜大語言模型LLM 背後原理是甚麼？教師：改變人類的文字接龍｜星島教室

更新時間：14:00 2026-03-25 HKT
發佈時間：14:00 2026-03-25 HKT

如果你曾玩過早期的角色扮演遊戲（RPG），一定有過這種讓人抓狂的體驗：你來到城堡門口，面對守門的小兵。他回答：「你好！請出示通行證。」無論你嘗試多少種搞怪的互動，得到的都是相同回覆。這種「對話撞牆」的感覺，是因為傳統遊戲背後是一套「固定劇本」。玩家一旦做出劇本預設以外的行為，系統就會因為找不到對應指令而「跳針」，完全無法溝通。然而，隨着「大語言模型」的出現，這場對話的規則被徹底顛覆了。現在的AI就像人類，不再被動地進行條件匹配，而是能真正「理解」你的意圖。

何謂「大語言模型」？

談及現時廣為人知的AI，大家常提起的不外乎是ChatGPT、DeepSeek、豆包等等，但大家又知否它們其實是甚麼？是AI、模型，還是一個程式、系統？

其實，它們本質上都是一種「大語言模型」（Large Language Model，簡稱LLM）。要拆解這個充滿科技感的名詞，我們得從它的三個字面意義看起，這能幫助我們看清它的真面目：

「大」——數據與參數的雙重巨大：這裏的「大」有兩層意義︰1. 數據量大，它讀過的文字量，來自網絡上海量的資料，包括新聞報道、書籍論文、甚至是大家在網絡論壇上的討論；2. 參數規模大，參數就像人工智能大腦裏的神經元連接點，數量高達數千億個，參數越多，模型捕捉邏輯及理解能力就越強。

「語言」——掌握溝通規律：它專門學習人類說話的規律、語法和情感表達。透過海量的閱讀，它不止學會單字，更掌握文字之間的「關聯強度」與「邏輯結構」。

「模型」——訓練後的科技結晶：當科學家透過「神經網絡」及各種複雜演算法，從海量的資料中訓練出來的成品，就稱為「模型」。你可以把它想像成一個裝滿了知識與規律的「大腦」。

「詞元」與「詞向量」

當我們與大語言模型對話時，我們輸入的是「文字」，但對電腦來說，它其實只認識「0」與「1」。為了讓AI能夠處理語言，它會經過兩個關鍵轉換步驟：

拆解「詞元」（Token）︰在AI開始「讀」你的說話之前，它會先把句子分拆。舉一個簡單例子：輸入「我想學寫程式」，AI就會將它拆解成「我」、想」、「學」、「寫」、「程式」。為甚麼要拆？因為全球語言有無數種組合，就像我們學習語言一樣，比起直接死記硬背一整句長句，我們會先學習當中的詞語，再學習如何組合成句子。AI便是透過記住這些詞元在海量數據中的組合規律，進而拼湊出各種從未見過、卻又合乎邏輯的句子。
嵌入（Embedding），給文字的座標系統︰分拆句子後，AI必須理解這些詞元的「意義」。這時它會運用一種叫「嵌入」（Embedding）的技術，給每個詞元分配一組專屬的數學向量座標。對於不熟悉向量的讀者，你可以想像一個簡單的二維座標系統（如數學課學過的x軸與y軸），只不過在AI的世界中，這個座標系統不是二維，而是高達數千個維度。

距離代表關係：AI會把意義相近的詞（如「貓」與「狗」）放置在空間中距離較近的位置。

方向代表邏輯：邏輯關係相關的詞（如「國王」對「男人」，與「女王」對「女人」），在座標的方向上會呈現規律。

當你輸入指令，AI其實是在這套座標系統上進行精準導航。它計算出不同詞元之間的數學距離，從而真正「理解」你這句說話背後的意圖，而不僅僅是看字面上的符號。而當學習並分拆過來，這些大語言模型的運作模式，其實就像文字接龍，當你給它一個開頭，它就在腦袋裏根據數千億個參數的運算，判斷下一個出現機率最高的字是甚麼。

創造力關鍵：「溫度」

既然AI已經把文字變成了座標，也知道了詞元之間的關係，那麼它在進行「文字接龍」時，是不是永遠都只挑選機率最高的詞元呢？如果AI每次都選機率最高的選項，它說話會變得非常死板、甚至不斷重複。因此，科學家在模型中加入了一個變數，稱為「溫度」。這溫度不是指冷熱的溫度，而是控制AI創造力的「旋鈕」。

低溫度︰當我們把溫度調低，AI就會變得非常保守、謹慎。它在接龍時，幾乎只會選擇那些機率最高的詞元。因此，其說話會變得四平八穩，邏輯極強，不容易出錯。
高溫度︰當我們把溫度調高，AI的「膽子」就會變大！它不再只看第一名，而是嘗試去選擇那些機率排在後面、較為罕見的詞元。因此，其文字的使用會變得多元，富有創意，甚至會產生讓你意想不到的幽默感。

而為甚麼需要「溫度」？正是為了讓AI能根據不同的用途與目的，在「準確性」與「多樣性」之間取得平衡。我們希望它在回答科普知識時能「低溫」以確保準確；而在陪伴我們創作時能「高溫」以激發創意。