EQ 測驗到底怎麼運作：分數背後的原理

2026-05-09

9 min

EQ 測驗到底怎麼運作：分數背後的原理

很多人做完一個 EQ 測驗，看到一行「你的情商分數是 112」或「你的同理心位居前 30%」，就把這個結果默默收下，當作關於自己的某種事實。但很少有人停下來問：這個數字到底是怎麼算出來的？它背後依據什麼？為什麼選了這幾道題、不是別的題？

這篇文章想做的，是把一個典型 EQ 測驗從題目寫好、到你看到結果的整個流程拆開來看。我們不會教你怎麼通過某份測驗，也不會給你「最高分的答題策略」（這種策略本身就是個壞主意）。重點是：當你理解測驗背後的方法，你就能更誠實地讀自己的結果，知道哪些訊號值得認真，哪些只是雜訊。

理解原理不會讓測驗變得更準，但會讓你變得更有判斷力。

一份 EQ 測驗是怎麼被設計出來的

任何嚴謹的 EQ 測驗，背後都會有一個理論模型作為骨架。最常被引用的幾個包括 Mayer 與 Salovey 的能力模型、Goleman 的混合模型、Bar-On 的情緒社會模型，以及 Petrides 的特質情商模型。這些模型對「情商」是什麼的看法不完全一樣，所以它們衍生出來的測驗，問的題目自然也不一樣。

選定模型之後，研究者會把抽象概念操作化：自我覺察是什麼？要怎麼用一句話、用一道題來測？「我能在情緒升高時察覺到自己的身體變化」是一種問法；「下面這個情境裡，主角最可能感覺到什麼」又是另一種問法。前者是自陳式（你描述自己），後者是能力式（你判斷情境）。兩種設計取向會通往非常不同的結果。

接下來是題目池建構。研究團隊通常會寫出比最終版本多好幾倍的題目，再用統計方法篩選——刪掉太簡單、太困難、或跟其他題目相關性過低的題目。剩下的題目，理想上應該能穩定地測到「同一件事」。

最後是信度與效度檢驗。信度問的是：同一個人在不同時間做，結果穩定嗎？這份測驗內部的題目互相一致嗎？效度問的是：這份測驗測到的東西，真的是它宣稱要測的嗎？跟其他相關工具的結果有沒有合理的相關？這些檢驗通常需要幾百到幾千名受試者的資料。

免費網路測驗未必走完這整套流程。這不代表它們完全無用，但你看到的那個分數，背後的證據基礎可能比你以為的薄。

自陳式 vs 能力式：兩種完全不同的計分邏輯

理解 EQ 測驗的分數之前，先要分清楚兩種主要的測驗類型。

**自陳式測驗（self-report）**問你「你覺得自己怎樣」。例如：「我能在情緒激動時讓自己冷靜下來」，請你從「非常不同意」到「非常同意」中選一個。它的計分非常直接：你選的選項對應一個分數（通常是 1–5 或 1–7），加總後再依面向歸類。Bar-On EQ-i、TEIQue、大多數品牌雜誌測驗都屬於這一類。

能力式測驗（performance-based）則把 EQ 當成一種能力，像智商測驗一樣有「比較好的答案」。MSCEIT 是最有名的代表。它會給你一張臉的照片，問「這張臉表達的情緒是什麼」，或給一個情境，問「下列哪個反應最能調節情緒」。這類測驗的計分比自陳式複雜得多——因為情緒判斷沒有像數學題那種絕對對錯，研究者通常用兩種方式建立答案：專家共識（找一群情緒研究者投票，多數認為對的就是對的）或一般共識（在大樣本中最多人選的答案就是對的）。

類型	你回答什麼	怎麼計分	主要限制
自陳式	你怎麼描述自己	選項分數加總，依面向分組	受社會期待與自我認知偏誤影響
能力式	你怎麼判斷情境或表情	對照專家或多數共識答案	文化差異大，題目製作成本高
360 度評估	同事 / 家人怎麼描述你	多人問卷加權平均	受評者關係品質干擾結果
混合型	自陳加上情境題	不同題型分別計分後合併	兩種分數的權重比例往往不透明

兩種類型測到的東西其實不太一樣。自陳式比較像在測「你對自己的情緒能力有多少信心 / 描述」，能力式比較像在測「你在被觀察的當下能做出怎樣的判斷」。看到一個分數時，先問它是哪一類，會讓這個分數的意義變得清楚很多。

分數是怎麼從原始作答變成你看到的數字

假設你做了一份 60 題的自陳式 EQ 測驗，每題是 1–5 的同意度。你的「原始分數」可能是 60 題加總的 240 分，或是依面向分成幾個小總和。但很少有測驗直接把這個數字給你看——因為「240」對你沒有意義，你不知道它高還是低。

接下來會發生常模轉換（norming）。研究者會把這份測驗給一個夠大的樣本做（理想上幾千人，盡量代表目標人群），把所有人的原始分數畫成一個分布。這個分布通常接近常態分布——大多數人落在中間，兩端的人比較少。你的原始分數會被對照到這個分布上，轉換成更好理解的形式：

百分位（percentile）：你贏過多少比例的常模樣本。例如「你的同理心在第 70 百分位」表示常模裡有 70% 的人分數比你低。
標準分數（z-score 或 T-score）：把你的位置用標準差表達。常見的 T-score 平均是 50、標準差是 10。
「智商風」分數：有些 EQ 測驗模仿 IQ 的設計，把平均設為 100、標準差設為 15。所以「EQ 112」其實是一個被人為設計成像 IQ 的數字，不是某種絕對指標。

這裡有個常被忽略的細節：你的分數高低，完全取決於常模樣本是誰。如果常模樣本是某國大學生，而你是另一個年齡層、另一個文化的人，「在第 70 百分位」這句話的意義就要打折。一份負責任的測驗報告會公開常模樣本的組成；很多免費測驗不會。

面向加權與「總分」的迷思

EQ 測驗通常會把題目分配到幾個面向（dimensions）：自我覺察、自我調節、動機、同理心、社交技巧（這是 Goleman 的五面向，其他模型分得不一樣）。每個面向各自會算出一個分數。

問題出在很多測驗會再把面向分數合成一個總 EQ 分。這個合成過程其實是個權重決定：每個面向算多少？平均權重？依研究結果加權？很多免費測驗不會告訴你它怎麼加權的，但這個決定會明顯影響你最後看到的那個總分。

更深一層的問題是：單一總分究竟有多少意義。一個自我調節很強、社交技巧偏弱的人，可能跟一個自我調節偏弱、社交技巧很強的人拿到同樣的總分，但這兩個人在真實生活裡會表現得很不一樣。把資訊壓縮成一個數字，方便給結果，但也丟掉了大量的細節。

比較負責任的閱讀方式，是把總分當成一個粗略的座標，把面向分數當成真正可以反思的素材。「我的自我調節這次比較高，自我覺察比較低」比「我得 105 分」對你的自我認識有用得多。

信度、效度與你應該怎麼看待這些術語

當一份測驗自稱「科學驗證」時，背後通常涉及幾個技術性的概念。

信度（reliability）指的是這份測驗有多穩定。最常見的兩種：內部一致性（測驗裡測同一件事的題目彼此相關度高嗎，常用 Cronbach's α，0.7 以上算可接受、0.8 以上算良好），以及重測信度（同一個人隔幾週做兩次，結果相似嗎）。EQ 測驗的內部一致性通常還不錯；重測信度則很受時間間隔與生活狀態影響。

**效度（validity）**指的是這份測驗測到的，真的是它宣稱要測的嗎。內容效度：題目是否涵蓋了該概念的各個面向？建構效度：跟相關概念（例如同理心量表、人格測驗）的相關性合不合理？預測效度：分數能不能預測真實生活中的某些表現（例如人際關係滿意度、領導效能）？預測效度是最難建立的，也是 EQ 領域目前研究爭議最多的部分。

**標準誤（standard error of measurement）**告訴你一個分數應該被當成「點」還是「區間」來看。例如你的 EQ 是 112，但這份測驗的標準誤是 5，那合理的解讀是「我的真實分數可能落在 107–117 這個範圍」，而不是死守「我就是 112」。一份成熟的測驗報告會告訴你標準誤；很多免費工具不會。

當下次有人說「這個測驗已經被科學驗證」時，你可以追問：「驗證了什麼？信度多少？效度依據是什麼研究？」如果對方答不出來，那句宣稱就只是行銷話術。

常見的迷思

「我得了高分代表我情商就高」

不一定。在自陳式測驗上得高分，至少有三種可能：你真的擁有相應的能力；你比較會描述自己、用詞比較精準；或你比較傾向回答符合社會期待的選項。三者是區分不開的，沒辦法只看分數判斷。

「同一份測驗每次做都應該得到一樣的分數」

理想中是這樣，現實中不會。情緒狀態、近期事件、睡眠、甚至做測驗時的環境都會影響回答。這就是為什麼「重測信度」很少接近 1。你看到的分數，是「那一次」、「在那種狀態下」對自己的描述。

「分數越高的測驗越專業」

題目多寡、介面是否華麗、結果頁面是不是漂亮，跟測驗的科學嚴謹度不一定相關。真正的指標是：題目來源、計分依據、常模樣本透明度、信效度資料的可查證性。這些通常都不會出現在免費測驗的首頁，但你可以追問。

「EQ 測驗能像體檢一樣告訴我健康狀態」

不能。EQ 測驗是自我反思的工具，不是醫療檢查。如果你在情緒上正經歷困難，請尋求合格的心理或醫療專業協助。測驗結果可以作為你跟專業人士談話時的參考，但不能取代評估。

「能力式測驗比自陳式更準」

兩者各有所長。能力式比較不容易被自我認知偏誤干擾，但題目製作成本高、文化適用性是難題（同一張臉的表情，不同文化解讀可能不同）。自陳式快速、易於量產，但容易受到自我描述的偏差影響。沒有哪一種絕對更好——關鍵是你拿它來做什麼。

常見問題

為什麼有些 EQ 測驗的分數看起來像 IQ（例如 100、115）？

這是設計者刻意模仿 IQ 的呈現方式，方便大眾理解。它的數字看起來像 IQ，但背後的計分邏輯跟 IQ 完全不同——只是把分布的平均拉到 100、標準差拉到 15 的呈現選擇。看到「EQ 115」時，請記得它不是某種絕對指標，是相對於常模樣本的位置。

為什麼我做不同測驗，分數差很多？

因為每份測驗依據的模型不同、題目不同、常模樣本不同、計分邏輯也不同。「EQ 在不同工具上得到不同分數」其實是正常的，不是哪份測驗有問題。比較有意義的問法是：「這幾份結果有沒有共同指出某個面向偏低或偏高？」共同的訊號比單一分數可信。

我可以「練習」EQ 測驗來得高分嗎？

技術上可以，但這樣做反而會讓結果失去它原本的用處。一旦你開始挑「聽起來更好」的選項，分數就反映你對「理想 EQ 應該長什麼樣」的理解，而不是你目前實際的狀態。把測驗當成自我描述的鏡子，比把它當成一個要打贏的遊戲，對你比較有幫助。

能力式測驗的「正確答案」真的有正確答案嗎？

這是 EQ 研究中爭議最深的一塊。MSCEIT 用專家共識和一般共識來建立答案，但不同文化、不同情境下，「最恰當的情緒反應」可能本來就有差異。能力式測驗通常會聲明它測的是「對於某個文化共識的判斷」，而不是某種跨文化普世的真理。

標準誤對我有什麼意義？

標準誤提醒你不要把分數讀成精確值。如果你的同理心分數在第 65 百分位、標準誤對應大約 8 個百分位，那合理的解讀是「在第 57–73 百分位之間」。意思是把分數當成一個粗略的範圍，不是一個小數點都很重要的數字。這個觀念能避免你過度解讀分毫之差。

小結

EQ 測驗不是黑盒子——它有可以被理解的設計邏輯。理論模型決定了問什麼，自陳式或能力式決定了怎麼問，原始分數透過常模轉換變成你看到的數字，面向被加權成總分，信度與效度告訴你這個過程值不值得相信。

當你理解這套流程，你就比較不會被「準確率 95%」這類包裝唬住，也比較不會把一個分數當成自己的標籤。一份結果是一個被多重設計選擇雕塑過的訊號——它可以成為自我反思的起點，但不應該成為自我認識的終點。

如果你想找一個專注於把面向式回饋說清楚、不假裝是診斷工具的入口，Brambin EQ 是其中一個可以陪你慢慢觀察自己的選項。

Brambin EQ 是一款自我反思與娛樂用途的工具。它並非醫療、心理或診斷工具，也無法取代專業人士的建議。

準備好把自己看得更清晰一些了嗎?

在 App Store 下載 Brambin EQ。8 題試做免費。

取得 Brambin EQ