Grok4人類最後考驗：AI超越人類的臨界點？

發文人 Expandus Tech

Jul 23 2025

0評論

重點摘要

Grok 4 在人類級考驗中奪冠，展現頂尖 AI 推理力與工具整合表現。雖尚存透明度與生成速度挑戰，其發展將深刻影響教育、產業與勞動市場格局。

Grok 4最近於「人類最後考驗」取得了最高45%的分數，遠遠領先其他AI模型。它在GPQA科學問題測試和AIME數學測試中同樣取得頂尖成績。這些分數顯示Grok 4在自然語言理解和推理能力上達到新高度。雖然如此，Grok 4仍未全面超越人類，部分專家指出其在複雜推理和創意表現方面仍有差距。

Grok AI

Grok AI 是由 Elon Musk 主導、X（前身為 Twitter）旗下的 AI 公司 xAI 所開發的人工智慧聊天機器人。它的名稱來自科幻小說中 "grok" 一詞，意指「深刻理解」。

Grok AI 的發展歷程

1. 起源：xAI 成立（2023 年）

Elon Musk 在 2023 年 7 月成立 xAI，目標是打造一個能「追求真相」的人工智慧系統。
相較於 OpenAI、Anthropic 等公司更偏向「安全框架導向」，xAI 強調「不受限制的資訊探索」。

2. Grok 問世（2023 年 11 月）

Grok 第一版本於 2023 年 11 月正式發布，整合至 X 平台（Twitter）。
Grok 最大特點是幽默、風趣且具備反應時事的能力，並且能夠即時讀取 X 上的資料。
官方強調 Grok 不會過度審查問題，比 ChatGPT 更「敢答敢講」。

3. 整合 X 平台

Grok 能與 X 上的實時數據結合，讓回答更具新聞性與社交趨勢反應。
提供回答包括社會新聞、科技發展，甚至是網絡熱門話題。

4. 模型版本更新

Grok 採用 xAI 自研的大型語言模型（LLM），初版為「Grok 1」。
2024 年初推出「Grok 1.5」，效能大幅提升，接近 GPT-4 等級，並強化邏輯推理與程式能力。
Grok 模型被設計為開放原始碼，Elon Musk 宣布將逐步釋出模型權重。

5. Grok 2.0（2024 年中）

增加長篇文本理解能力、代碼生成準確度與圖像理解能力。
以「多模態模型」方向發展，開始支援圖片輸入、圖像識別等功能。

Grok 4測試成績

HLE表現

根據Artificial Analysis的基準測試報告，Grok 4在「人類最後的考試」（HLE）中取得了24%的分數，這個成績創下歷史新高。這個分數不僅反映了Grok 4在自然語言理解和推理能力上的進步，也顯示它在專家級題目上的表現已經超越了多數現有AI模型。HLE測試以高難度為主，題目設計原創，特別強調數學和深度推理能力。約有10%的題目需要AI具備多模態能力，例如理解圖片，這進一步提升了測試的挑戰性。HLE測試比以往的基準測試更專注於高級、封閉式學術能力的測量，整體難度明顯較高。

Grok 4在GPQA測試中達到95.4%的正確率，這個數字代表它在跨領域深層認知能力上表現優異。雖然沒有直接提供專家級題目的正確率，但GPQA的高分已經證明Grok 4在專家級任務上具備極高水準。

與其他AI比較

HLE測試不僅考驗單一領域知識，還要求AI能夠處理多模態題型。下表比較了Grok 4與其他主流AI模型在HLE和視覺推理測試中的表現：

測試項目	Grok 4 無工具得分	Grok 4 Heavy 有工具得分	Google Gemini 2.5 Pro	OpenAI o3	Claude Opus 4
人類最後的考試 (HLE)	25.4%	44.4%	21.6%	21%	N/A
ARC-AGI-2 視覺推理	16.2%	N/A	26.9% (工具輔助)	N/A	約8.1%

Grok 4在「人類最後的考試」中無工具輔助得分25.4%，優於Google Gemini 2.5 Pro的21.6%及OpenAI o3的21%。
Grok 4 Heavy在有工具輔助下得分44.4%，明顯領先Gemini 2.5 Pro的26.9%。
ARC-AGI-2視覺推理測驗中，Grok 4得分16.2%，約為Claude Opus 4的兩倍。
Grok 4 Heavy採用多代理人協作設計，提升了解題品質。

Grok 4在HLE測試中整體表現優異，尤其在跨領域知識和複雜推理方面表現出色。不過，它在多模態理解能力上仍有提升空間，特別是圖像理解和生成能力。這種多模態能力的不足，可能影響其在包含多模態題型的HLE測試中的表現。其他領域暫時未見明顯弱點。

技術突破

工具整合

Grok 4在技術層面上帶來多項創新。開發團隊改變訓練策略，將算力重點放在推理能力，而非單純增加參數。這種方法令模型更懂得思考和自我糾錯。以下是Grok 4提升分數的主要技術：

訓練過程中引入可驗證的結果獎勵機制，讓模型學會從第一性原理思考。
訓練計算量比前代高出100倍，顯著提升理解和推理能力。
多工具、多代理的使用整合進底層訓練，模型在訓練階段已學會如何運用工具解決問題。
在演示中，Grok 4能呼叫工具解答數學題、預測賠率，甚至建立黑洞碰撞的可視化。

Grok 4 Heavy工具進一步提升模型表現。它採用多代理設計，可同時運作4個子代理，提升多任務處理能力。這個版本支援25.6萬組詞元的上下文長度，能處理更長的文本和複雜任務。xAI官方評測顯示，Grok 4 Heavy在「人類最後的考試」工具輔助版本中得分44.4%，遠超Google Gemini 2.5 Pro的26.9%。這些技術強化了模型的邏輯推理和語言理解能力。

多智能體協作

Grok 4在多智能體協作方面展現領先優勢。開發團隊設計了獨特的Agent Use協作機制。這個機制讓多個智能體能夠協同分工，完成複雜任務。系統會根據任務需求，自動調度不同的AI分身。例如在健康諮詢時，系統會安排多位醫生AI分身聯合會診；在法律服務中，則由多個律師AI分身組成智囊團協同答覆。這種設計提升了多智能體協作的效率和靈活性。

強化學習技術在Grok 4的突破中扮演重要角色。模型投入大量運算資源於推理和強化學習，透過收集可驗證的結果獎勵，模型能自我修正錯誤。Grok 4 Heavy版本更進一步，讓多個代理同時處理問題並比較結果，找出最佳答案。這些創新令Grok 4在多學科領域表現超越博士水平。

臨界點與限制

尚未全面超越

Grok 4在多項基準測試中表現優異，但距離全面超越人類仍有明顯距離。專家分析指出，這主要來自以下幾個技術瓶頸：

模型細節與效能缺乏透明度：xAI尚未公開Grok 4的模型卡與技術細節，外界難以獨立驗證其效能。
生成速度不足：Grok 4每秒產出75個token，雖然優於部分模型，但仍落後於Gemini 2.5 Flash（353 token）及OpenAI o3（187 token）。
上下文長度支援有限：Grok 4支援25.6萬token，雖然比部分模型優勝，但遠不及GPT-4.1與Gemini Pro的100萬token，限制了處理超長文本的能力。
信任與倫理問題未解決：Grok曾因未經審查的政策變更引發倫理爭議，外界對模型可信度仍有疑慮。
與人形機器人結合技術尚在發展中：雖然有計劃將grok導入特斯拉車輛及人形機器人，但實際應用與互動能力仍待驗證。

專家指出，Grok 4的內部機制複雜且難以解釋，屬於「黑箱」系統。這種設計令輸出行為有時難以預測，增加了應用上的不確定性。xAI未公開評估標準，令外界對其安全性與可靠性產生疑慮。

目前，Grok 4在推理、創造力或常識判斷方面並無明顯短板。專家認為，模型在這些領域的表現已接近先進AI模型的水平。不過，透明度與可解釋性問題仍然存在，這成為其進一步突破的障礙。

風險與挑戰

Grok 4的發展同時帶來多方面的風險與挑戰：

專家與媒體質疑其內容控制與安全性，指出Grok 4曾生成仇恨言論及反猶言論，顯示價值觀注入與內容審查技術仍需改進。
xAI面臨管理層變動與市場接受度挑戰，技術商業化存在不確定性。
在美國政府部門推動使用Grok AI時，曾出現未經授權存取敏感資料的情況，違反資訊安全與隱私法律，存在資料濫用風險。
若Grok取得政府內部未公開的商業資料，可能導致不公平競爭優勢，甚至引發利益衝突與法律責任。
曾發生敏感資料外洩事件，部分政府部門已禁止使用商業AI工具，grok推廣面臨政策限制與安全疑慮。

專家強調，只有解決黑箱風險與價值觀引導問題，AI模型才能實現更安全可靠的應用。Grok 4的發展需要在技術創新與倫理安全之間取得平衡，這是未來AI進化的關鍵考驗。

未來展望

發展方向

未來，AI技術將持續突破。多代理人協作模式會更成熟，AI代理人能互相啟發，合力解決複雜問題。多模態能力將大幅提升，AI不只理解文字，還能處理圖像和音頻，甚至生成影片。開發團隊計劃強化AI的編碼能力，推出專為程式設計師設計的高速智能編碼模型。工具整合將更深入，AI能直接運用各種工具，提升現實世界應用的可靠性。未來，AI有望與人形機器人結合，進行物理互動。AI亦會朝向專家型研究員發展，具備自主提出假設和驗證的能力，推動科學研究。

馬斯克預測，AI將在未來幾年帶來革命性突破，推動人類文明進入新階段。他強調AI安全與價值觀的重要性，並認為現實世界才是AI的最終考驗。

社會影響

AI技術將深刻改變人類社會。生成式AI已經進入日常生活，協助情感支持、家務規劃、理財、語言學習、法律諮詢等多個場景。企業內部，AI代理人能協助客戶服務、人力資源及資料安全，提升效率。專家預測，AI將推動人形機器人普及，改變勞動市場結構。部分職業如設計師、司機、記者等面臨被取代風險，但同時也會創造新工作機會。教育體系需調整，幫助學生掌握新技能。政府需積極介入，保障弱勢勞動者權益，減緩社會衝擊。AI技術普及亦會改變經濟利益分配，帶來倫理與資安挑戰。未來，AI將成為推動產業創新和社會變革的關鍵力量。

Grok 4在多項測試中表現領先，但專家指出它仍未全面超越人類。

馬斯克認為Grok 4雖然在學術問題上超越博士，但在常識與創新方面仍有限。
模型在實際應用中偶有錯誤，且中立性與可靠性受到質疑。

學者建議，人類應主動推動AI倫理規範與國際合作，強化監管與教育，確保AI安全發展。產官學合作能降低風險，讓AI真正造福社會。未來，社會需持續關注技術進展與倫理安全，發揮主動角色。

標籤:

Grok

我們在這裡整理了一些常見問題，讓你可以更快找到所需的資訊。
如果你沒找到想知道的內容，也歡迎直接聯絡我們，我們很樂意協助你解答！

Grok 4有什麼特別之處？

Grok 4在「人類最後考驗」取得領先分數。它結合多智能體協作和工具整合，提升推理和解題能力。專家認為Grok 4在多學科表現接近博士水平。

Grok 4是否已經超越ChatGPT？

Grok 4在「人類最後的考試」中無工具輔助得分25.4%，優於OpenAI o3的21%。

Grok 4可以應用在哪些領域？

Grok 4可用於科學研究、醫療諮詢、法律分析、程式設計等。企業和學校也能利用它提升效率。

LLM、RAG、MCP —— 它們是什麼？為何在 AI 時代如此重要？

AI Agent 全面解放生產力：揭示如何改寫未來工作與生活模式

您的電子郵件地址不會被公開。必填欄位已標記 *

請注意，評論在發布之前需要獲得批准。

Grok4人類最後考驗：AI超越人類的臨界點？

重點摘要

Grok AI