好未來推出千億級數學大模型MathGPT，即日開啟內測|界面新聞

界面新聞記者 | 查沁君

首個數學領域的教育垂直大模型上線。

8月24日，時值好未來（NYSE：TAL）成立20周年，好未來CTO田密在直播活動中宣布，該公司自研的數學領域千億級大模型Math GPT開啟內測。

今年5月，好未來曾公布正在進行自研數學大模型的研發，由CTO田密牽頭，命名為MathGPT。主要面向全球數學愛好者和科研機構，以解題和講題算法為核心。

MathGPT官網顯示，MathGPT的數學計算能力已覆蓋小學、初中、高中的數學題，題型涵蓋計算題、應用題、代數題等多個類型，還可以針對題目進行追問，暫未開放數學之外的問答互動。

用戶使用MathGPT時，用文字或圖片方式上傳數學題，即可得到對話式的解答反饋，答案包含“分析”、“詳解”、“點睛”三個部分；也可以通過“隨機來一題”的按鈕，隨機生成數學題目并由系統給出解答。目前，MathGPT支持中文、英文版本的PC端和移動端。

據好未來提供的MathGPT技術報告顯示，在六個公開數學評測集合CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考數學、Math401的測試結果中，MathGPT的表現不差。

其中，以微軟華人研究團隊發布的基準測試AGIEval為例，Open AI推出的GPT-4、好未來的MathGPT的正確率分別為39.2%、60.34%；但在Math401評測中，GPT-4略勝一籌，正確率高出MathGPT1.5個百分點。

ChatGLM2、GPT-4、MathGPT在C-Eval的初高中的全科測試表現。圖源：好未來

同時，在C-Eval的初高中的全科測試集合上，MathGPT的表現成績也普遍高于GPT-4和清華團隊推出的第二代中英雙語對話模型ChatGLM2。

一個普遍共識是，通用大模型“重文輕理”，在數學問題的解決、講解、問答和推薦方面則存在明顯的短板。即使是表現優異的GPT-4也曾在雞兔同籠的基本數學問題上“栽跟頭”。相比大模型更擅長的語文、英語，數學更偏邏輯思維、推理能力，大模型研發難度也更高。

“數學光喂內容沒用，因為它是原理問題，現有技術沒法做到套一下就能使用（的地步）。”網易有道（NYSE：DAO）CEO近期在媒體交流時表示，相反，如果是文字語言型的應用，不需要特別強的推理。從現有時間經驗來說，英語、語文比數學的評測結果更理想，速度也更快。

作為曾經數學培訓的頭部公司，好未來積累了大量的數學數據和生產能力。2017年，成立AI lab開啟人工智能研究。之所以研發數學垂直大模型，該公司稱“在通往通用人工智能的路上，數學推理能力很重要，全球有很多大型公司在做相關研究。”

“AI帶來了重新定義教育行業的機會，大模型技術使得大規模的因材施教真正有了實現的可能。”田密認為，大模型的本質，是一種更高效的、從數據中學習知識并加以應用的方式。

在AI能力的加持下，“學生自學+AI答疑”的新型學習方式成為廣泛的可能。學習者獲得優質教學內容的門檻、成本降低，獲得的教學內容個性化、精細化程度持續升高，可以實現千人千面的AI教學和答疑輔導。

好未來正與中國信通院、復旦大學、科大訊飛（002230.SZ）、百度（BIDU.US）等科研機構、高校、企業一同編制教育大模型團體標準，從覆蓋場景、應用成效、服務可靠等維度全面評估教育大模型能力，為教育大模型應用落地提供參考與指導。

大模型訓練、運營及維護需要大量專業人才，好未來目前還在招兵買馬。

MathGPT官網顯示，其招聘崗位包括大模NLP算法工程師、大模型訓練&推理加速工程師、MathGPT產品經理、AI后臺Golang開發工程師、資深UI設計師（AI方向），以及用戶研究。其中，前兩個崗位的工作地點不局限于國內，還包括美國舊金山灣區的庫比蒂諾（Cupertino），被稱為“硅谷的心臟”，蘋果公司總部也位于此。

在MathGPT發布同時，好未來也在官網更新了一個具有代表性和挑戰性的數學任務評測集，供全球人工智能專家、數學愛好者體驗和測評。

據田密透露，隨著內測的順利進行，MathGPT的解題能力將得到持續提升，基于MathGPT的產品級應用也正在加速研發中，將于近期發布。