[時事觀點] GPT-5不及預期,但給OpenAI餵資料的公司卻身價暴漲:資料標注進入「精英餵養」時代
When GPT-5 Fizzles, Data Dealers Dazzle: The Rise of Elite AI Curation
當全世界都把目光聚焦在 GPT-5 的性能參數時,真正的戰局早已悄悄轉移。
OpenAI、Google 這些巨頭們發現,用更大的模型、更多的算力去硬闖 AI 的下一關,效果越來越差。真正的瓶頸,卡在了「資料」上——更準確地說,是卡在了網路上搜不到的、高品質的專家資料上。
這場 AI 的「軍備競賽」,已經從比誰的「肌肉」更強壯,變成了比誰能請到最好的「私廚」。而 Turing 這家公司,就是矽谷最炙手可熱的私廚之一。
當 AI 碰上天花板
過去幾年,AI 發展遵循著簡單粗暴的規模法則(Scaling Law):算力越大、資料越多,模型就越聰明。這就像 AI 界的摩爾定律。
但現在,這個定律正在失靈。
OpenAI 內部的評估印證了這點——其下一代模型若按傳統方式訓練,性能增益將大幅低於預期。從秘密開發的「Orion」專案到 GPT-5,海外媒體的許多報導都指向一個事實:性能提升確實不夠顯著。
這期間,關於 OpenAI 面臨資料瓶頸的消息不斷傳出。前首席科學家 Ilya Sutskever 的警告更是點明了要害:支持規模法則的高品質訓練資料已經不多了。
公開網路上的「免費午餐」已經被吃乾抹淨,整個 AI 產業正在面臨一個關鍵轉捩點:僅僅透過增加資料量和計算資源來提升模型性能的傳統路徑,可能已接近天花板。
新的燃料:網路上找不到的「精英數據」
唯一的出路,是「精英餵養」。
其中,引入海量高品質人類標注和程式碼資料被證明是近期最有效的手段之一。例如,Meta 在訓練 Llama3 模型時投入了超過 1000 萬條人類標注資料。
資本市場早已用錢投票,認定了這個新方向。根據市場研究機構預測,全球 AI 資料收集與標注市場 2024 年的規模已達到約 180 亿美元。Scale AI 等頭部公司的高估值就是明證。
當 OpenAI 等頂級 AI 基礎模型廠商對資料的需求正在瘋漲時,一家給 OpenAI 餵資料的公司浮出水面——Turing。
一場改變命運的會議:Turing 的華麗轉身
Turing 的故事,堪稱傳統企業向 AI 企業轉型的標準教科書。
故事的轉捩點發生在 2022 年初。當 Turing 的 CEO 喬納森·西達爾特(Jonathan Siddharth)還準備向 OpenAI 推銷人才招募服務時,OpenAI 的研究員卻向他提出了一個截然不同的需求——他們不要人,他們要資料。
彼時,OpenAI 的研究員們發現,在訓練 GPT-3 的資料集中,加入一些電腦程式碼,有助於提高模型的推理能力。他們希望 Turing 能夠提供品質上乘的程式碼。
Turing 抓住了這個機遇,果斷轉型為 AGI 基礎設施供應商,將以往積累的龐大資源——AI 驅動的人才雲端平台與自研的 ALAN AI 工具平台——形成了完美的正向循環。只用了 7 年時間,這家公司估值達到 22 億美元,成為矽谷鋒頭正盛的資料標注公司。
如今,頭部模型廠商基本都是 Turing 的客戶,例如 OpenAI、Anthropic、Google、Meta 等頂級 AI 實驗室,Turing 為他們提供模型訓練、微調和智慧體開發等底層支援。




