中國Token出海惠及東南亞本土語言模型
視頻:中國AI解了東南亞一道難題來源:三里河
中新網(wǎng)北京4月20日電(左登基) “海獅說到了我心里?!?/p>
一位在新加坡工作的外籍工作人員,在飽嘗西方人工智能(AI)大模型的苦頭后,轉(zhuǎn)而投向本土語言模型。
他口中的這只海獅,并非水里的那個(gè)萌物,而是一款新加坡政府重金打造的國家級大語言模型項(xiàng)目SEA-LION。

而這個(gè)項(xiàng)目的基座模型,正是來自中國的阿里通義千問。截至4月15日,在最新的東南亞語言模型榜單上,這款中國模型保持領(lǐng)跑,在印尼語、馬來語、泰語、越南語等排行榜上更是高居榜首。
不過,這件事頗具戲劇性。這個(gè)旨在服務(wù)東南亞7億人口的國家級AI項(xiàng)目,起初用的卻是西方模型,結(jié)果鬧出了將委內(nèi)瑞拉列為東盟成員國這類低級笑話。
這荒誕的一幕,暴露出一個(gè)深層問題:7億東南亞人口,困在了AI的語言圍墻里。
在這里,本地語言多達(dá)1200余種,而主流模型中東南亞語言內(nèi)容占比,一度只有0.5%。
如,當(dāng)年風(fēng)靡一時(shí)的美國開源模型Llama2,幾乎是東南亞文盲,印尼語、泰語、緬甸語這類非拉丁語系文字,處理效率低得驚人。
當(dāng)?shù)厝艘庾R(shí)到,靠英語語料訓(xùn)練的西方模型,此路不通。
新加坡政府率先發(fā)力,于2023年12月投入7000萬新元(約合3.81億元人民幣),啟動(dòng)國家級多模態(tài)大模型計(jì)劃,旨在發(fā)展東南亞自己的語言模型。
破局的關(guān)鍵,要從詞元(Token)說起。它是AI處理信息的最小計(jì)量單位。
通俗地說,AI能否準(zhǔn)確理解某種語言,取決于訓(xùn)練時(shí)喂進(jìn)去的語料多少,也就是詞元量。
西方模型之所以水土不服,根源就在于東南亞語言詞元喂得太少。
畢竟,語言與文化相連,調(diào)性也大不相同。如,菲律賓語對部分詞語就會(huì)有一些委婉的表達(dá)方式,語料喂得不足,大模型根本讀不懂其真正含義。
變化發(fā)生于一次關(guān)鍵的技術(shù)轉(zhuǎn)向。2025年11月,海獅宣布棄用Llama架構(gòu),改用中國的阿里通義千問作為最新版本的旗艦基座模型。
該模型之所以能作為官方唯一的旗艦基座,是由于它很能打,在預(yù)訓(xùn)練階段使用的詞元規(guī)模就高達(dá)36萬億,覆蓋全球119種語言和方言。
這意味著,它不是后天補(bǔ)習(xí)東南亞語言,而是從底層就懂亞洲語境,不僅認(rèn)識(shí)印尼語、馬來語等文字,更能從底層理解其語法結(jié)構(gòu)。
不僅如此,中國企業(yè)還特別參與了后訓(xùn)練階段,為海獅額外補(bǔ)充了超過1000億詞元的東南亞語種訓(xùn)練。
在評估環(huán)節(jié),開發(fā)團(tuán)隊(duì)還特別邀請母語者參與數(shù)據(jù)質(zhì)量評估,并為外籍工作人員部署了母語聊天機(jī)器人。
效果立竿見影。2025年11月,基于中國大模型的海獅V4一經(jīng)推出,就在東南亞語言模型榜單中登頂。
這一轉(zhuǎn)向,也折射出一場全球范圍內(nèi)的詞元大遷移。
據(jù)全球AI模型API聚合平臺(tái)OpenRouter數(shù)據(jù),2026年4月第一周,中國AI大模型周調(diào)用量連續(xù)五周超越美國,最新一周達(dá)12.96萬億詞元,約為美國的4.27倍。更可觀的是,全球調(diào)用量的前六名,都是中國模型。
中國詞元出海看似橫空出世,實(shí)則是厚積薄發(fā)的必然。
國研新經(jīng)濟(jì)研究院創(chuàng)始院長朱克力在接受三里河采訪時(shí)認(rèn)為,Token出海本質(zhì)是中國智能算力、模型技術(shù)與智能服務(wù)體系的全球化輸出,是我國人工智能產(chǎn)業(yè)從本土應(yīng)用邁向國際競爭的重要標(biāo)志,長遠(yuǎn)看是中國新質(zhì)生產(chǎn)力對外開放的關(guān)鍵路徑,將穩(wěn)步打造全球智能價(jià)值輸出新格局。
語言不通的數(shù)字圍墻,如今正被詞元一寸寸擊穿。而中國AI,率先邁出了第一步。
中國—東盟商貿(mào)資訊平臺(tái)精選:
- 2026年04月20日 13:28:27
- 2026年04月17日 10:58:25
- 2026年04月16日 09:33:41
- 2026年04月15日 14:23:53
- 2026年04月15日 10:08:23
- 2026年04月10日 13:51:18
- 2026年04月08日 20:46:59
- 2026年04月02日 13:58:04
- 2026年03月31日 14:38:19
- 2026年03月29日 11:27:52














































京公網(wǎng)安備 11010202009201號