人民網
人民網>>重慶頻道>>原創

破譯千年楔形文字 重慶誕生首個本科Kaggle大師

2026年04月10日13:54 | 來源:人民網-重慶頻道
訂閱已訂閱已收藏收藏小字號

人民網重慶4月10日電 (劉政寧、周小平)近日,在全球頂級數據科學競賽平台Kaggle與Deep Past Initiative團隊聯合舉辦的“Deep Past挑戰賽”中,重慶郵電大學人工智能學院2023級本科生王世成、劉洋攜手美國IGS Energy公司算法工程師Jack Van Dyke組成的“M&J&M”團隊,從全球2673支隊伍中脫穎而出,排名第6,斬獲15枚金牌中的1枚,位列參賽總人數前0.2%。王世成更憑借包括本次賽事在內的多場國際頂級競賽的累計卓越表現,獲評“Kaggle競賽大師”稱號,成為重慶市首位獲此全球頂級認証的本科學子。

學生參賽獎狀。主辦方供圖

學生參賽獎狀。主辦方供圖

Kaggle 是全球數據科學與人工智能領域極具權威性的競技平台,賽事題目緊貼產業真實場景與前沿科研難題,賽事排名不僅被業界視為衡量算法實力的黃金標准,更是頭部AI企業選拔算法人才的重要依據。

王世成介紹,本次比賽的任務,是用人工智能把兩千多年前的古阿卡德語(楔形文字)翻譯成現代英語。這類古老語言被稱為“低資源語言”——現存文獻極少,總共相當於隻有約100本書。比賽提供了大約4000條文檔(相當於30本書的體量),但資料依然嚴重不足,而且文字本身存在大量格式錯亂和拼寫錯誤,就像一片雜亂無章的“數據沼澤”。翻譯過程中,王世成和劉洋發現,這些刻在石頭上的古老文字,記錄的並不是什麼深奧的典籍,而是商隊討價還價、債務憑証之類的日常瑣事,讓他們真切觸摸到了古代文明的脈搏。

王世成(右)、劉洋在實驗室。周小平攝

王世成(右)、劉洋在實驗室。周小平攝

比賽伊始,團隊便遭遇難題:官方提供的原始資料質量差、格式亂。起初隻用少量干淨數據訓練,成績徘徊在中游。王世成坦言:“最大的挑戰不是調參數,而是把雜亂資料整理成模型能學懂的東西。”於是他們改變策略,全力做“扎實、准確”的數據,花費大量時間清洗、整合土耳其語資料、公開書籍、機器標注偽標簽等多源信息。隨著高質量數據增多,模型效果迅速提升。最后沖刺階段,王世成設計了一套復雜訓練方法,融合15個模型的結果,最終斬獲全球第六。劉洋在數據處理與模型驗証中也功不可沒,這支跨國團隊遠程協作,配合默契。

“Kaggle競賽大師”稱號代表全球排名前1%的頂尖水平,需要選手在相關賽事中累積“兩金一銀”。目前全球約2266人入選,國內300余人。王世成從大二開始便連續斬獲Kaggle銀牌,多次帶隊參賽,在挑戰杯、大數據挑戰賽等國內頂級賽事中屢獲大獎。

這份成績的背后,是重慶郵電大學人工智能學院定制化拔尖人才培養的支撐。王世成、劉洋所在的數據科學與大數據技術拔尖班,採用20人小班教學,將Kaggle等高水平國際競賽納入實踐教學核心環節,設定了“銀牌必修、金牌培優”的考核機制——學生必須拿到銀牌以上才能獲得相應學分。學院副院長王進介紹,學院每年面向本科生開放免費競賽訓練營,覆蓋近40%的學生,從零基礎入門到實戰指導,全面降低參賽門檻。拔尖班不追求學分數量,而是將時間留給項目實戰與競賽,學生從大一起就“泡”在數據與模型中,對接互聯網大廠的真實需求,培養“上手就能用”的算法人才。

從實際效果來看,這套培養模式成效明顯:技術拔尖班學生進入頭部大廠算法崗位的比例接近40%,2019級畢業生平均年薪達42萬元。2021級拔尖創新班升學率100%,保研率63.6%﹔2022級保研率達91.7%。以王世成、劉洋為標杆,越來越多低年級學生主動投身算法競賽,形成良性梯隊。

(責編:蓋純、張祎)

分享讓更多人看到

返回頂部