你一定知道一個娛樂記者的工作性質:扒一扒明星的當下關系,再找一找明星的前塵往事……沒錯,娛記就是一個專門搜集明星小消息的職業。那極客呢?如果你依然覺得他們只是沒日沒夜對著屏幕跑代碼的“程序員”,那么你就真的OUT啦!關羽和誰是同鄉?孫悟空的老家在哪里?這些連娛記都回答不出的“明星”往事,百度-西交大大數據競賽的參賽選手們卻可以幫你找到答案。
極客幾時變成了眼觀六路的娛記?其實這一切只源于10月剛剛成功落幕的“百度、西交大大數據競賽”賽題:為了深入考察參賽者的知識挖掘能力,出題組拋出了以“挖掘核心人物關系,構建人物關系網絡”的考題。本次比賽基于百度的“知識圖譜”技術展開,進而構建知識挖掘系統,選手被要求在50個給定的明星人物間自動構建該明星的關系網絡,然后對候選關聯實體進行分層、排序和截斷,最終形成針對該對象的三層關系網絡,即該對象的知識圖譜。
什么是三層關系?舉例來說,假如給定對象為孫悟空,那么利用知識挖掘技術,選手可以發現知名藝人汪涵與孫悟空是江蘇同鄉,此為第一層關系;進而發掘汪涵與何炅是同事,此為第二層關系,依此類推,以海量大數據作為資源,任何蛛絲馬跡也逃不過“碼農”們的眼睛,明星之間的關系網絡就源源不斷的飛到“碼農”的碗里來啦!
如此好玩兒又有趣的賽題背后其實蘊含著極其復雜的技術應用,“這次的賽題主要用到了知識挖掘和提取三元組的技術。”大賽出題組成員,百度BDL資深研發工程師牛正雨表示,“基于大數據的知識圖譜建構是百度未來戰略“連接人與服務”的重點技術,目前在搜索技術應用領域,不僅人物關系的搜索需求旺盛,娛樂、旅游等領域同樣也是需求的熱門。本次賽題的超大量數據對于還處于學生階段的選手們來說還是很有挑戰性的。”
尤其值得一提的是,為了使選手們“玩兒的過癮”,在本次大數據競賽上,百度出題組特別放出了高達十億條的天量數據包供選手使用,堪稱行業競賽最大容量。除了供競賽使用之外,百度方面特別表示,這次之所以放出天量數據包,也是希望實現一次業界與學界的資源共享。此次賽題發布的數據不僅可以供比賽使用,也可以繼續被選手們應用于非商業目的學術研究。
多年以來,百度始終重視與高校間的協作研發與人才共同培養。今年4月,百度公司曾與西安交通大學簽署戰略合作框架協議,雙方確立了聯建設大數據人才創新平臺的計劃。此次“百度、西交大大數據競賽”是百度和西安交通大學大數據人才創新平臺計劃的一個組成部分,也是其中最早得到實踐的一個子項目。按照計劃,百度還將為西安交通大學數學實驗班、少年班、工科試驗班的學生提供客座教授和企業導師進行專業指導,開放最先進的大數據內容與技術,并定期發布課題供突出人才實踐研究;西安交大則在百度自有慕課平臺——百度傳課設立專屬頻道,為百度的大數據開發提供學術支持。