CCKS2021中文地址任務(wù)_第1頁
CCKS2021中文地址任務(wù)_第2頁
CCKS2021中文地址任務(wù)_第3頁
CCKS2021中文地址任務(wù)_第4頁
CCKS2021中文地址任務(wù)_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

CCKS2021中文地址任務(wù)大賽概況人類的活動離不開位置,從空間上可以表征為坐標(biāo),從文本上表征為通訊地址。通訊地址廣泛存在于電商物流、政府登記、金融交通等領(lǐng)域。對通訊地址的分析、聚合服務(wù)已經(jīng)是一項重要基礎(chǔ)服務(wù),支撐著諸多互聯(lián)網(wǎng)場景,比如地圖搜索、電商物流分析等。實際應(yīng)用中,地址文本存在寫法自由、缺省別名多、地域性強等特點,對地址的解析、歸一和匹配等都造成困難。針對這些難點,CCKS2021大會舉辦此次地址評測任務(wù)。該評測包含2個子任務(wù),分別是:中文地址要素解析、地址文本相關(guān)性。參賽隊伍可以任選其一參加,也可以參加兩個任務(wù)。賽程安排本次大賽分為報名組隊、初賽、復(fù)賽和決賽三個階段,具體安排和要求如下:報名組隊——————5月17日—6月25日初賽階段——————5月24日—7月2日復(fù)賽階段——————7月12日—8月13日決賽答辯——————10月下旬報名組隊與實名認(rèn)證(2021年5月17日—6月25日)報名方式:5月17日阿里天池平臺(/)將開放本次比賽的組隊報名、登錄比賽官網(wǎng),完成個人信息注冊,即可報名參賽;選手可以單人參賽,也可以組隊參賽。組隊參賽的每個團隊2-3人,每位選手只能加入一支隊伍;選手需確保報名信息準(zhǔn)確有效,組委會有權(quán)取消不符合條件隊伍的參賽資格及獎勵;選手報名、組隊變更等操作截止時間為6月25日23:59:59;各隊伍(包括隊長及全體隊伍成員)需要在6月25日23:59:59前完成實名認(rèn)證(認(rèn)證入口:天池官網(wǎng)-右上角個人中心-認(rèn)證-支付寶實名認(rèn)證),未完成認(rèn)證的參賽團隊將無法進行后續(xù)的比賽;大賽官方釘釘群請搜索GroupNumber:32039787,或掃描以下二維碼加入,最新通知將會第一時間在群內(nèi)同步:

初賽階段(2021年5月24日-2021年7月2日,UTC+8)初賽的幾個關(guān)鍵時間點:5月24號天池平臺將開放競賽數(shù)據(jù)集和系統(tǒng)測評。選手報名成功后,參賽隊伍通過天池平臺下載數(shù)據(jù),本地調(diào)試算法,在線提交結(jié)果。初賽提供訓(xùn)練數(shù)據(jù)集,供參賽選手訓(xùn)練算法模型;同時提供測試數(shù)據(jù)集,供參賽選手提交評測結(jié)果,參與排名。初賽時間為2021年5月24日-2021年7月2日,系統(tǒng)每天提供2次評測機會,系統(tǒng)進行實時評測并返回成績,排行榜每小時進行更新,按照評測指標(biāo)從高到低排序。排行榜將選擇參賽隊伍在本階段的歷史最優(yōu)成績進行排名展示。初賽淘汰:2021年7月2日上午9:59:59,初賽階段未產(chǎn)出成績的隊伍將被取消復(fù)賽參賽資格。初賽結(jié)束,初賽排名前100名的參賽隊伍將進入復(fù)賽,復(fù)賽名單將在7月9日21:59:59之前公布。復(fù)賽階段(2021年7月12日—2021年8月13日,UTC+8)復(fù)賽階段測試數(shù)據(jù)不可下載,采用docker鏡像的提交方式,“容器鏡像”提交說明在復(fù)賽前公布。第一次接觸docker可直達(dá)教程(鏈接/competition/entrance/231759/tab/174?spm=5176.122819d0d5330fADbWw)。本階段,系統(tǒng)每天提供2次實時評測,每小時更新排行榜,按照評測指標(biāo)從高到低排序。排行榜將選擇參賽隊伍在本階段的歷史最優(yōu)成績進行排名展示,但最終入圍決賽的排行榜則是根據(jù)參賽團隊在復(fù)賽最后一周(8月9日-8月13日)提交的歷史最優(yōu)成績而決定。復(fù)賽提交截止時間8月13日中午11:59:59。本階段內(nèi),選手需保證最后提交的是最優(yōu)模型對應(yīng)的完整端到端代碼(包含數(shù)據(jù)處理和模型訓(xùn)練等)并能運行復(fù)現(xiàn)最優(yōu)成績。復(fù)賽結(jié)束后,該階段最優(yōu)成績對應(yīng)提交的鏡像將直接用于代碼審核,如最優(yōu)成績對應(yīng)的鏡像代碼不是完整代碼運行得出,將會直接淘汰,因此如果最后階段出現(xiàn)無法復(fù)現(xiàn)的最優(yōu)成績可在復(fù)賽提交結(jié)束前聯(lián)系組委會協(xié)助刪除最優(yōu)記錄,復(fù)賽結(jié)束后不再受理。

榜單將在復(fù)賽截止后公布。復(fù)賽結(jié)束后,組委會將對排行榜TOP20參賽隊伍進行最優(yōu)提交成績的模型和完整代碼審核,該階段最優(yōu)成績對應(yīng)提交的鏡像將直接用于代碼審核,選手需保證提交最優(yōu)模型對應(yīng)完整端到端代碼(包含數(shù)據(jù)處理和模型訓(xùn)練等)且能運行復(fù)現(xiàn)最優(yōu)成績,不接受隨機成績。如最優(yōu)成績對應(yīng)的鏡像代碼不是完整代碼運行得出,將會直接淘汰。對于未提交、復(fù)現(xiàn)未成功或?qū)徍瞬煌ㄟ^的隊伍,將取消決賽資格和比賽獎勵。最終審核通過的前10名參賽隊伍晉級決賽。決賽答辯(暫定10月)入圍線下決賽答辯名單通知時間為8月31日23:59:59前。入圍團隊需要在10月1日17:59:59前需要提交答辯PPT,并在現(xiàn)在線下決賽前一天參與決賽彩排完成設(shè)備調(diào)試。線下決賽具體時間將在復(fù)賽結(jié)束后公布。決賽評分參考:復(fù)賽榜單、代碼質(zhì)量和答辯。答辯需要準(zhǔn)備答辯材料,包括答辯PPT(中英文均可)、參賽總結(jié)、算法核心。本次賽事決賽入圍團隊的最終得分將由復(fù)賽成績、決賽答辯成績加權(quán)得出,評分權(quán)重為:復(fù)賽成績占80%,決賽答辯成績占20%。另:本次賽事若要求論文環(huán)節(jié),則將以CCKS2021的通知要求為準(zhǔn)。參賽對象大賽面向全社會開放,個人、高等院校、科研單位、企業(yè)、創(chuàng)客團隊等人員均可報名參賽。阿里巴巴集團、螞蟻金服、菜鳥等BU員工均可報名參賽,規(guī)則如下:阿里系員工報名參賽,可參與排名,不得領(lǐng)取獎金,但有資格領(lǐng)取紀(jì)念獎;選手完成阿里云賬號注冊,并在天池個人中心頁面內(nèi)郵箱改為阿里巴巴員工郵箱,組織單位體現(xiàn)所在BU(“天池平臺-個人中心-所在機構(gòu)”);隊伍內(nèi)有一位阿里系員工(包括非正式員工),即屬于阿里巴巴集團內(nèi)部參賽團隊。*注:大賽主辦和技術(shù)支持單位如有機會接觸賽題背景業(yè)務(wù)、產(chǎn)品、數(shù)據(jù)的員工,則自動退出比賽,放棄參賽資格。獎項設(shè)置每個子任務(wù)總獎金共5萬元,獎金設(shè)置如下:

第一名:兩萬元人民幣

第二名:一萬兩千元人民幣

第三名:八千元人民幣

技術(shù)創(chuàng)新獎(2名):五千元人民幣大賽組織組織機構(gòu):英特爾CCF自然語言處理專委會阿里云天池平臺任務(wù)組織者:謝朋峻王瀟斌丁瑞雪陳漠沙(阿里云-天池平臺)張梅山(CCF自然語言處理專委會)任務(wù)聯(lián)系人:王瀟斌(czwangxiaobin@)丁瑞雪(ruixue_ding@) 任務(wù)溝通釘釘群:32039787任務(wù)一:中文地址要素解析背景地址是日常生活中一種重要的文本信息,諸多場景需要登記地址,如電商購物、外賣配送、人口普查、水電氣開戶等。常見的地址一般包含以下幾類信息:行政區(qū)劃信息,如省、市、縣、鄉(xiāng)鎮(zhèn)信息;路網(wǎng)信息,如路名,路號,道路設(shè)施等;詳細(xì)地址信息,如POI(興趣點)、樓棟號、戶室號等;非地址信息,如補充說明,誤輸入等;地址要素解析是將地址文本拆分成獨立語義的要素,并對這些要素進行類型識別的過程。地址要素解析與地址相關(guān)性共同構(gòu)成了中文地址處理兩大核心任務(wù),具有很大的商業(yè)價值。目前中文地址領(lǐng)域缺少標(biāo)準(zhǔn)的評測和數(shù)據(jù)集,這次我們將開放較大規(guī)模的標(biāo)注語料,希望和社區(qū)共同推動地址文本處理領(lǐng)域的發(fā)展。賽題描述中文地址要素解析任務(wù)的目標(biāo)即將一條地址分解為上述幾個部分的詳細(xì)標(biāo)簽,如:輸入:浙江省杭州市余杭區(qū)五常街道文一西路969號淘寶城5號樓,放前臺輸出:Province=浙江省city=杭州市district=余杭區(qū)town=五常街道road=文一西路road_number=969號poi=淘寶城house_number=5號樓other=,放前臺(詳細(xì)的標(biāo)簽體系及標(biāo)注規(guī)范將隨標(biāo)注數(shù)據(jù)一起公布)數(shù)據(jù)說明標(biāo)注數(shù)據(jù)集由訓(xùn)練集、驗證集和測試集組成,整體標(biāo)注數(shù)據(jù)大約2萬條左右。地址數(shù)據(jù)通過抓取公開的地址信息(如黃頁網(wǎng)站等)獲得,均通過眾包標(biāo)注生成,詳細(xì)標(biāo)注規(guī)范將會在數(shù)據(jù)發(fā)布時一并給出。提交說明選手需要提交測試數(shù)據(jù)的預(yù)測結(jié)果,文件命名為:隊伍名_addr_parsing_runid.txt,文件編碼采用utf-8編碼(無BOM頭)。結(jié)果文件分為3列,列分隔符為不可見字符,\u0001,第一列、第二列與測試文件對應(yīng),分別為數(shù)據(jù)id,地址原文。第三列為系統(tǒng)預(yù)測結(jié)果,使用BIEO標(biāo)簽體系,標(biāo)簽與類型采用“-”分隔,tag之間采用空格分隔。示例如下:1^A浙江杭州阿里^AB-provE-provB-cityE-cityB-poiE-poi評估標(biāo)準(zhǔn)我們通過將輸出結(jié)果與人工標(biāo)注的集合進行比較來分別計算每一種元素準(zhǔn)確率(Precision),召回率(Recall)和F-1分值(F-1score),并采用Micro-F1作為最終排名指標(biāo)。具體計算過程如下所示(以元素T為例):給定一條地址輸入(n),此地址中有x個T元素:Gn={g1,g2P實體標(biāo)注的召回率定義如下:R=實體標(biāo)注的F1值定義如下:F1=其中N為整個測試集。任務(wù)二:地址相關(guān)性背景地址文本相關(guān)性任務(wù)在現(xiàn)實世界中存在著廣泛的應(yīng)用場景,如:基于地理信息搜索的地理位置服務(wù)、對于突發(fā)事件位置信息的快速搜索定位、不同地址信息系統(tǒng)的對齊等等。日常生活中輸入的地址文本可以為以下幾種形式:包含四級行政區(qū)劃及路名路號POI的規(guī)范地址文本;地址要素缺省的規(guī)范地址文本,例:只有路名+路號、只有POI;非規(guī)范的地址文本、口語化的地址信息描述,例:阿里西溪園區(qū)東門旁親橙里;地址文本相關(guān)性主要是衡量地址間的相似程度,地址要素解析與地址相關(guān)性共同構(gòu)成了中文地址處理兩大核心任務(wù),具有很大的商業(yè)價值。目前中文地址領(lǐng)域缺少標(biāo)準(zhǔn)的評測和數(shù)據(jù)集,這次我們將開放較大規(guī)模的標(biāo)注語料,希望和社區(qū)共同推動地址文本處理領(lǐng)域的發(fā)展。賽題描述本評測任務(wù)為基于地址文本的相關(guān)性任務(wù)。即對于給定的一個地址query以及若干個候選地址文本,參賽系統(tǒng)需要對query與候選地址文本的匹配程度進行打分。多樣化的地址文本寫法對地址文本的相關(guān)性任務(wù)提出的挑戰(zhàn)如下:同一個地址存在多種寫法,沒有給定的改寫詞表;地址query一般存在省市區(qū)等限制條件,需要結(jié)合限制條件分析相關(guān)性;不同地市地址規(guī)范不一,對模型泛化性提出更高要求;數(shù)據(jù)說明輸入:輸入文件包含若干個query-地址文本對輸出:輸出文本每一行包括此query-地址文本對的匹配程度,分為完全匹配、部分匹配、不匹配示例: 輸入:Query:江蘇省南京市清水亭東路9號金域藍(lán)灣15幢 Doc:江寧區(qū)萬科金域藍(lán)灣15棟………… 輸出: 完全匹配…………說明:完全匹配:完全匹配一般是匹配到樓棟號,若原始數(shù)據(jù)只到poi則匹配到poi例子1:輸入:Query:江蘇省南京市清水亭東路9號金域藍(lán)灣15幢 Doc:江寧區(qū)萬科金域藍(lán)灣15棟輸出:完全匹配部分匹配:原始地址給到了樓棟號,備選地址中只能匹配到poi,則為部分匹配例子2:輸入:Query:江蘇省南京市棲霞區(qū)西崗街道學(xué)森路199號保利羅蘭春天13幢二單元Doc:仙林湖學(xué)森路199號保利羅蘭春天9號輸出:部分匹配**注意: 村級別,如果是村+村組,匹配到了村,算作部分匹配;同理,poi+subpoi,如果只匹配到了poi,算部分匹配;村+poi,匹配到村是不匹配,匹配到poi是完全匹配;村+門牌號+poi,匹配到村是不匹配,匹配到門牌號是部分匹配;query為村,candidate為村+poi,匹配到村是部分匹配;村+路+路號,匹配到村、路是部分匹配;不匹配:完全不匹配原文地址例子2:輸入:Query:遼寧省大連市甘井子區(qū)辛寨子街道天虹工業(yè)園區(qū)53號 Doc:新水泥路666號重工數(shù)控工業(yè)園輸出:不匹配標(biāo)注數(shù)據(jù)集由訓(xùn)練集、驗證集和測試集組成,整體標(biāo)注數(shù)據(jù)大約5萬條左右。標(biāo)注數(shù)據(jù)集中每條數(shù)據(jù)的格式為:{"text_id":"1","query":"華僑村西堤1巷12棟","candidate":[{"text":"華僑新村西堤一巷12號","label":"部分匹配"},{"text":"寶安區(qū)華僑新村西堤一巷","label":"部分匹配"},{"text":"海豐縣米巷西12幢","label":"不匹配"},{"text":"余姚市大施巷村西片12號樓","label":"不匹配"},{"text":"中山市西堤路一巷","label":"不匹配"}]}提交說明選手需要提交測試數(shù)據(jù)的預(yù)測結(jié)果,文件命名為:隊伍名_addr_match_runid.txt,文件編碼采用utf-8編碼(無BOM頭)。文件中每一行為一個query對應(yīng)所有候選的預(yù)測結(jié)果,以json格式輸出,label鍵對應(yīng)模型預(yù)測的匹配類型標(biāo)簽,其他字段與訓(xùn)練數(shù)據(jù)一致。具體格式示例如下:

{"text_id":"0329e27a5a9c77b25c65d614b978492a","query":"貨站街77號院二單元","candidate":[{"text":"貨站街77-12號興彭被裝","label":"部分匹配"},{"text":"貨站街77-10號鄭交大型貨運","label":"部分匹配"},{"text":"貨站>街77-2號附近豫香居","label":"部分匹配"},{"text":"貨站街77-2號天津狗不理包子(青年路店)","label":"部分匹配"},{"text":"貨站街77-11號附近佳能被裝","label":"部分匹配"}]}

{"text_id":"c80ca513f8473294f75f198e7f00235f","query":"盛澤鎮(zhèn)南麻工業(yè)區(qū)織莊路18號蘇州佑鎧科技有限公司","candidate":[{"text":"織莊路688號附近蘇州佑鎧科技工業(yè)有限公司","label":"完全匹配"},{"text":"太湖新城鎮(zhèn)康欣路28>號蘇州佑祥精密五金科技有限公司","label":"不匹配"},{"text":"盛澤鎮(zhèn)南

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論