CCKS2021中文地址任務(wù)_第1頁
CCKS2021中文地址任務(wù)_第2頁
CCKS2021中文地址任務(wù)_第3頁
CCKS2021中文地址任務(wù)_第4頁
CCKS2021中文地址任務(wù)_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

CCKS2021中文地址任務(wù)大賽概況人類的活動(dòng)離不開位置,從空間上可以表征為坐標(biāo),從文本上表征為通訊地址。通訊地址廣泛存在于電商物流、政府登記、金融交通等領(lǐng)域。對(duì)通訊地址的分析、聚合服務(wù)已經(jīng)是一項(xiàng)重要基礎(chǔ)服務(wù),支撐著諸多互聯(lián)網(wǎng)場景,比如地圖搜索、電商物流分析等。實(shí)際應(yīng)用中,地址文本存在寫法自由、缺省別名多、地域性強(qiáng)等特點(diǎn),對(duì)地址的解析、歸一和匹配等都造成困難。針對(duì)這些難點(diǎn),CCKS2021大會(huì)舉辦此次地址評(píng)測任務(wù)。該評(píng)測包含2個(gè)子任務(wù),分別是:中文地址要素解析、地址文本相關(guān)性。參賽隊(duì)伍可以任選其一參加,也可以參加兩個(gè)任務(wù)。賽程安排本次大賽分為報(bào)名組隊(duì)、初賽、復(fù)賽和決賽三個(gè)階段,具體安排和要求如下:報(bào)名組隊(duì)——————5月17日—6月25日初賽階段——————5月24日—7月2日復(fù)賽階段——————7月12日—8月13日決賽答辯——————10月下旬報(bào)名組隊(duì)與實(shí)名認(rèn)證(2021年5月17日—6月25日)報(bào)名方式:5月17日阿里天池平臺(tái)(/)將開放本次比賽的組隊(duì)報(bào)名、登錄比賽官網(wǎng),完成個(gè)人信息注冊,即可報(bào)名參賽;選手可以單人參賽,也可以組隊(duì)參賽。組隊(duì)參賽的每個(gè)團(tuán)隊(duì)2-3人,每位選手只能加入一支隊(duì)伍;選手需確保報(bào)名信息準(zhǔn)確有效,組委會(huì)有權(quán)取消不符合條件隊(duì)伍的參賽資格及獎(jiǎng)勵(lì);選手報(bào)名、組隊(duì)變更等操作截止時(shí)間為6月25日23:59:59;各隊(duì)伍(包括隊(duì)長及全體隊(duì)伍成員)需要在6月25日23:59:59前完成實(shí)名認(rèn)證(認(rèn)證入口:天池官網(wǎng)-右上角個(gè)人中心-認(rèn)證-支付寶實(shí)名認(rèn)證),未完成認(rèn)證的參賽團(tuán)隊(duì)將無法進(jìn)行后續(xù)的比賽;大賽官方釘釘群請(qǐng)搜索GroupNumber:32039787,或掃描以下二維碼加入,最新通知將會(huì)第一時(shí)間在群內(nèi)同步:

初賽階段(2021年5月24日-2021年7月2日,UTC+8)初賽的幾個(gè)關(guān)鍵時(shí)間點(diǎn):5月24號(hào)天池平臺(tái)將開放競賽數(shù)據(jù)集和系統(tǒng)測評(píng)。選手報(bào)名成功后,參賽隊(duì)伍通過天池平臺(tái)下載數(shù)據(jù),本地調(diào)試算法,在線提交結(jié)果。初賽提供訓(xùn)練數(shù)據(jù)集,供參賽選手訓(xùn)練算法模型;同時(shí)提供測試數(shù)據(jù)集,供參賽選手提交評(píng)測結(jié)果,參與排名。初賽時(shí)間為2021年5月24日-2021年7月2日,系統(tǒng)每天提供2次評(píng)測機(jī)會(huì),系統(tǒng)進(jìn)行實(shí)時(shí)評(píng)測并返回成績,排行榜每小時(shí)進(jìn)行更新,按照評(píng)測指標(biāo)從高到低排序。排行榜將選擇參賽隊(duì)伍在本階段的歷史最優(yōu)成績進(jìn)行排名展示。初賽淘汰:2021年7月2日上午9:59:59,初賽階段未產(chǎn)出成績的隊(duì)伍將被取消復(fù)賽參賽資格。初賽結(jié)束,初賽排名前100名的參賽隊(duì)伍將進(jìn)入復(fù)賽,復(fù)賽名單將在7月9日21:59:59之前公布。復(fù)賽階段(2021年7月12日—2021年8月13日,UTC+8)復(fù)賽階段測試數(shù)據(jù)不可下載,采用docker鏡像的提交方式,“容器鏡像”提交說明在復(fù)賽前公布。第一次接觸docker可直達(dá)教程(鏈接/competition/entrance/231759/tab/174?spm=5176.122819d0d5330fADbWw)。本階段,系統(tǒng)每天提供2次實(shí)時(shí)評(píng)測,每小時(shí)更新排行榜,按照評(píng)測指標(biāo)從高到低排序。排行榜將選擇參賽隊(duì)伍在本階段的歷史最優(yōu)成績進(jìn)行排名展示,但最終入圍決賽的排行榜則是根據(jù)參賽團(tuán)隊(duì)在復(fù)賽最后一周(8月9日-8月13日)提交的歷史最優(yōu)成績而決定。復(fù)賽提交截止時(shí)間8月13日中午11:59:59。本階段內(nèi),選手需保證最后提交的是最優(yōu)模型對(duì)應(yīng)的完整端到端代碼(包含數(shù)據(jù)處理和模型訓(xùn)練等)并能運(yùn)行復(fù)現(xiàn)最優(yōu)成績。復(fù)賽結(jié)束后,該階段最優(yōu)成績對(duì)應(yīng)提交的鏡像將直接用于代碼審核,如最優(yōu)成績對(duì)應(yīng)的鏡像代碼不是完整代碼運(yùn)行得出,將會(huì)直接淘汰,因此如果最后階段出現(xiàn)無法復(fù)現(xiàn)的最優(yōu)成績可在復(fù)賽提交結(jié)束前聯(lián)系組委會(huì)協(xié)助刪除最優(yōu)記錄,復(fù)賽結(jié)束后不再受理。

榜單將在復(fù)賽截止后公布。復(fù)賽結(jié)束后,組委會(huì)將對(duì)排行榜TOP20參賽隊(duì)伍進(jìn)行最優(yōu)提交成績的模型和完整代碼審核,該階段最優(yōu)成績對(duì)應(yīng)提交的鏡像將直接用于代碼審核,選手需保證提交最優(yōu)模型對(duì)應(yīng)完整端到端代碼(包含數(shù)據(jù)處理和模型訓(xùn)練等)且能運(yùn)行復(fù)現(xiàn)最優(yōu)成績,不接受隨機(jī)成績。如最優(yōu)成績對(duì)應(yīng)的鏡像代碼不是完整代碼運(yùn)行得出,將會(huì)直接淘汰。對(duì)于未提交、復(fù)現(xiàn)未成功或?qū)徍瞬煌ㄟ^的隊(duì)伍,將取消決賽資格和比賽獎(jiǎng)勵(lì)。最終審核通過的前10名參賽隊(duì)伍晉級(jí)決賽。決賽答辯(暫定10月)入圍線下決賽答辯名單通知時(shí)間為8月31日23:59:59前。入圍團(tuán)隊(duì)需要在10月1日17:59:59前需要提交答辯PPT,并在現(xiàn)在線下決賽前一天參與決賽彩排完成設(shè)備調(diào)試。線下決賽具體時(shí)間將在復(fù)賽結(jié)束后公布。決賽評(píng)分參考:復(fù)賽榜單、代碼質(zhì)量和答辯。答辯需要準(zhǔn)備答辯材料,包括答辯PPT(中英文均可)、參賽總結(jié)、算法核心。本次賽事決賽入圍團(tuán)隊(duì)的最終得分將由復(fù)賽成績、決賽答辯成績加權(quán)得出,評(píng)分權(quán)重為:復(fù)賽成績占80%,決賽答辯成績占20%。另:本次賽事若要求論文環(huán)節(jié),則將以CCKS2021的通知要求為準(zhǔn)。參賽對(duì)象大賽面向全社會(huì)開放,個(gè)人、高等院校、科研單位、企業(yè)、創(chuàng)客團(tuán)隊(duì)等人員均可報(bào)名參賽。阿里巴巴集團(tuán)、螞蟻金服、菜鳥等BU員工均可報(bào)名參賽,規(guī)則如下:阿里系員工報(bào)名參賽,可參與排名,不得領(lǐng)取獎(jiǎng)金,但有資格領(lǐng)取紀(jì)念獎(jiǎng);選手完成阿里云賬號(hào)注冊,并在天池個(gè)人中心頁面內(nèi)郵箱改為阿里巴巴員工郵箱,組織單位體現(xiàn)所在BU(“天池平臺(tái)-個(gè)人中心-所在機(jī)構(gòu)”);隊(duì)伍內(nèi)有一位阿里系員工(包括非正式員工),即屬于阿里巴巴集團(tuán)內(nèi)部參賽團(tuán)隊(duì)。*注:大賽主辦和技術(shù)支持單位如有機(jī)會(huì)接觸賽題背景業(yè)務(wù)、產(chǎn)品、數(shù)據(jù)的員工,則自動(dòng)退出比賽,放棄參賽資格。獎(jiǎng)項(xiàng)設(shè)置每個(gè)子任務(wù)總獎(jiǎng)金共5萬元,獎(jiǎng)金設(shè)置如下:

第一名:兩萬元人民幣

第二名:一萬兩千元人民幣

第三名:八千元人民幣

技術(shù)創(chuàng)新獎(jiǎng)(2名):五千元人民幣大賽組織組織機(jī)構(gòu):英特爾CCF自然語言處理專委會(huì)阿里云天池平臺(tái)任務(wù)組織者:謝朋峻王瀟斌丁瑞雪陳漠沙(阿里云-天池平臺(tái))張梅山(CCF自然語言處理專委會(huì))任務(wù)聯(lián)系人:王瀟斌(czwangxiaobin@)丁瑞雪(ruixue_ding@) 任務(wù)溝通釘釘群:32039787任務(wù)一:中文地址要素解析背景地址是日常生活中一種重要的文本信息,諸多場景需要登記地址,如電商購物、外賣配送、人口普查、水電氣開戶等。常見的地址一般包含以下幾類信息:行政區(qū)劃信息,如省、市、縣、鄉(xiāng)鎮(zhèn)信息;路網(wǎng)信息,如路名,路號(hào),道路設(shè)施等;詳細(xì)地址信息,如POI(興趣點(diǎn))、樓棟號(hào)、戶室號(hào)等;非地址信息,如補(bǔ)充說明,誤輸入等;地址要素解析是將地址文本拆分成獨(dú)立語義的要素,并對(duì)這些要素進(jìn)行類型識(shí)別的過程。地址要素解析與地址相關(guān)性共同構(gòu)成了中文地址處理兩大核心任務(wù),具有很大的商業(yè)價(jià)值。目前中文地址領(lǐng)域缺少標(biāo)準(zhǔn)的評(píng)測和數(shù)據(jù)集,這次我們將開放較大規(guī)模的標(biāo)注語料,希望和社區(qū)共同推動(dòng)地址文本處理領(lǐng)域的發(fā)展。賽題描述中文地址要素解析任務(wù)的目標(biāo)即將一條地址分解為上述幾個(gè)部分的詳細(xì)標(biāo)簽,如:輸入:浙江省杭州市余杭區(qū)五常街道文一西路969號(hào)淘寶城5號(hào)樓,放前臺(tái)輸出:Province=浙江省city=杭州市district=余杭區(qū)town=五常街道road=文一西路road_number=969號(hào)poi=淘寶城house_number=5號(hào)樓other=,放前臺(tái)(詳細(xì)的標(biāo)簽體系及標(biāo)注規(guī)范將隨標(biāo)注數(shù)據(jù)一起公布)數(shù)據(jù)說明標(biāo)注數(shù)據(jù)集由訓(xùn)練集、驗(yàn)證集和測試集組成,整體標(biāo)注數(shù)據(jù)大約2萬條左右。地址數(shù)據(jù)通過抓取公開的地址信息(如黃頁網(wǎng)站等)獲得,均通過眾包標(biāo)注生成,詳細(xì)標(biāo)注規(guī)范將會(huì)在數(shù)據(jù)發(fā)布時(shí)一并給出。提交說明選手需要提交測試數(shù)據(jù)的預(yù)測結(jié)果,文件命名為:隊(duì)伍名_addr_parsing_runid.txt,文件編碼采用utf-8編碼(無BOM頭)。結(jié)果文件分為3列,列分隔符為不可見字符,\u0001,第一列、第二列與測試文件對(duì)應(yīng),分別為數(shù)據(jù)id,地址原文。第三列為系統(tǒng)預(yù)測結(jié)果,使用BIEO標(biāo)簽體系,標(biāo)簽與類型采用“-”分隔,tag之間采用空格分隔。示例如下:1^A浙江杭州阿里^AB-provE-provB-cityE-cityB-poiE-poi評(píng)估標(biāo)準(zhǔn)我們通過將輸出結(jié)果與人工標(biāo)注的集合進(jìn)行比較來分別計(jì)算每一種元素準(zhǔn)確率(Precision),召回率(Recall)和F-1分值(F-1score),并采用Micro-F1作為最終排名指標(biāo)。具體計(jì)算過程如下所示(以元素T為例):給定一條地址輸入(n),此地址中有x個(gè)T元素:Gn={g1,g2P實(shí)體標(biāo)注的召回率定義如下:R=實(shí)體標(biāo)注的F1值定義如下:F1=其中N為整個(gè)測試集。任務(wù)二:地址相關(guān)性背景地址文本相關(guān)性任務(wù)在現(xiàn)實(shí)世界中存在著廣泛的應(yīng)用場景,如:基于地理信息搜索的地理位置服務(wù)、對(duì)于突發(fā)事件位置信息的快速搜索定位、不同地址信息系統(tǒng)的對(duì)齊等等。日常生活中輸入的地址文本可以為以下幾種形式:包含四級(jí)行政區(qū)劃及路名路號(hào)POI的規(guī)范地址文本;地址要素缺省的規(guī)范地址文本,例:只有路名+路號(hào)、只有POI;非規(guī)范的地址文本、口語化的地址信息描述,例:阿里西溪園區(qū)東門旁親橙里;地址文本相關(guān)性主要是衡量地址間的相似程度,地址要素解析與地址相關(guān)性共同構(gòu)成了中文地址處理兩大核心任務(wù),具有很大的商業(yè)價(jià)值。目前中文地址領(lǐng)域缺少標(biāo)準(zhǔn)的評(píng)測和數(shù)據(jù)集,這次我們將開放較大規(guī)模的標(biāo)注語料,希望和社區(qū)共同推動(dòng)地址文本處理領(lǐng)域的發(fā)展。賽題描述本評(píng)測任務(wù)為基于地址文本的相關(guān)性任務(wù)。即對(duì)于給定的一個(gè)地址query以及若干個(gè)候選地址文本,參賽系統(tǒng)需要對(duì)query與候選地址文本的匹配程度進(jìn)行打分。多樣化的地址文本寫法對(duì)地址文本的相關(guān)性任務(wù)提出的挑戰(zhàn)如下:同一個(gè)地址存在多種寫法,沒有給定的改寫詞表;地址query一般存在省市區(qū)等限制條件,需要結(jié)合限制條件分析相關(guān)性;不同地市地址規(guī)范不一,對(duì)模型泛化性提出更高要求;數(shù)據(jù)說明輸入:輸入文件包含若干個(gè)query-地址文本對(duì)輸出:輸出文本每一行包括此query-地址文本對(duì)的匹配程度,分為完全匹配、部分匹配、不匹配示例: 輸入:Query:江蘇省南京市清水亭東路9號(hào)金域藍(lán)灣15幢 Doc:江寧區(qū)萬科金域藍(lán)灣15棟………… 輸出: 完全匹配…………說明:完全匹配:完全匹配一般是匹配到樓棟號(hào),若原始數(shù)據(jù)只到poi則匹配到poi例子1:輸入:Query:江蘇省南京市清水亭東路9號(hào)金域藍(lán)灣15幢 Doc:江寧區(qū)萬科金域藍(lán)灣15棟輸出:完全匹配部分匹配:原始地址給到了樓棟號(hào),備選地址中只能匹配到poi,則為部分匹配例子2:輸入:Query:江蘇省南京市棲霞區(qū)西崗街道學(xué)森路199號(hào)保利羅蘭春天13幢二單元Doc:仙林湖學(xué)森路199號(hào)保利羅蘭春天9號(hào)輸出:部分匹配**注意: 村級(jí)別,如果是村+村組,匹配到了村,算作部分匹配;同理,poi+subpoi,如果只匹配到了poi,算部分匹配;村+poi,匹配到村是不匹配,匹配到poi是完全匹配;村+門牌號(hào)+poi,匹配到村是不匹配,匹配到門牌號(hào)是部分匹配;query為村,candidate為村+poi,匹配到村是部分匹配;村+路+路號(hào),匹配到村、路是部分匹配;不匹配:完全不匹配原文地址例子2:輸入:Query:遼寧省大連市甘井子區(qū)辛寨子街道天虹工業(yè)園區(qū)53號(hào) Doc:新水泥路666號(hào)重工數(shù)控工業(yè)園輸出:不匹配標(biāo)注數(shù)據(jù)集由訓(xùn)練集、驗(yàn)證集和測試集組成,整體標(biāo)注數(shù)據(jù)大約5萬條左右。標(biāo)注數(shù)據(jù)集中每條數(shù)據(jù)的格式為:{"text_id":"1","query":"華僑村西堤1巷12棟","candidate":[{"text":"華僑新村西堤一巷12號(hào)","label":"部分匹配"},{"text":"寶安區(qū)華僑新村西堤一巷","label":"部分匹配"},{"text":"海豐縣米巷西12幢","label":"不匹配"},{"text":"余姚市大施巷村西片12號(hào)樓","label":"不匹配"},{"text":"中山市西堤路一巷","label":"不匹配"}]}提交說明選手需要提交測試數(shù)據(jù)的預(yù)測結(jié)果,文件命名為:隊(duì)伍名_addr_match_runid.txt,文件編碼采用utf-8編碼(無BOM頭)。文件中每一行為一個(gè)query對(duì)應(yīng)所有候選的預(yù)測結(jié)果,以json格式輸出,label鍵對(duì)應(yīng)模型預(yù)測的匹配類型標(biāo)簽,其他字段與訓(xùn)練數(shù)據(jù)一致。具體格式示例如下:

{"text_id":"0329e27a5a9c77b25c65d614b978492a","query":"貨站街77號(hào)院二單元","candidate":[{"text":"貨站街77-12號(hào)興彭被裝","label":"部分匹配"},{"text":"貨站街77-10號(hào)鄭交大型貨運(yùn)","label":"部分匹配"},{"text":"貨站>街77-2號(hào)附近豫香居","label":"部分匹配"},{"text":"貨站街77-2號(hào)天津狗不理包子(青年路店)","label":"部分匹配"},{"text":"貨站街77-11號(hào)附近佳能被裝","label":"部分匹配"}]}

{"text_id":"c80ca513f8473294f75f198e7f00235f","query":"盛澤鎮(zhèn)南麻工業(yè)區(qū)織莊路18號(hào)蘇州佑鎧科技有限公司","candidate":[{"text":"織莊路688號(hào)附近蘇州佑鎧科技工業(yè)有限公司","label":"完全匹配"},{"text":"太湖新城鎮(zhèn)康欣路28>號(hào)蘇州佑祥精密五金科技有限公司","label":"不匹配"},{"text":"盛澤鎮(zhèn)南

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論