數(shù)據(jù)格式說明手冊-華南理工大學人機智能交互室HCII-SCUT_第1頁
數(shù)據(jù)格式說明手冊-華南理工大學人機智能交互室HCII-SCUT_第2頁
數(shù)據(jù)格式說明手冊-華南理工大學人機智能交互室HCII-SCUT_第3頁
數(shù)據(jù)格式說明手冊-華南理工大學人機智能交互室HCII-SCUT_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

PAGE華南理工大學電信學院人機通信智能接口實驗室簡要SCUT-COUCH數(shù)據(jù)格式說明手冊HCIILaboratorySCUT華南理工大學人機通信智能接口實驗室/PAGE3華南理工大學電信學院人機通信智能接口實驗室1.SCUT-COUCH數(shù)據(jù)庫詳細說明1.1.SCUT-COUCH數(shù)據(jù)文件命名規(guī)則每套COUCH數(shù)據(jù)由兩個文件名相同,擴展名不同的文件組成。擴展名分別idx和dat。其中,dat文件為實際的數(shù)據(jù)文件,idx文件是dat文件的索引文件。每個文件名(除去擴展名)的命名遵循如下格式“數(shù)據(jù)集名+下劃線+編號”。其中數(shù)據(jù)集名為“Big5”,“Digit”,“GB1”,“GB2”,“Letter”,“Pinyin”,“Symbol”,“TradGB1”,“WORD17366”,“WORD44208”和“WORD8888”中的一個;編號代表該文件在相應數(shù)據(jù)集的套數(shù)編號,由三位阿拉伯數(shù)字組成。例如“WORD44208_001”代表SCUT-COUCH2009數(shù)據(jù)庫中WORD44208數(shù)據(jù)集中的第1套數(shù)據(jù),同時它包括兩個文件:“WORD442081.2.COUCH數(shù)據(jù)文件格式每套樣本數(shù)據(jù)均由一個索引文件(擴展名為idx,我們稱為IDX文件)和一個數(shù)據(jù)文件(擴展名為dat,我們稱為DAT文件)組成。1.2.1.IDX文件的格式IDX文件格式由表1所示,IDX文件由文件頭和索引單元兩種結構組成。每種結構均為固定大小。表1IDX文件存儲結構文件頭樣本0索引單元樣本1索引單元樣本N索引單元IDX文件頭格式如表2所示。文件頭單元位于文件起始位置,只有一個long型字段,它的值等于本套數(shù)據(jù)文件存儲的樣本總數(shù)。表2IDX文件頭格式數(shù)據(jù)名數(shù)據(jù)類型數(shù)據(jù)長度(Byte)描述SampleSumlong4本套數(shù)據(jù)文件的樣本總數(shù)IDX文件索引單元格式如表3所示。每個樣本的索引單元固定大小為13個字節(jié),共4個數(shù)據(jù)字段。其中IDX文件中索引單元的個數(shù)與相應DAT文件中的樣本數(shù)量是相同的。表3IDX文件樣本索引單元格式數(shù)據(jù)名數(shù)據(jù)類型數(shù)據(jù)長度(Byte)描述SampleStateunsignedchar1Hcii-lab保留使用OswIndexint4Hcii-lab保留使用IdxIndexint4樣本在本套數(shù)據(jù)中的編號,從0開始計數(shù)DatOffsetlong4樣本數(shù)據(jù)單元在對應DAT文件中的偏移位置1.2.2.DA文件格式DAT文件存儲結構由表4所示,由各個樣本數(shù)據(jù)單元構成,每個數(shù)據(jù)單元大小不定長,具體結構如表5所示。表4DAT文件存儲結構樣本0數(shù)據(jù)單元樣本1數(shù)據(jù)單元樣本2數(shù)據(jù)單元樣本N數(shù)據(jù)單元表5DAT文件數(shù)據(jù)單元格式數(shù)據(jù)名數(shù)據(jù)類型數(shù)據(jù)長度(Byte)描述WordLengthunsignedchar1樣本內碼長度,字節(jié)為單位WordCodeunsignedchar[]WordLength樣本的內碼PointNumunsignedshortint2樣本的點的個數(shù)LineNumunsignedshortint2樣本的筆畫個數(shù)GetTimePointNumunsignedshortint2捕獲到時間的點的個數(shù)GetTimePointIndexunsignedshortint[]GetTimePointNum捕獲到時間的點的序號ElapsedTimeDWORD[]GetTimePointNum每點距離上一捕獲時間的采樣點的時間距離StrokeData樣本筆畫數(shù)據(jù),結構如下所示StrokePointNumunsignedshortint2每筆的點數(shù)Point(x,y)unsignedshortint2+2一筆中每個點的x和y的坐標值1.2.3.IDX文件和DAT文件關系idx文件SampleSumSampleStateOswIndexIdxIndexDatOffsetSampleStateOswIndexIdxIndexDatOffsetdat文件樣本0數(shù)據(jù)單元idx文件SampleSumSampleStateOswIndexIdxIndexDatOffsetSampleStateOswIndexIdxIndexDatOffsetdat文件樣本0數(shù)據(jù)單元樣本1數(shù)據(jù)單元樣本2數(shù)據(jù)單元樣本SampleSum-1數(shù)據(jù)單元樣本0索引樣本1索引圖2idx文件與dat文件關系圖1.2.4.正確讀取COUCH數(shù)據(jù)讀取IDX文件IDX文件為COUCH數(shù)據(jù)的索引文件,通過讀取IDX文件中的索引單元,可以快速獲取應樣本的信息和該樣本的數(shù)據(jù)單元在dat文件中的位置。讀取IDX文件時,必須先讀取IDX文件頭(格式詳見表2),以獲取本套數(shù)據(jù)的樣本總個數(shù)。IDX文件中每個樣本索引單元結構大小固定為13個字節(jié)(格式詳見表3),因此可以方便快速讀取到目標索引結構。讀取DAT文件DAT文件存儲有序的樣本數(shù)據(jù)單元(詳見表5)。讀取目標數(shù)據(jù)單元時,由于某些字段的大小并不固定(WordCode,GetTimePointIndex,ElapsedTime,StrokeData),因此必須根據(jù)表5所示字段的順序,逐個讀取或者跳過相應的字段。DAT文件中,每個數(shù)據(jù)單元的大小不定,因此獲取目標數(shù)據(jù)單元時,必須先得知該單元在文件中的位置??梢皂樞蜃x取DAT文件的每個數(shù)據(jù)單元直至目標數(shù)據(jù)單元,但更為恰當?shù)姆椒ㄊ峭ㄟ^讀取IDX文件,獲取目標樣本索引單元。索引單元的DatOffset字段的值即為該樣本數(shù)據(jù)單元在DAT文件的中偏移量(該偏移從文件開始位置,以字節(jié)為單位計數(shù)),成功獲取偏移量后即可定位至DAT文件正確的位置讀取目

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論