国产精品麻豆欧美日韩ww_欧美日高清视频_亚洲精品成人久久久_久久精品国产清自在天天线

打印本文 打印本文  關閉窗口 關閉窗口  
語料庫的分類
作者:admin  文章來源:本站原創  點擊數  更新時間:2011-11-16  文章錄入:admin  責任編輯:admin



語料庫的分類

 

語料庫根據收錄語料的內容和屬性不同,通常可分為以下四種類型:

■異質型語料庫

異質型語料庫(Heterogeneous corpus)指沒有特定的語料收集原則,廣泛收集并原樣存儲各種語料。如英國牛津大學計算中心的OTA文本檔案庫。

■同質型語料庫

同質型語料庫(Homogeneous)指只收集同一類內容的語料。例如收集與軍事的文本的美國TIPSTER語料庫。另外,還有國內的新華社“新聞語料庫”、北京大學計算語言學所與富士通公司合作開發的“日報語料庫”、香港城市大學語言資訊中心的中文五地區共時語料庫(Linguistic Variety in Chinese Communities)等。

■系統型語料庫

系統型語料庫(Systematic)指根據預先確定的原則和比例收集語料,使語料具有平衡性和系統性,能夠代表某一范圍內的語言事實。如:北京語言大學的“現代漢語語料庫系統”、北京語言大學與香港理工大學合作的“現代漢語語料庫”、北京語言大學與清華大學合作的“現代漢語語料庫”、清華大學中文系的“清華TH語料庫”、語言文字工作委員會語用所的“現代漢語語料庫”等。

■專用型語料庫

專用型語料庫(Specialized)指只收集用于某一特定用途的語料。如:美國卡耐基-梅隆大學為兒童心理語言學而的CHILDES語料庫、為珍藏人文科學著作和資料而的美國北美人文科學語料庫等。

 

打印本文 打印本文  關閉窗口 關閉窗口