|
語(yǔ)料庫(kù)的分類 | |||
作者:admin 文章來(lái)源:本站原創(chuàng) 點(diǎn)擊數(shù): 更新時(shí)間:2011-11-16 |
|
||
說(shuō)明:引用此文請(qǐng)注明出處,并務(wù)請(qǐng)保留后面的有效鏈接地址,謝謝!
語(yǔ)料庫(kù)的分類 語(yǔ)料庫(kù)根據(jù)收錄語(yǔ)料的內(nèi)容和屬性不同,通常可分為以下四種類型: ■異質(zhì)型語(yǔ)料庫(kù) 異質(zhì)型語(yǔ)料庫(kù)(Heterogeneous corpus)指沒(méi)有特定的語(yǔ)料收集原則,廣泛收集并原樣存儲(chǔ)各種語(yǔ)料。如英國(guó)牛津大學(xué)計(jì)算中心的OTA文本檔案庫(kù)。 ■同質(zhì)型語(yǔ)料庫(kù) 同質(zhì)型語(yǔ)料庫(kù)(Homogeneous)指只收集同一類內(nèi)容的語(yǔ)料。例如收集與軍事的文本的美國(guó)TIPSTER語(yǔ)料庫(kù)。另外,還有國(guó)內(nèi)的新華社“新聞?wù)Z料庫(kù)”、北京大學(xué)計(jì)算語(yǔ)言學(xué)所與富士通公司合作開(kāi)發(fā)的“日?qǐng)?bào)語(yǔ)料庫(kù)”、香港城市大學(xué)語(yǔ)言資訊中心的中文五地區(qū)共時(shí)語(yǔ)料庫(kù)(Linguistic Variety in Chinese Communities)等。 ■系統(tǒng)型語(yǔ)料庫(kù) 系統(tǒng)型語(yǔ)料庫(kù)(Systematic)指根據(jù)預(yù)先確定的原則和比例收集語(yǔ)料,使語(yǔ)料具有平衡性和系統(tǒng)性,能夠代表某一范圍內(nèi)的語(yǔ)言事實(shí)。如:北京語(yǔ)言大學(xué)的“現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)系統(tǒng)”、北京語(yǔ)言大學(xué)與香港理工大學(xué)合作的“現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)”、北京語(yǔ)言大學(xué)與清華大學(xué)合作的“現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)”、清華大學(xué)中文系的“清華TH語(yǔ)料庫(kù)”、語(yǔ)言文字工作委員會(huì)語(yǔ)用所的“現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)”等。 ■專用型語(yǔ)料庫(kù) 專用型語(yǔ)料庫(kù)(Specialized)指只收集用于某一特定用途的語(yǔ)料。如:美國(guó)卡耐基-梅隆大學(xué)為兒童心理語(yǔ)言學(xué)而的CHILDES語(yǔ)料庫(kù)、為珍藏人文科學(xué)著作和資料而的美國(guó)北美人文科學(xué)語(yǔ)料庫(kù)等。 |
|||
文章錄入:admin 責(zé)任編輯:admin | |||
【發(fā)表評(píng)論】【加入收藏】【告訴好友】【打印此文】【關(guān)閉窗口】 |
|
||||||
| 網(wǎng)站地圖 | 版權(quán)申明 | 設(shè)為首頁(yè) | 加入收藏 | 會(huì)員中心 | 取回密碼 | 友情鏈接 | 用戶留言 | 管理登錄 | ||||
|