自訂語料庫 使用說明 回首頁

「中央研究院古漢語素語料庫」 是「中央研究院古漢語語料庫」(Academia Sinica Ancient Chinese Corpus)的一個次語料庫。「中央研究院古漢語語料庫」是應漢語史研究需求而建構的語料庫。這個語料庫又可依是否經過斷詞及加標詞類而分成兩類,即未加標的素語料庫以及有標注的標記語料庫。目前素語料庫所蒐集的語料已含蓋上古漢語(先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以後)大部分的重要語料,並己陸續開放使用;在標記語料庫方面,上古漢語及近代漢語都已有部分語料完成標注的工作,並視結果逐步提供上線檢索。
「中央研究院古漢語語料庫」的建構始於一九九0年,創始者為黃居仁(語言所研究員)、譚樸森(英國倫敦大學亞非學院教授)、陳克健(資訊所研究員)、魏培泉(語言所研究員)等,最初的經費來源為蔣經國基金會及中央研究院歷史語言研究所,目標只是蒐集上古漢語的素語料。素語料庫的構建自此未曾停歇,語料也由上古漢語擴充到中古漢語和近代漢語。這個蒐集工作的持續基本上是由魏培泉負責執行,經費來源則主要為中央研究院。上古漢語語料的標注自一九九五年開始進行,近代漢語的標注也從一九九七年開始規劃,隨後即付諸實行,主其事者為魏培泉與劉承慧(清華大學中文系副教授)。支持這個標注工作的經費主要來自中央研究院及國科會,在標注及搜檢的技術方面則有黃居仁、陳克健及本院計算中心的協助。
「中央研究院近代漢語標記語料庫」WWW版於二00一年十一月首次開放供各界使用,首先提供查詢的文獻為《紅樓夢》及《三遂平妖傳》。本語料庫的查詢功能和斷詞標類的憑準大抵與「中央研究院現代漢語語料庫」相同,但也有其特色。如在查詢功能方面,可以在顯示詞項及其詞類之餘同時顯示例句的出處,以便於歷史語法的研究者使用;在斷詞標類的憑準方面,也因著眼不同而作了一些變動,如動補結構標示的較詳盡即為一例。


近代漢語標記語料庫 上古漢語標記語料庫
中央研究院資訊科學研究所、語言學研究所與計算中心 All Rights Reserved