コーパス(corpus)




定義は研究者により様々であるが、凡そ次のようにまとめられよう。

『コーパスとは、検索することで大量の言語データからデータを収集し、言語研究に役立てることが出来るものである。
ネイティブスピーカーの内省では得られない周辺的な事実、ネイティブスピーカーが意識としてはマチガイと思っている言語現象でも実際の無意識の言語使用には現れうるようなものを一定数収集しうるもので、電子データ化されており検索が容易い。』

結構都合のいい定義である。
補足1。一般には「言語研究のために構築された」という一文が入る。コーパスは製作者が居てこそ成るものである。
補足2。必ずしも電子化されているものを指すとは限らない。現代においては、電子化されていて検索が容易であることはかなり必須とも言えるが…。
補足3。容易く、容易にと述べてしまったが、基本的に言語研究を簡単にするための方法とは違う。従来の手段で調査し得なかった事項を調べうるものであり、大量のデータを最終的に手作業で調査するという点で容易とは言いがたい。



追記欄
最終更新:2007年06月28日 22:38