言語教育や自然言語処理に頻出する共通のキーワード「コーパス」をご存知ですか?
教育に関する発表や授業でそういえば聞いたなあ、といった方も多いのではないでしょうか。
この記事では一般に「コーパス」という言葉が何を指すのか、また言語教育や自然言語処理の分野で「コーパス」と言うと何を指すのかを解説します!
コーパス
主に分析を目的とした言語資源
コーパスとは主に、コンピューターによる分析を目的とした言語資源のことを指します。
言語資源とは、新聞記事や小説などを集めた大規模なテキストデータのことです。
例えばA新聞の2001年から2005年までの全ての記事から、テキスト部分だけを抽出したデータは「コーパス 」と呼ぶことができます。
コーパスは言語利用の宝庫
なぜ言語教育や自然言語処理といった分野でコーパスが用いられるのでしょうか。
それはコーパスが「言語利用の宝庫」だからです。
例えば日本語の新聞であれば、「新聞に書かれるのにふさわしい日本語」の例を大量に集めたコーパスが出来上がります。
あるいは外国人が書いた日本語であれば、「非ネイティブが書いた日本語」の性質をよくとらえたコーパスが出来上がるでしょう。
ある性質を持った言語利用の例を大量に集めたコーパスは、後述する様々なシーンで利用することができます。
言語教育での利用例
言語教育では、主に用例検索のためにコーパスを用います。
例えば英語学習者が英作文をするときに、”reflect”という動詞の使い方で困ったとします。
このとき、コーパスの中から動詞の”reflect”が使用されている文をいくつか参照することで、どのように使うべきかの参考にすることができます。
“reflect”を正しく使用した例でなければいけませんから、当然ネイティブが書いた英文からなるコーパスをここでは用います。
皆さんも英語の意味を調べるときはWeblioや英辞郎を参考にするかと思います。
これらのサイトには「例文」を調べる機能があり、これがまさしくコーパスを利用している例となります。
自然言語処理での利用例
またコーパスという言葉は、自然言語処理という分野でもよく用いられます。
自然言語処理では人間の学習ではなく、機械の学習に対してコーパスが使用されます。
例えば文章から迷惑メールかどうかを判断する自然言語処理のタスクを考えます。
このタスクを解くとき、迷惑メールであることの判断基準に「広告らしさ」を用いるとします。
「広告らしさ」を機械に学習させるためには、既存の広告に含まれるテキストデータをあつめたコーパスが利用できるでしょう。
広告コーパスによって学習された機械は、より広告らしいと判断したメールを迷惑メールとして認識できるようになります。
このように、ある性質を持ったテキストデータを大量に持っておくことは、自然言語処理においても大きな利点となります。
まとめ
「コーパス」の意味と利用例をご紹介しました。
言語教育においても、自然言語処理においても、目的に応じた性質を持ったコーパスを利用することが重要です。
非ネイティブが書いた英語コーパスは英作文の参考にしづらいですし、Twitterから作ったコーパスは迷惑メール判定には利用しづらいでしょう。
いずれにせよ、ある共通の性質を持ったテキストデータを大量に持っておくと、今後どこかで役にたつかもしれません。
皆さんも是非、コーパスを作ってはどうでしょうか。