「コーパス」ってどういう意味?利用例と一緒にご紹介!

教育

言語教育や自然言語処理に頻出する共通のキーワード「コーパス」をご存知ですか?

教育に関する発表や授業でそういえば聞いたなあ、といった方も多いのではないでしょうか。

この記事では一般に「コーパス」という言葉が何を指すのか、また言語教育や自然言語処理の分野で「コーパス」と言うと何を指すのかを解説します!

コーパス

主に分析を目的とした言語資源

コーパスとは主に、コンピューターによる分析を目的とした言語資源のことを指します。

言語資源とは、新聞記事や小説などを集めた大規模なテキストデータのことです。

例えばA新聞の2001年から2005年までの全ての記事から、テキスト部分だけを抽出したデータは「コーパス 」と呼ぶことができます。

 

コーパスは言語利用の宝庫

なぜ言語教育や自然言語処理といった分野でコーパスが用いられるのでしょうか。

それはコーパスが「言語利用の宝庫」だからです。

例えば日本語の新聞であれば、「新聞に書かれるのにふさわしい日本語」の例を大量に集めたコーパスが出来上がります。

あるいは外国人が書いた日本語であれば、「非ネイティブが書いた日本語」の性質をよくとらえたコーパスが出来上がるでしょう。

ある性質を持った言語利用の例を大量に集めたコーパスは、後述する様々なシーンで利用することができます。

 

言語教育での利用例

言語教育では、主に用例検索のためにコーパスを用います。

例えば英語学習者が英作文をするときに、”reflect”という動詞の使い方で困ったとします。

このとき、コーパスの中から動詞の”reflect”が使用されている文をいくつか参照することで、どのように使うべきかの参考にすることができます。

“reflect”を正しく使用した例でなければいけませんから、当然ネイティブが書いた英文からなるコーパスをここでは用います。

 

皆さんも英語の意味を調べるときはWeblio英辞郎を参考にするかと思います。

これらのサイトには「例文」を調べる機能があり、これがまさしくコーパスを利用している例となります。

Weblioでの”reflect”を含む例文検索の例

 

自然言語処理での利用例

またコーパスという言葉は、自然言語処理という分野でもよく用いられます。
自然言語処理では人間の学習ではなく、機械の学習に対してコーパスが使用されます

例えば文章から迷惑メールかどうかを判断する自然言語処理のタスクを考えます。

このタスクを解くとき、迷惑メールであることの判断基準に「広告らしさ」を用いるとします。
「広告らしさ」を機械に学習させるためには、既存の広告に含まれるテキストデータをあつめたコーパスが利用できるでしょう。

広告コーパスによって学習された機械は、より広告らしいと判断したメールを迷惑メールとして認識できるようになります。

 

このように、ある性質を持ったテキストデータを大量に持っておくことは、自然言語処理においても大きな利点となります。

 

まとめ

「コーパス」の意味と利用例をご紹介しました。

言語教育においても、自然言語処理においても、目的に応じた性質を持ったコーパスを利用することが重要です。

非ネイティブが書いた英語コーパスは英作文の参考にしづらいですし、Twitterから作ったコーパスは迷惑メール判定には利用しづらいでしょう。

いずれにせよ、ある共通の性質を持ったテキストデータを大量に持っておくと、今後どこかで役にたつかもしれません。

皆さんも是非、コーパスを作ってはどうでしょうか。

 

参考:コーパス|日本電子出版協会

機械学習
感情分析(Sentiment Analysis)とはどんなタスクか【自然言語処理タスク紹介2】

感情分析(感情分類、評判分析、センチメント分析、Sentiment Analysisなど)は、自然言 …

機械学習
固有表現抽出(NER)とはどんなタスクか【自然言語処理タスク紹介1】

自然言語処理には固有表現抽出と呼ばれるタスクがあります。 機械学習の授業や自然言語処理の研究を始めた …

機械学習
機械学習の検証データ(dev、valid)はなぜ必要か

機械学習の勉強を始めると「検証データ」や「devセット」「validセット」といった言葉を必ず目にし …