言語資源とは
言語資源とは
言語のデータセット。
自分で作るのは大変なので既存のものを利用するのが吉。
単語などの言語資源である辞書や、文章の言語資源であるコーパスなどの総称。
まずは辞書とコーパスを理解すれば良いと思います。
辞書
特定の言語単位のリスト。語彙資源、語彙目録ともいう。
言語単位としては単語や形態素などが一般的。
もっともシンプルなものでは単に要素(単語)が羅列してあるだけの辞書もある。
情報がリッチなものでは以下の項目が単語ごとに付随する
- 品詞
- 定義
- 発音
- 読み
- 語形変化
シソーラス
単語間の上位下位の概念を付与したものをシソーラスという。
例えば「犬」は「動物」の下位、「チワワ」の上位
例:WordNet(厳密にはシソーラスよりも情報量が多く、辞書とシソーラスを複合したようなもの)
コーパス
テキストのデータセット。複数形はcorpora。
品詞や構文解析がされているものがある。
その特徴によって統語構造が付与されているツリーバンク、対訳のセットになっている対訳コーパスなど細かく分類することも可能。
タグ付けがされているものをannotated corpusと総称する。
一般にコーパスといえば、何かしらのタグ付けがされているものを指す。
例えばニュース文書のコーパスは単純にテキストデータだけではなく、以下のような処理が行われている。
- 文章ごとの区分
- 単語ごとの品詞タグ付け
- 構文解析
例:Brown Corpus
例:Penn Treebank
参考
入門 自然言語処理