形態素辞書の必要性



機械翻訳ではオーソドックスな手法として、形態素辞書と文法辞書を用いるという説明をしました。文法辞書の方は割合想像がつくかもしれませんが、形態素辞書には馴染みがないと思います。形態素morphemeとは基本的な概念として、①意味の最小単位、②音素が形態素を形成し、形態素が語を形成する、という二重構造(二重分節といいます)になっている、というのが言語学の初歩的な常識です。一般的には意味の単位は語と考える人が多いのですが、そうではなく、語はさらに小さな単位に分解できる、という考えです。よく単語という言い方をしますが、単語というのは複合語に対する概念であり、専門的には単純語と呼んでいます。単語帳とか英単語という表現が広がっているため、そう思ってしまうのも無理はないのと、英和辞書などは見出し語という語単位で掲載されているので、一般に語が基本と思っています。形態素という概念が言語学で常識化したのは辞書がすでに広範囲に使用された後なので、専門用語と一般用語に乖離ができてしまいました。

日本語の構造は言語学の常識とは少し違い、語は語幹と接辞からできており、語幹も接辞も音からできています。この語幹と接辞が形態素に該当します。言語学ではそのまま語になれる形態素を自由形態素、単独では語になれない形態素を拘束形態素と呼んでいます。その定義だと語幹も接辞も拘束形態素です。ただしこれは動詞、形容詞、形容動詞のような用言と助詞についてであり、名詞や接続詞など屈折(語形変化)のない品詞は自由形態素ということになります。さらに面倒なのは日本語の音は音素ではなく、モーラという子音と母音がセットになった単位なのです。このように日本語は一般言語学の基本を単純にそのまま適用できない「特殊な」言語という扱いになっています。逆にいえば一般言語学は欧米の言語を基本として分析した結果で、それが日本語学で、従来の伝統的な分析を基本にしたのが国語学といえます。1つの言語について二種類の学問がある、というのも世界的に珍しいです。問題はこの違いが翻訳にも影響してくることです。枠組みの違うものを単純に交換できませんから、どういつの基準が必要になります。そこで日本語を一般言語学の枠組みに転換し共通化を図ります。その第一歩が形態素辞書です。翻訳は意味の変換ですから不可欠でした。

2024年5月
 12345
6789101112
13141516171819
20212223242526
2728293031  

コメントを残す