形態素辞書の応用


ワープロ

日本語の形態素辞書は最初から機械翻訳を目指していたわけではありません。日本語を形態素に分解して辞書化する当初の目的はワードプロセッサ、今でいうワープロです。ワープロはローマ字またはカタカナで入力した「音(おん)」の羅列を漢字かな交じり文にする作業です。

昔の文字通信はモールス符号などで伝えた信号を文字に変換していたわけですが、アルファベットの場合はそのまま文字に打ち出していけばいいわけです。強いていえば語と語の間の空白さえあれば、普通の文章と変わりません。これが分かち書きです。タイプライタでいえばスペースキーを打てばいいのです。実際には辞書をまるまる器械に記憶させて、それを照合しながら、必要個所をブランクにすればいいわけです。それでも結構な苦労がありました。実際の国際モールス符号では「短点(・)と長点(-)を組み合わせて、アルファベット・数字・記号を表現し、長点1つは短点3つ分の長さに相当し、各点の間は短点1つ分の間隔をあける。また、文字間隔は短点3つ分、語間隔は短点7つ分あけて区別する」ことになっていて文章に対応しています。

日本語はどうかというと、文字間隔と語間隔はこれで対応できますが、仮名文字だけの場合、同音異義語が多くあり、誤解を生じさせやすい欠点があります。昔の電報分がそうでした。よく例に出てくるのがイマルスバンニコイです。イマ、ルス、バンニコイ(今、留守、晩に来い)ともイマ、ルスバンニ、コイ(今、留守番に来い)とも解釈できるというわけです。このように点を打てばわかるのですが、頻繁に切れ目を入れると文字数も増え、料金も高くなります。何より仮名ばかりだと読みにくいです。

汎用にはやはり漢字かな交じり文が必要であり、ワープロ作成には漢字辞書と語形変化の辞書が必要でした。語幹と接辞の辞書とその組み合わせ(連文節)の辞書化はある程度できるのですが、問題は文における同音異義語で、文脈という言語学にとって一番厄介な処理の問題が立ちはだかりました。実はこの問題は未だに完全に解決されてはいません。日本人が音声で聞いていても誤解がでるくらいですから、機械にはとても難しい課題です。現在は膨大な文章を機械に記憶させ、そこから文脈を推測し、正しく漢字かな交じり文を生成するAI翻訳が登場してきました。

2024年5月
 12345
6789101112
13141516171819
20212223242526
2728293031  

コメントを残す