形態素辞書の実例
形態素解析が機械翻訳には重要であることは何となくおわかりいただいたと思います。しかし実際に形態素辞書を見たことのある人は少ないと思います。実際にはよく使われている技術なのですが、機械の中のシステムなので、一般の目に触れることはまずないものです。この技術は自然言語処理と呼ばれていて、大学や専門企業でシノギを削っている技術でもあります。形態素解析は自然言語処理の肝となる技術で、文章を意味の最小単位である形態素に分割し、それぞれの品詞や基本形を対応させます。形態素解析は構文解析、意味解析、文脈解析のために行われます。こうした工程を経ることで自然言語をコンピュータに理解させることができるわけです。
英語の場合は、単語ごとに空白があるので、どこで単語が区切れるかを簡単に分析できます。しかし、日本語は、単語同士が連続しているため、形態素解析が難しいのです。そのため、自分で形態素解析のルールを作成するのではなく、既存の形態素解析ツールを利用することが一般的です。形態素解析の例を示します。(https://www.tech-teacher.jp/blog/morphological-analysis/)形態素解析では、まず、文章を形態素に分解し、形態素ごとに品詞を対応させます。
例文:私はこれから遠足に行きます。
形態素分解例:私/は/これ/から/遠足/に/行き/ます/。
品詞対応例:私(代名詞)/は(助詞)/これ(代名詞)/から(助詞)/遠足(名詞)/に(助詞)/行き(動詞)/ます(助動詞)/。(記号)
この技術は今話題のchatGPTでも使われています。公開されているものを紹介します。興味のある方は検索してみてください。他にもいろいろ出ています。
MeCab(京都大学と日本電信通信株式会社コミュニケーション科学基礎研究所)
https://taku910.github.io/mecab/
JanomeはPythonで書かれた形態素解析器です。
https://mocobeta.github.io/janome/
JUMAN(京都大学)
https://nlp.ist.i.kyoto-u.ac.jp/?JUMAN%2B%2B
Web API(LINEYahoo)
https://developer.yahoo.co.jp/webapi/jlp/
gooラボ(NTTドコモ)
https://labs.goo.ne.jp/api/jp/morphological-analysis
RakutenMA(楽天)
https://github.com/rakuten-nlp/rakutenma/blob/master/README-ja.md
月 | 火 | 水 | 木 | 金 | 土 | 日 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 |