MeCabで中国語の形態素解析をするエントリにリンクが付いていた話

広告

何気なく日本語版Stackoverflowを見ていたら「mecab 中国語の辞書を作成について [クローズ済み]」というエントリがありました。懐かしいなー、昔、中国語をかじったときにちょっとやってみたんだっけ、と思って読んでみたらリンクがこのブログに付いていました。真面目に書いてない記事で申し訳ないです。

MeCabの辞書を作ること自体はそう難しくないのですが、いい辞書を作ろうと思ったらかなりの人手が要ります。それかクローラーみたいなのを使って、質はさておき量をかき集めてでっちあげる手もあります。

あれから月日は流れて2017年ですが、あまり中国語の形態素解析は盛り上がっていないようです。

NAIST Chinese Dictionary

本ページでは MeCab 用中国語辞書の情報を提示しています。現在のバージョンは mecab-naist-cdic-0.3.0-20100512 です。

辞書の概要

約12万語からなる中国語形態素解析用辞書です。

いわゆる「フリーライセンス」ではありません。利用に際して以下の手続きをお願いします。

問い合わせ

まずは、NAIST産官学連携推進本部「中国語形態素解析用辞書担当者」(ip-3f-at-ip.naist.jp)までご相談下さい。

試用

現在のところ試用の新規契約は中止しております。

https://cl.naist.jp/index.php?%B8%F8%B3%AB%A5%EA%A5%BD%A1%BC%A5%B9%2FNCD

なんてのもありますが、少々使うのは面倒くさそうです。

MeCab用中国語形態素解析辞書」なんてのもありますが試していません。

Googleの検索順位は人によって違うのかもしれないけど、今でも「中国語 形態素解析」とか、中国の情報を調べようと思って「詞素解析」で検索すると、このブログが上の方に出てくるというのは結構問題ではないかと思います。つまり、真面目に辞書を作ればその分野の第一人者になれる可能性があり、さらに中国語はメジャーな言語ですから結構評価されるかも知れません。