信頼性のある辞書の半自動生成について

広告

まずコメントのお返事からします。

POSTED BY 匿名 ON 2010年3月7日
韓国の方から名詞を頂くと、名前も企業名もハングルで何がなにやらさっぱりわからないケースがかなり多いです。
一番近い国なのに、付き合いのある海外の国の中で一番、もらった名刺の読み取りが出来ないのが韓国だったりします。
(アラビア語圏と付き合い出れば同じように大変でしょうけど)
サムソンレベルになると当然違いますが、普通程度の韓国企業に勤める方は本当に漢字は全然駄目な方が多いようです。せめてお名前くらい漢字を教えていただけませんか? と聞いてもその場で書けない方もいらしたりします。
韓国で漢字が読み書きできるというのは、日本で古文がある程度しっかり読めます、というのと同じ位の教養レベルが必要なのかもしれません。
話が飛びますが、ブログのエントリーを上から下に読み終えて、そのまま下に 「add comments」 の欄があった方が、書き込みしやすいなあ、なんて思いました。
今の仕様は上に戻って、ぽちっとしないといけないのがちょっと哀しい。
あんまり気安く書き込み出来ない方が、いらいらしながらおれがただしいおまえはあほだ、と書き込んじゃうひとの存在を低減しやすくていいのかもしれないですけど。

コメント欄へのリンクをトップページ(個別のエントリじゃない方)にも貼りました。デザインはそのうち直します。

韓国企業の方から名刺をもらったことは何度かありますが、だいたいアルファベット表記になっているようです。国内としか取引をしないところはわからないけど。ハングルは1〜3日もあれば覚えられる文字らしいけど、勉強したことのない人にはアラビア文字みたいなものですよね。トルコは近代化の時に西洋式アルファベットに置き換えたのはそういう理由です

そいえば、韓国でも最近は漢字教育を再開したという噂を聞いたことがあります。10年後くらいには漢字が書ける大人が出てくるのでしょうか。

POSTED BY ひとり ON 2010年3月9日
よく当たる占いはありますか?

よくあたる占いは科学だと思います。個人的に科学の目的は未来を予言することだと思っていていますから、合理的な占いを科学と呼ぶのでしょうね。非合理的なものは占いと呼ばれる。占星術と天文学の違い?

POSTED BY シント ON 2010年3月10日
海外ニート氏を売国奴と呼ぶのは筋違い。経営や制度を運営を失敗した経営陣や、リストラされたら人生終了の常識や、ニートや引きこもり、生活保護受給者や派遣社員を、まるで親の仇のように責めるなど、どう見ても今までの日本人が悪いのにそれを自覚せず、または自分が悪いかも? という発想すらしない普通人には恐怖と失望を覚えます。
正直今の日本人は普通ではありません。こんな奴らが普通では、普通という言葉が穢れます。今の普通人は偽普通人です。

弱いものが更に弱いものを叩く構図は何とかしたいですねー。

POSTED BY 長澤まさみ ON 2010年3月9日
ビジネスにするなら英語も混ぜたほうが売れそうですね。(中英日3ヶ国語版)

これはその通りだと思います。英語圏にも売れれば販路がかなり広がります。ただ、英語圏の場合は繁体字に拘る必要はないかな。繁体字がなぜよいかというのは日本人に漢字のベースがあり、簡体字より繁体字のほうが親近感がある人が多いからです。繁体字・簡体字の変換は自動で行えるのでたいした問題ではないと思うけど。

Longman English Chineseという辞書のiPhone版を買ったけど、比較的酷かったからライバル不在と言っていいかな。

信頼性のある辞書の半自動生成について

日本ソフトウェア科学会で「ウェブマイニングとセマンティック技術」というチュートリアルがあります。

ねらい
ネットワーク上には非常に多くの情報が整理されずに存在しています。そして、これらの分類されていない膨大な情報を有効に活用するには、情報の関係を分析し構造化することが必要となります。本チュートリアルでは、これら情報を分析・分類する要素技術の解説から社会応用までを、初めての方にも分かり易く体系立てて解説していただきます。

これ出てみようかな。お金払って見に行く価値のあるものかはわからないけど。

辞書の著作権

日本の著作権法には「著作物の定義(著作権法2条1項1号)」があります。それによると

「a.『思想又は感情』を
 b.『創作的』に
 c.『表現』したものであって、
 d.『文芸、学術、美術又は音楽の範囲に属するもの』」

が著作権法の保護の範囲なので、それに該当しないものは利用することができるようです。

さて、単語の意味は単語の意味する事実の解説になります。ある特定の辞書にしか載っていない言葉の意味があるとすれば、それは普遍的に通用する単語ではないため創作性はないと解釈できます。発音記号についても同様です。

問題は用例です。例えば手元の辞書を適当に開いたところencourageという単語が見あたりました。

Daniel encouraged Nancy in business.
ダニエルは仕事のことでナンシーを励ました

という用例が載っているのですが「Aは仕事のことでBを励ました」という短文に創作性があるとすれば、ほとんど言葉を使うことができなくなってしまいますので、これも問題はないはず。ダニエルとかナンシーまで一字一句そのまま使うのは問題があるので、手作業で編集する必要があると思いますが、基本的にWebから蒐集したものは問題なく使えます。

やや長文の例文については創造性が認められると思います。こればかりは自分で何とかするか、あるいは著作権的にOKなものをベースにする必要があります。これは「Wikipedia:パブリックドメインの資源」が利用できます。

クリエイティブコモンズライセンスのものも積極的に利用していきたいところです。このページに有用なリンクがまとめられています。

以下の検索サイトでクリエイティブ・コモンズ(Creative Commons(CC))によりライセンスされた作品を検索可能です。

コーパスも質はともかく、ある程度は集められそうな予感がします。用例に写真を付けることも可能かも知れません。できれば発音(音声)もCCで手に入れられるとよいのですけどね。

プログラムでかき集めるのは簡単ですが、人間の手間をできるだけ減らしてほぼ自動で辞書コンテンツを作ることが最大の山になります。