Archive for the '執筆・出版' Category

信頼性のある辞書の半自動生成について

Posted by onaneetX.Q on 3月 10 2010 one Commented

まずコメントのお返事からします。

POSTED BY 匿名 ON 2010年3月7日
韓国の方から名詞を頂くと、名前も企業名もハングルで何がなにやらさっぱりわからないケースがかなり多いです。
一番近い国なのに、付き合いのある海外の国の中で一番、もらった名刺の読み取りが出来ないのが韓国だったりします。
(アラビア語圏と付き合い出れば同じように大変でしょうけど)
サムソンレベルになると当然違いますが、普通程度の韓国企業に勤める方は本当に漢字は全然駄目な方が多いようです。せめてお名前くらい漢字を教えていただけませんか? と聞いてもその場で書けない方もいらしたりします。
韓国で漢字が読み書きできるというのは、日本で古文がある程度しっかり読めます、というのと同じ位の教養レベルが必要なのかもしれません。
話が飛びますが、ブログのエントリーを上から下に読み終えて、そのまま下に 「add comments」 の欄があった方が、書き込みしやすいなあ、なんて思いました。
今の仕様は上に戻って、ぽちっとしないといけないのがちょっと哀しい。
あんまり気安く書き込み出来ない方が、いらいらしながらおれがただしいおまえはあほだ、と書き込んじゃうひとの存在を低減しやすくていいのかもしれないですけど。

コメント欄へのリンクをトップページ(個別のエントリじゃない方)にも貼りました。デザインはそのうち直します。

韓国企業の方から名刺をもらったことは何度かありますが、だいたいアルファベット表記になっているようです。国内としか取引をしないところはわからないけど。ハングルは1〜3日もあれば覚えられる文字らしいけど、勉強したことのない人にはアラビア文字みたいなものですよね。トルコは近代化の時に西洋式アルファベットに置き換えたのはそういう理由です

そいえば、韓国でも最近は漢字教育を再開したという噂を聞いたことがあります。10年後くらいには漢字が書ける大人が出てくるのでしょうか。

POSTED BY ひとり ON 2010年3月9日
よく当たる占いはありますか?

よくあたる占いは科学だと思います。個人的に科学の目的は未来を予言することだと思っていていますから、合理的な占いを科学と呼ぶのでしょうね。非合理的なものは占いと呼ばれる。占星術と天文学の違い?

POSTED BY シント ON 2010年3月10日
海外ニート氏を売国奴と呼ぶのは筋違い。経営や制度を運営を失敗した経営陣や、リストラされたら人生終了の常識や、ニートや引きこもり、生活保護受給者や派遣社員を、まるで親の仇のように責めるなど、どう見ても今までの日本人が悪いのにそれを自覚せず、または自分が悪いかも? という発想すらしない普通人には恐怖と失望を覚えます。
正直今の日本人は普通ではありません。こんな奴らが普通では、普通という言葉が穢れます。今の普通人は偽普通人です。

弱いものが更に弱いものを叩く構図は何とかしたいですねー。

POSTED BY 長澤まさみ ON 2010年3月9日
ビジネスにするなら英語も混ぜたほうが売れそうですね。(中英日3ヶ国語版)

これはその通りだと思います。英語圏にも売れれば販路がかなり広がります。ただ、英語圏の場合は繁体字に拘る必要はないかな。繁体字がなぜよいかというのは日本人に漢字のベースがあり、簡体字より繁体字のほうが親近感がある人が多いからです。繁体字・簡体字の変換は自動で行えるのでたいした問題ではないと思うけど。

Longman English Chineseという辞書のiPhone版を買ったけど、比較的酷かったからライバル不在と言っていいかな。

信頼性のある辞書の半自動生成について

日本ソフトウェア科学会で「ウェブマイニングとセマンティック技術」というチュートリアルがあります。

ねらい
ネットワーク上には非常に多くの情報が整理されずに存在しています。そして、これらの分類されていない膨大な情報を有効に活用するには、情報の関係を分析し構造化することが必要となります。本チュートリアルでは、これら情報を分析・分類する要素技術の解説から社会応用までを、初めての方にも分かり易く体系立てて解説していただきます。

これ出てみようかな。お金払って見に行く価値のあるものかはわからないけど。

辞書の著作権

日本の著作権法には「著作物の定義(著作権法2条1項1号)」があります。それによると

「a.『思想又は感情』を
 b.『創作的』に
 c.『表現』したものであって、
 d.『文芸、学術、美術又は音楽の範囲に属するもの』」

が著作権法の保護の範囲なので、それに該当しないものは利用することができるようです。

さて、単語の意味は単語の意味する事実の解説になります。ある特定の辞書にしか載っていない言葉の意味があるとすれば、それは普遍的に通用する単語ではないため創作性はないと解釈できます。発音記号についても同様です。

問題は用例です。例えば手元の辞書を適当に開いたところencourageという単語が見あたりました。

Daniel encouraged Nancy in business.
ダニエルは仕事のことでナンシーを励ました

という用例が載っているのですが「Aは仕事のことでBを励ました」という短文に創作性があるとすれば、ほとんど言葉を使うことができなくなってしまいますので、これも問題はないはず。ダニエルとかナンシーまで一字一句そのまま使うのは問題があるので、手作業で編集する必要があると思いますが、基本的にWebから蒐集したものは問題なく使えます。

やや長文の例文については創造性が認められると思います。こればかりは自分で何とかするか、あるいは著作権的にOKなものをベースにする必要があります。これは「Wikipedia:パブリックドメインの資源」が利用できます。

クリエイティブコモンズライセンスのものも積極的に利用していきたいところです。このページに有用なリンクがまとめられています。

以下の検索サイトでクリエイティブ・コモンズ(Creative Commons(CC))によりライセンスされた作品を検索可能です。

コーパスも質はともかく、ある程度は集められそうな予感がします。用例に写真を付けることも可能かも知れません。できれば発音(音声)もCCで手に入れられるとよいのですけどね。

プログラムでかき集めるのは簡単ですが、人間の手間をできるだけ減らしてほぼ自動で辞書コンテンツを作ることが最大の山になります。

ランキング

東大生ブログランキング登録しました。ぽちしていただけると喜びます。

東大生ブログランキング

iPad, iBooksによる中国語の教材を作りたい

Posted by onaneetX.Q on 3月 4 2010 2 Commented

まずコメントのお返事から。

POSTED BY ひとり ON 2010年2月28日
今でも間に合います?
今後の事があまり決まっていません

日本の大学はほとんど4月からです。たまーに10月入学の大学もあるかも知れませんが、まだ受験をしていないのならチャンスは来年以降だと思います。ですから1年間を有意義に使うことをオススメします。家にいたくないのなら、バイトを見つけてアパートを借りて出て行くのもいいけど、受験勉強が必要だとしたら、忙しくなるのは本末転倒かも。

類は友を呼ぶ

周りに就職できない人がどんどん集まっています。おいらはまだマシな方で専門技能があるからバイトでもそこそこ有利な条件で働くことができるし、台湾のあまり綺麗とは言えないアパートで生活するのも苦にならないので、外こもりみたいな生活ができるぶん恵まれていると言えます。

でも、周りにいる人はそれも難しいところがあるので、できれば何か事業化して、それらのニートさんたちに仕事を分配していきたいなと思っています。

在庫を抱えないビジネスとしてのiBooks

実力を考えないで高い目標を打ち上げてしまったけど、ビジネスをやるのに在庫リスクとかを抱えたくない。そう考えたときにiPhoneアプリとかiBooksというのは在庫リスクがないこと、販売ルートをAppleが用意してくれることがありがたい。一部報道によると、日本では保守的な出版業者が多いからiBooksサービスは展開されないというけど、そうならないことを祈りたい。個人で本を書く人だっているわけで、出版社が利用しなくてもiPhoneアプリのように個人で作ったものを売れるとありがたい。

中国語の単語帳

前にも書いたのだけど、中国語の教材は英語の教材に比べて質が悪いと思う。ならば、英語の教材で評判のいいもののアイディアを拝借して中国語版を作れば評価される公算が高い。まだほとんど展開されていない分野だから、やったもの勝ちと言える。

中国語の文法書は学力的に無理だと思う。日本にも中国語の文法書はあるけど、ろくなのがないような気がする。だからチャンスなのだけど。

台湾師範大学の近くにある書店に行ったところ、さすが師範大学の付近にあるだけあって語学の本がたくさんあった。文法の本も分厚い充実していそうな本が複数種類あった。しかし全部中国語で書かれているので今の学力では読み解くことができない。

日本語で書かれた文法書を咀嚼してもたぶん目指しているような文法書にはならない。十分中国語の学力のある日本語ネイティブの人が台湾とか中国で売られている本格的な文法書をかみ砕いて、日本人の知識に適した形で表現しなくてはならない。それはまだハードルが高すぎる。

だから、まず手始めに単語帳と基礎文法に絞るべきだと思う。

Wiki立ち上げ

Taiwanese Mandarin Wikiを設置した。まだ何も書いていないけど。

辞書とWikiが相性がいいのはWikipediaの成功によって明らかだと思う。文章は文で構成され、文は句や節で成り立っている。さらに分解すれば単語になる。これらに片っ端からリンクを張れば使い勝手の良いものになるはずだ。

ここに少しずつ単語のページを作る。Wikiなので最初から張り切って書かなくてもあとで加筆すればいいから気軽である。最初は自分が学習したものを中心に書いていく。

例文が欲しい。例文は著作権的な問題があるので自分で作らなくてはいけないが、間違った例文になるのも困る。最初は簡単で間違えようのないものを書き、そのうち少し長めの文章が例文になるような形で足していきたい。

繁体字・簡体字の扱い

繁体字と簡体字は一定の置換を施せば入れ替えることができる。だから最初は繁体字で作って注音符号とピンインを付す。簡体字のページはプログラムを書いて一気に置換する。

コーパスから単語帳へ

ある程度の単語帳ができたら、それを再編集して単語帳を作りたい。Mediawikiではページ数カウントが簡単にできるので、とりあえず5,000単語くらいを目安にしたい。

単語が集まったら学習に適した形で再構成をする。いくつか見かけた単語帳ではピンインの順に並んでいるものがあった。これではbで始まる言葉はマニアックなものまで知っているが、zで始まる基本単語は何も知らない人を作りがちになると思う。また分野別でも同じだ。色に関しては白とか黒はともかく「一面真っ白な雪に覆われた」みたいな表現って初学者にとって重要だろうか?

だから出現頻度別にソートして、それらを上手く組み合わせた短い文章を構築して、それに付随した形で単語を配置する。これだけでおそらく既存の単語帳より優れた物になると思う。もし、よい単語帳が既に存在するなら教えて欲しい。

他には、中国語は漢字で構成されていて、日本人なら読めないまでも結構意味はわかるものがある。だから、初学者にとって大事なのは単語の出現頻度の他に漢字の出現頻度もある。多く使われる漢字を早めに学習することで、結果的に多くの単語を理解することにつながる。

販売の問題

さて、これを売るというのはなかなか勇気の要る作業だ。なぜなら、自分の中国語の能力はそう高くない。そんなものをお金を取っていいのか?という批判を受けそうだ。日本は特に社畜の要因でもある、サービスを過大に要求する国である。海外ニート氏も指摘しているように

世界に誇る質の高いサービスを享受するだけの「お客様」にとっては最高に居心地の良い天国も、働く側に回ってしまうと一気にクソ労働地獄に突き落とされる。

他に嫌儲の習慣もある。これらが複合すると、既存の大きな企業は金を稼いでもいいけど、個人がお金を得ようとするのは浅ましいから叩こうというものにつながる。でも、ニートだって生きていかなきゃいけないんだ。だから、いずれかは事業化したい。

そういう点でも、まずは無償で公開してバグを取りつつ、一定の品質になったら販売できるとか、単語帳が100円といった低価格でも作れるオンライン出版は魅力のある事業になりそうである。

ランキング

東大生ブログランキング登録しました。ぽちしていただけると喜びます。

東大生ブログランキング

中国語の学習はまだ未開拓の市場かな

Posted by onaneetX.Q on 1月 22 2010 2 Commented

まずはコメントのお返事ですが、その前に2chなどで例の就活くたばれデモのフライヤーをずいぶん叩いているようです。突破点を見つけたからみんなで群がっている感じだけど、片手間にやったということをブログに書いたら「言い訳するな」みたいなレスもついたらしい(もう読むの止めた)。でも、それって(おそらく過去も現在も未来も)自分は何もしないくせに、安全なところ(匿名とか)で石を投げているのってどーしようもないと思います。ボランティアで公園掃除をしている人に「おい、まだゴミが残っているぞ、言い訳すんな」ってヤジを飛ばしますか?

アメリカの名門大学の入試ではボランティア経験とかも利いてくるという話を以前しました。おそらくノブレス・オブリージュの精神なのでしょうね。そういうボランティア文化が関係あるのか、オープンソースというソフトウェアのソースコードというお金になるかも知れないものを無料で公開して、緩いライセンスで使っていいですよというアイディアが広まっています。大規模なオープンソースプロジェクトはLinuxのように企業が業務としてソースコードを寄稿したり、もう単なるボランティアというレベルを逸脱しているのですが、初期のLinuxなんかはLinusが個人的に作っていたものでした。色々な思惑がオープンソースの世界にはありますが、ボランティアでやっている人も相当に多いのです。

それに対して「あれができない」「ここがおかしい」みたいな文句を匿名でしてきたらどうでしょうか。当時のLinusはヘルシンキ大学の学生でLinuxの開発が本業ではないので時間も制限されていたでしょう。そういう旨の発言をしたら「言い訳すんな」みたいなヤジを飛ばすような人が多かったらもしかしたらLinux開発は途中で終わってしまったかも知れません。まあ、オープンソースなんてのはそういう無責任なヤジがつきものなので、ノイズを捨てて有益なコメントを活かす心構えがなければやってられないのですが、日本ではOSASKとかPSP filerなどのプロジェクトがヤジによって中断してしまいました。日本はボランティア文化が希薄なせいか、結構脆いように感じます。

日本が自分ではろくに何もしないくせに文句だけ言ったり邪魔をしたりする国民性の国になってしまったら資源国でも何でもない日本はダメになっちゃいそう。就職したとしても会社の中で目立っている人の足を見えないところから引っ張るような人が多くなったらもうその会社はきっとダメです。社畜文化ではサービスを提供する側に回ったら負けなのかも。

日本流の「クソ」仕事観が崩壊する時

世界に誇る質の高いサービスを享受するだけの「お客様」にとっては最高に居心地の良い天国も、働く側に回ってしまうと一気にクソ労働地獄に突き落とされる。

コメントのレス

POSTED BY 匿名 ON 2010年1月20日
>でも就職活動早期化はよくないと思うし、就職情報会社がろくでもないことをしているとも思っています。
昔みたいに大学4年10月1日解禁ってなことになると、倒産する就職情報会社が続出だろねw

かも知れませんね。ただ、就職情報会社って何とかジャーナルみたいな本を売っているだけのところは少数派というかどうでもいい勢力です。何が問題かというと、企業に対してこう言う学生を取りなさい、こういう面接をしなさい、うちの開発しているWeb試験を採用すれば優秀な学生を効率よく採用できますよ、みたいなコンサル業務をやっているところではないかと思います。とすると、4年の10月1日に就活が解禁になったところで、就職する学生数が減るわけじゃないから、大手に関して言うとなんら問題がないような気はします。ここんところは、某R社とかの決算資料でも読んで、どこが主たる収益源か見た上じゃないと正確なことは言えませんが、たぶんそうなっているんじゃないかな。

POSTED BY 嘉門JOSHUA ON 2010年1月20日
>世間の就活生ってずいぶんアグレッシブなんですね。この程度のチープなスキルを特技に書こうというアイディアは2ch風に言うと「その発想はなかったわ」
そもそも「趣味・特技」の欄の存在理由が分かんないですよね^^;
リア充度を見るためにあるもんでしょうかね。

確かに記入に困る欄ではありますよね。趣味なんて書いていったら100個でも書けるかも知れないし、そんなの書いていいの?みたいなものを自信を持って書くか、引っ込み思案なのかで変わってきそう。

中国語の学習はまだ未開拓の市場かな

さて、本題。言うまでもなく英語は日本の、少なくとも受験をしようという人の間では大事な科目で、それゆえ非常に多くの本があります。ダメな本も多いのだろうけど、秀逸な本も結構あります。

それに対して中国語の本は英語に比べて圧倒的に足りていないと思います。ロイヤル英文法みたいな真面目に勉強したい人向けの文法書が見あたらない。あと繁体字(難しい昔の字、台湾とか香港でまだ使われている)だとかなり減ります。ロイヤル英文法は英語の文法のことならほとんどのケースできちんと答えてくれる文法書です。

ロイヤル英文法―徹底例解

著者/訳者:綿貫 陽 須貝 猛敏 宮川 幸久 高松 尚弘 マーク ピーターセン

出版社:旺文社( 2000-10 )

定価:¥ 1,890

単行本 ( 896 ページ )

ISBN-10 : 4010312785

ISBN-13 : 9784010312780



表現のための実践ロイヤル英文法

著者/訳者:綿貫 陽 マーク・ピーターセン

出版社:旺文社( 2006-05 )

定価:¥ 1,890

単行本 ( 728 ページ )

ISBN-10 : 4010312971

ISBN-13 : 9784010312971


ホモは英文法解説のほうが好きらしい。この辺はお好みに合わせて。

英文法解説

著者/訳者:Array

出版社:金子書房( 1991-06 )

定価:¥ 1,785

単行本 ( 548 ページ )

ISBN-10 : 4760820094

ISBN-13 : 9784760820092


ロイヤル英文法みたいな中国語の本をおいらは知りません。知っていたら紹介していただけると嬉しいです。中国語関連だと何となく会話とか表面的なものが多く目立ちます。文法は言語学習の時間を短くしてくれる便利なツールなので真面目にやるならこういう本が欲しいところです。おいらはいくつか見比べて

会話に役立つ中国語文法の核心95 (マルチリンガルライブラリー)

著者/訳者:Array

出版社:スリーエーネットワーク( 2009-03 )

定価:¥ 2,310

単行本 ( 185 ページ )

ISBN-10 : 4883194841

ISBN-13 : 9784883194841


を買ってみました。ロイヤルにはほど遠いけど、文法を説明してくれているので役に立ちそうです。あとロイヤル英文法安いですよね。内容、ページ数と値段を考えると気分的に10倍近くお買い得だと思います。

台湾の電子辞書

電子辞書を買いました。これはかなり改良の余地があるような気がします。まずフォントが汚いのはまともなフォントを入れれば解決する問題ですよね。他に目的の機能に到達するまでのステップが長いことも気になります。ユーザインターフェース研究の指標の1つには、ステップが短いこともあります。値段は結構高めで、それゆえたくさん辞書が入っていたりゲームがついていたり、サービスはいいのですが肝心の所がよくありません。物書堂にデータをライセンスして、iPhone向けにもっとよいアプリを出して貰った方が活きるかも知れません。

あと、台湾の電子辞書(注音符号・漢音拼音、繁体字・簡体字の両方に対応している)は日本ではほとんど売られていないため、ぼったくり価格で売られているようです。日本で買えるところを検索したら2倍弱高い感じ。輸入代行しようかなって思うくらいですが、需要は少ないから不良在庫を抱えそう。売れたとしても品質面で文句が出る可能性もあります。日本で2万円の電子辞書を買ったときの効用にはかなり遠い感じがします。

中国語ビジネス

さて、まだ中国語を学び始めて全然時間が経っていないのだけど、中国語関連はビジネスになるのではないかと思います。ロイヤル英文法みたいな文法書は高度な知識がいるので無理ですが、単語帳なら少し勉強すれば作れそうです。

単語帳を見てきたのですが、6,000語とか7,000語載っているのが売られていました。1,500語くらいのもありました。でも、使いにくいんです。なぜかって?単語がABC順に載っているだけとか「食べ物」とかのカテゴリ別に載っているんですよ。そういう単語帳って役に立ちますか?例えばAで始まる単語だけに詳しい人ってどうですか?食べ物の名前なら大抵言えるけど、あとはからきしの人って変ですよね。

このように日本語の本で中国語の学習に適した教材が欠けています。これを提供できれば一定のシェアは取れそうな気がします。もし既に良いものがあるのなら教えて下さい。

では、提供するために何をすればいいかというと、まずは生きた中国語の文章(コーパス)を集めることです。勉強する人は実際に使えることを目標としていますからね。新聞とかドラマとか雑誌とか、その辺で使われている文章を大量に集めます。

次に統計処理をして、出現頻度の高い順に並べます。言葉なんてのは大抵は重要な順に基本単語+中級以上の3,000語も知っていれば会話の90%だか95%だかをカバーできるんです。辞書じゃないんだから単語をAから順に並べても全然意味はありません。大事なのは使用頻度。

コーパスができたら統計処理をした後にいくつかに分類します。例えば「私」を表す「我」なんて山ほど出てくるに違いないけど、単語帳を買う人ってこういう単語を求めているかというと求めていません。英語で言うとI have a penについて全部解説しているような単語帳はちょっと間抜けです。penくらいなら入れてもいいかも。

こうすることで、

  1. 中国語の初歩を勉強した人なら誰でも知っている基本語
  2. 基礎レベルからもうちょっと何とかしたい中級語
  3. これを知っていれば日常生活でほぼ困らない上級語(上級って言っていいのかな)

に分類ができます。そうしたら、中級語と上級語の単語帳の作成にかかります。ここまでは手間があればできそうですね。儲かる保証がなくてよければニート連盟の人にも手伝って欲しいくらいです。

販売ルート

さて、どうやってお金に結びつけるかというと、iPhoneアプリとして販売します。いくらなら適正かなあ。無料版から始めるのがいいかな。iPhoneアプリなら世界中にローカライズして売れるので、案外多くの売り上げが得られる可能性があります。今なら中国語需要が高いのにライバル不足だからチャンスです。試しにiPhoneの中国語関連アプリを探してみればわかります。ろくなもんがない。

日本はともかく、多くの国の人にとっては漢字が最大の山なので、いっそ漢字を使わないローマ字表記(ピンインとか注音符号)だけの単語帳がいいかも知れませんね。書けない読めないでも喋れる・聞けるを目標に。中国語は実は孤立語で英語に近いので英語ができる人なら漢字を何とかすれば理解は早いのではないでしょうか。 そうすると上手く工夫すれば世界中に売れる。

ブラッシュアップするなら単語帳として工夫を凝らせばいいと思います。既存の英語の単語帳のアイディアをぱくるのでいいでしょう。単語だけを覚えると効率が悪いから例文にして、できれば複数単語を一遍に覚えられるのとか、そのまま使い回せる表現にしておくとか工夫するとよいでしょう。あとは音だなあ。これは後述するけど、言語は音と結びつけて理解しないと使えるようにはなかなかならないんです。アメリカ人のちびっこが英語でペラペラ喋るのに日本で英語を長年勉強して全然喋れない人の差はここにあります。

英語の単語帳は山ほどあるので全部は知らないけど、知っている中で一番いいのは

ワードスター エッセンシャル2300 - Wordster Essential 2300

著者/訳者:ジェームズ・M. バーダマン 岡崎 正義 川島 隆太

出版社:講談社インターナショナル( 2003-12 )

定価:¥ 1,995

単行本(ソフトカバー) ( 477 ページ )

ISBN-10 : 4770029233

ISBN-13 : 9784770029232



ワードスター アドヴァンスト1300 - Wordster advanced 1300

著者/訳者:ジェームス・M・バーダマン 岡崎 正義 川島隆太

出版社:講談社インターナショナル( 2004-09-09 )

定価:¥ 1,995

単行本(ソフトカバー) ( 293 ページ )

ISBN-10 : 4770029241

ISBN-13 : 9784770029249


です。英語には名著は多いけど中国語の本はまだまだ。だからアイディアをぱく・・拝借します。

もしうまくいったら、中国語ネイティブに発音を吹き込んで貰うとか、あるいは辞書会社と契約してまともな辞書を出すとか、そういう方向にも発展可能です。

繁体字の話を最初にしたけどデジタルベースなら簡単ですよね。だって簡単な漢字と難しい漢字は1:1対応するのだから、使いたい人に応じて切り替えるだけです。そうすれば簡体字だけでなく香港や台湾にも対応します。

誰かやりませんか?アイディアはあっても実行力がないのがおいらの問題点。

ランキング

東大生ブログランキング登録しました。ぽちしていただけると喜びます。

東大生ブログランキング