Archive for the 'ニート脱出' Category

信頼性のある辞書の半自動生成について

Posted by onaneetX.Q on 3月 10 2010 one Commented

まずコメントのお返事からします。

POSTED BY 匿名 ON 2010年3月7日
韓国の方から名詞を頂くと、名前も企業名もハングルで何がなにやらさっぱりわからないケースがかなり多いです。
一番近い国なのに、付き合いのある海外の国の中で一番、もらった名刺の読み取りが出来ないのが韓国だったりします。
(アラビア語圏と付き合い出れば同じように大変でしょうけど)
サムソンレベルになると当然違いますが、普通程度の韓国企業に勤める方は本当に漢字は全然駄目な方が多いようです。せめてお名前くらい漢字を教えていただけませんか? と聞いてもその場で書けない方もいらしたりします。
韓国で漢字が読み書きできるというのは、日本で古文がある程度しっかり読めます、というのと同じ位の教養レベルが必要なのかもしれません。
話が飛びますが、ブログのエントリーを上から下に読み終えて、そのまま下に 「add comments」 の欄があった方が、書き込みしやすいなあ、なんて思いました。
今の仕様は上に戻って、ぽちっとしないといけないのがちょっと哀しい。
あんまり気安く書き込み出来ない方が、いらいらしながらおれがただしいおまえはあほだ、と書き込んじゃうひとの存在を低減しやすくていいのかもしれないですけど。

コメント欄へのリンクをトップページ(個別のエントリじゃない方)にも貼りました。デザインはそのうち直します。

韓国企業の方から名刺をもらったことは何度かありますが、だいたいアルファベット表記になっているようです。国内としか取引をしないところはわからないけど。ハングルは1〜3日もあれば覚えられる文字らしいけど、勉強したことのない人にはアラビア文字みたいなものですよね。トルコは近代化の時に西洋式アルファベットに置き換えたのはそういう理由です

そいえば、韓国でも最近は漢字教育を再開したという噂を聞いたことがあります。10年後くらいには漢字が書ける大人が出てくるのでしょうか。

POSTED BY ひとり ON 2010年3月9日
よく当たる占いはありますか?

よくあたる占いは科学だと思います。個人的に科学の目的は未来を予言することだと思っていていますから、合理的な占いを科学と呼ぶのでしょうね。非合理的なものは占いと呼ばれる。占星術と天文学の違い?

POSTED BY シント ON 2010年3月10日
海外ニート氏を売国奴と呼ぶのは筋違い。経営や制度を運営を失敗した経営陣や、リストラされたら人生終了の常識や、ニートや引きこもり、生活保護受給者や派遣社員を、まるで親の仇のように責めるなど、どう見ても今までの日本人が悪いのにそれを自覚せず、または自分が悪いかも? という発想すらしない普通人には恐怖と失望を覚えます。
正直今の日本人は普通ではありません。こんな奴らが普通では、普通という言葉が穢れます。今の普通人は偽普通人です。

弱いものが更に弱いものを叩く構図は何とかしたいですねー。

POSTED BY 長澤まさみ ON 2010年3月9日
ビジネスにするなら英語も混ぜたほうが売れそうですね。(中英日3ヶ国語版)

これはその通りだと思います。英語圏にも売れれば販路がかなり広がります。ただ、英語圏の場合は繁体字に拘る必要はないかな。繁体字がなぜよいかというのは日本人に漢字のベースがあり、簡体字より繁体字のほうが親近感がある人が多いからです。繁体字・簡体字の変換は自動で行えるのでたいした問題ではないと思うけど。

Longman English Chineseという辞書のiPhone版を買ったけど、比較的酷かったからライバル不在と言っていいかな。

信頼性のある辞書の半自動生成について

日本ソフトウェア科学会で「ウェブマイニングとセマンティック技術」というチュートリアルがあります。

ねらい
ネットワーク上には非常に多くの情報が整理されずに存在しています。そして、これらの分類されていない膨大な情報を有効に活用するには、情報の関係を分析し構造化することが必要となります。本チュートリアルでは、これら情報を分析・分類する要素技術の解説から社会応用までを、初めての方にも分かり易く体系立てて解説していただきます。

これ出てみようかな。お金払って見に行く価値のあるものかはわからないけど。

辞書の著作権

日本の著作権法には「著作物の定義(著作権法2条1項1号)」があります。それによると

「a.『思想又は感情』を
 b.『創作的』に
 c.『表現』したものであって、
 d.『文芸、学術、美術又は音楽の範囲に属するもの』」

が著作権法の保護の範囲なので、それに該当しないものは利用することができるようです。

さて、単語の意味は単語の意味する事実の解説になります。ある特定の辞書にしか載っていない言葉の意味があるとすれば、それは普遍的に通用する単語ではないため創作性はないと解釈できます。発音記号についても同様です。

問題は用例です。例えば手元の辞書を適当に開いたところencourageという単語が見あたりました。

Daniel encouraged Nancy in business.
ダニエルは仕事のことでナンシーを励ました

という用例が載っているのですが「Aは仕事のことでBを励ました」という短文に創作性があるとすれば、ほとんど言葉を使うことができなくなってしまいますので、これも問題はないはず。ダニエルとかナンシーまで一字一句そのまま使うのは問題があるので、手作業で編集する必要があると思いますが、基本的にWebから蒐集したものは問題なく使えます。

やや長文の例文については創造性が認められると思います。こればかりは自分で何とかするか、あるいは著作権的にOKなものをベースにする必要があります。これは「Wikipedia:パブリックドメインの資源」が利用できます。

クリエイティブコモンズライセンスのものも積極的に利用していきたいところです。このページに有用なリンクがまとめられています。

以下の検索サイトでクリエイティブ・コモンズ(Creative Commons(CC))によりライセンスされた作品を検索可能です。

コーパスも質はともかく、ある程度は集められそうな予感がします。用例に写真を付けることも可能かも知れません。できれば発音(音声)もCCで手に入れられるとよいのですけどね。

プログラムでかき集めるのは簡単ですが、人間の手間をできるだけ減らしてほぼ自動で辞書コンテンツを作ることが最大の山になります。

ランキング

東大生ブログランキング登録しました。ぽちしていただけると喜びます。

東大生ブログランキング

iPad, iBooksによる中国語の教材を作りたい

Posted by onaneetX.Q on 3月 4 2010 2 Commented

まずコメントのお返事から。

POSTED BY ひとり ON 2010年2月28日
今でも間に合います?
今後の事があまり決まっていません

日本の大学はほとんど4月からです。たまーに10月入学の大学もあるかも知れませんが、まだ受験をしていないのならチャンスは来年以降だと思います。ですから1年間を有意義に使うことをオススメします。家にいたくないのなら、バイトを見つけてアパートを借りて出て行くのもいいけど、受験勉強が必要だとしたら、忙しくなるのは本末転倒かも。

類は友を呼ぶ

周りに就職できない人がどんどん集まっています。おいらはまだマシな方で専門技能があるからバイトでもそこそこ有利な条件で働くことができるし、台湾のあまり綺麗とは言えないアパートで生活するのも苦にならないので、外こもりみたいな生活ができるぶん恵まれていると言えます。

でも、周りにいる人はそれも難しいところがあるので、できれば何か事業化して、それらのニートさんたちに仕事を分配していきたいなと思っています。

在庫を抱えないビジネスとしてのiBooks

実力を考えないで高い目標を打ち上げてしまったけど、ビジネスをやるのに在庫リスクとかを抱えたくない。そう考えたときにiPhoneアプリとかiBooksというのは在庫リスクがないこと、販売ルートをAppleが用意してくれることがありがたい。一部報道によると、日本では保守的な出版業者が多いからiBooksサービスは展開されないというけど、そうならないことを祈りたい。個人で本を書く人だっているわけで、出版社が利用しなくてもiPhoneアプリのように個人で作ったものを売れるとありがたい。

中国語の単語帳

前にも書いたのだけど、中国語の教材は英語の教材に比べて質が悪いと思う。ならば、英語の教材で評判のいいもののアイディアを拝借して中国語版を作れば評価される公算が高い。まだほとんど展開されていない分野だから、やったもの勝ちと言える。

中国語の文法書は学力的に無理だと思う。日本にも中国語の文法書はあるけど、ろくなのがないような気がする。だからチャンスなのだけど。

台湾師範大学の近くにある書店に行ったところ、さすが師範大学の付近にあるだけあって語学の本がたくさんあった。文法の本も分厚い充実していそうな本が複数種類あった。しかし全部中国語で書かれているので今の学力では読み解くことができない。

日本語で書かれた文法書を咀嚼してもたぶん目指しているような文法書にはならない。十分中国語の学力のある日本語ネイティブの人が台湾とか中国で売られている本格的な文法書をかみ砕いて、日本人の知識に適した形で表現しなくてはならない。それはまだハードルが高すぎる。

だから、まず手始めに単語帳と基礎文法に絞るべきだと思う。

Wiki立ち上げ

Taiwanese Mandarin Wikiを設置した。まだ何も書いていないけど。

辞書とWikiが相性がいいのはWikipediaの成功によって明らかだと思う。文章は文で構成され、文は句や節で成り立っている。さらに分解すれば単語になる。これらに片っ端からリンクを張れば使い勝手の良いものになるはずだ。

ここに少しずつ単語のページを作る。Wikiなので最初から張り切って書かなくてもあとで加筆すればいいから気軽である。最初は自分が学習したものを中心に書いていく。

例文が欲しい。例文は著作権的な問題があるので自分で作らなくてはいけないが、間違った例文になるのも困る。最初は簡単で間違えようのないものを書き、そのうち少し長めの文章が例文になるような形で足していきたい。

繁体字・簡体字の扱い

繁体字と簡体字は一定の置換を施せば入れ替えることができる。だから最初は繁体字で作って注音符号とピンインを付す。簡体字のページはプログラムを書いて一気に置換する。

コーパスから単語帳へ

ある程度の単語帳ができたら、それを再編集して単語帳を作りたい。Mediawikiではページ数カウントが簡単にできるので、とりあえず5,000単語くらいを目安にしたい。

単語が集まったら学習に適した形で再構成をする。いくつか見かけた単語帳ではピンインの順に並んでいるものがあった。これではbで始まる言葉はマニアックなものまで知っているが、zで始まる基本単語は何も知らない人を作りがちになると思う。また分野別でも同じだ。色に関しては白とか黒はともかく「一面真っ白な雪に覆われた」みたいな表現って初学者にとって重要だろうか?

だから出現頻度別にソートして、それらを上手く組み合わせた短い文章を構築して、それに付随した形で単語を配置する。これだけでおそらく既存の単語帳より優れた物になると思う。もし、よい単語帳が既に存在するなら教えて欲しい。

他には、中国語は漢字で構成されていて、日本人なら読めないまでも結構意味はわかるものがある。だから、初学者にとって大事なのは単語の出現頻度の他に漢字の出現頻度もある。多く使われる漢字を早めに学習することで、結果的に多くの単語を理解することにつながる。

販売の問題

さて、これを売るというのはなかなか勇気の要る作業だ。なぜなら、自分の中国語の能力はそう高くない。そんなものをお金を取っていいのか?という批判を受けそうだ。日本は特に社畜の要因でもある、サービスを過大に要求する国である。海外ニート氏も指摘しているように

世界に誇る質の高いサービスを享受するだけの「お客様」にとっては最高に居心地の良い天国も、働く側に回ってしまうと一気にクソ労働地獄に突き落とされる。

他に嫌儲の習慣もある。これらが複合すると、既存の大きな企業は金を稼いでもいいけど、個人がお金を得ようとするのは浅ましいから叩こうというものにつながる。でも、ニートだって生きていかなきゃいけないんだ。だから、いずれかは事業化したい。

そういう点でも、まずは無償で公開してバグを取りつつ、一定の品質になったら販売できるとか、単語帳が100円といった低価格でも作れるオンライン出版は魅力のある事業になりそうである。

ランキング

東大生ブログランキング登録しました。ぽちしていただけると喜びます。

東大生ブログランキング

漢字を注音符号にするWebサービス(5)

Posted by onaneetX.Q on 2月 8 2010 one Commented

コメントのお返事をします。

POSTED BY ひとり ON 2010年2月8日
詳しく導いてください パスポートも持ってません

パスポートの取得の方法はググれば出てきますが、いくら海外かぶれのおいらでも準備運動なしに国外に放り出すようなことは勧めません。もしパスポートの取得も難しいようなら、何年か我慢してお金を貯めてそれからワーホリビザでも取得して下さい。

POSTED BY 匿名 ON 2010年2月8日
ウズベキスタン
秋になると学生総動員の強制労働で全国で綿花摘みさせられるって聞いたけど、実際どうなの? 大変なの? なんて話が聞けると楽しいかもしれません。
メイド服は・・・、国民に尽くします、っていう意味では適切だったりするのかも・・・。
昔、シンガポールの女子高生が日本に来てメイドカフェに感動し、帰国して親に援助してもらって起業開店したって話を何かで見たなあ・・・。

あんまりネガティブ(?)なことは聞けないかなあ。彼女がどう考えているかによるけどね。日本の労働環境の悪さとか聞かれたら・・・まだ当事者じゃないから言えるかも知れないけど、あんまり愉快ではないかも。

公僕とか女僕って感じだといかにも尽くしそうでいいですけど、たぶん実態は日本の政治家と大差はないかと。シンガポールくらいまではアジアだと、ある人間そっくりの人形(ロボット?)を作っている人が言っていたなあ。シンガポールを越えると「何これ?人間そっくりで気持ち悪い」と否定的に言われると。

発音の練習をするべきか

今の授業は7人グループで、いま主にやっているのは実際に使える会話の例(私は〜思いますなど)で発音練習は過ぎてしまった感じです。しかし、まだ四声とか

  • ㄓ(ピンインだとzh、中国人の中「じょん」みたいな音)
  • ㄔ(ch、好吃:はおちーの「ちー」)
  • ㄕ(sh、是の「しー」)
  • ㄖ(r、日本の日「じー」みたいな音)
  • ㄜ(e、好喝:はおふーの「ふー」がピンインだとhe、でも「え」じゃない)
  • ㄩ(uとかyu、魚の「ゆー」みたいな音)

これらが苦手です。

台湾人はㄓㄔㄕㄖに特徴(訛り)があって、例えば44は「すー(4声)、しー(2声)、すー(4声)」なんだけど、台湾では「すー(4声)、すー(2声)、すー(4声)」に聞こえます。声調が4,2,4だからわかるようだけど、確かに訛っています。他にも「好吃」が「はおつー」に聞こえたりするのも台湾訛りなのかな。

学校では発音はちゃんとしている感じがします。だから、台湾で習っても多分大丈夫。でも、今でも結構大変だな(ブログ書いたりプログラム書いたりしているからだけど)と思うのに更に時間とお金を使っていいのかと悩んでいました。もうすぐ旧正月で学校の事務も閉まってしまうから早めに決めないと。

メイメイは忙しそうだから別の人に相談してみました(中国語でメールを打つ)。そうしたら

件名: 特別な発音の授業

あなたは今、台湾にいますので、これは中国語を習う機会です。だから、その授業は勉強して行ったほうがいいですよ。
今度、会うとき、あなたは日本語を話してはいけません。私も中国語を話してはいけませんよ。

と日本語で返ってきた。彼が日本語だけ、おいらが中国語だけだったら会話が成り立つはずがない。どうしましょう。。。勉強頑張らないと。

漢字を注音符号にするWebサービス

使ってみるとぼちぼちミスが見つかるので、別のところから拾ったピンインと漢字の対応表で同じ作業をして、対応するようにつきあわせてみたところ、一部抜粋

yu2 qiao3
yu3 yu2
liang4 liang3
kuang4 guan4
li4 li2
yi4 ai4
yin2 zhong4
sheng4 cheng2
yin3 ya4
gai4 gai3
nang2 nang1
- shi2

違うところが赤くなるようにした(これは違うところだけ抜き出し)ところ、5%くらい間違っているような予感がするので、ぼちぼち直していかないといけません。やっぱ最後は手作業なんだな。

ランキング

東大生ブログランキング登録しました。ぽちしていただけると喜びます。

東大生ブログランキング