漢字を注音符号にするWebサービス

広告

少し前のコメントですが

POSTED BY 天然 ON 2010年1月28日
単語帳は印象的には速読英単語の中国語版みたいな感じですかね。
速読英単語では、大学入試の英文における出現頻度の高い単語を載せる、
単語が使われている文章も載せることで単語の使われ方も伝える、という方針でした(そして売れている!)ので、
同様のことを中国語でやればたぶん上手くいくかと思います。
ただ、難しそうなのはコーパスの方で、
たとえば日本の新聞のコーパスなんかだと非常に高い(毎日新聞の1年分の記事で12万円)。
安くて量が多く、信頼性の高いコーパスをいかにして入手するかが、
個人で統計的な情報を利用した単語帳を作る上で重要なんじゃないかと思うのですが、
何かアイデアはないでしょうか?
(「信頼性」を犠牲にしてもよければwikipediaの文章を使う、という方法もあります。
wikipediaの文章なら無料で大量に手に入る(少なくとも日本語の記事に関しては
手に入れたことがあって、テキストデータだけで1Gほどのデータ量になります)
のですが、「文章の品質」や「言葉の傾向」(例えば、google IMEではネットの情報を
用いているので、くだけた言葉を優先してしまう、とか)に関しては、批判を覚悟しなくては
ならないかと思います。)
問題点ばかり並べてしまってますが、面白いアイデアだと思うので、
「挑戦してみようと思うけれどメンバーが足りない!」
というときはお声をかけてください。

これは早速お返事をしました。Wikipediaをコーパスに使うというのは慧眼だと思います。ライセンスも確かOKだったはず。日本語の場合は専門家の文章か、ゴシップ誌の転載かなどを判別できますが中国語だとできないとか問題はあるけど、取りかかりはこれでよいでしょう。そのうち単語帳を作りたい。

前にも書いた通り中国語はこれから需要が高まるのに教材がまだ英語ほどには洗練されていないので、英語の教材のアイディアを拝借して作ればよいものになる可能性を秘めています。アイディアは結構あるのに時間とか能力とかお金とか、あとは経営のセンス、営業力とかが足りないわけです。営業はネットでやれば非コミュでも結構いけるかも知れないので、今の最大の山は能力と時間。来年度中にはやりたいけど、できるかな。

中国語の文章から注音符号に変換するWebサービス

さて、中国語の文章をパソコンとか電子辞書で打とうとするとピンインか注音符号を使うことが一般的です。しかし、逆に漢字がわかっていて音がわからない、ピンインがわからない、注音符号がわからないときはどうしたらいいでしょうか?

今のところは電子辞書の手書き機能を使って文字を探していますが、これはえらく非効率です。もっといい方法はないかな。

文章からピンインのサービスはあります。ピンインがわかれば注音符号への変換もできるのだけど、ちょっと面倒臭い。できれば直接変換したい。しかし、そういうサービスはないようです。あったら教えて下さい。

というわけで、そういうのを作ったら自分の勉強にもいいし、需要はあるかなあと思っています。漢字も1,000文字くらいからはじめても使用頻度の高い順に作っていけばまあまあ実用的なものができそうです。さらに、簡体字と繁体字の変換も入れたものにしたらもう少し便利になりそう。簡体字を注音符号で入力することはまずいないのだけどね。

あと、電子辞書を使っていて気づいたのだけど、よく使う音(1つの音に対して漢字がたくさんある音)と、1つの音に対して漢字が2つくらいしかない音があります。一つもない音もあります。どういうことかというと、中国語の発音は分布にムラがあり、よく使われる音は四声を含めてもそんなにないということです。

日本でも駆け出しの声優がネットで仕事をしていることがあります。同人ゲームに声をあてたいときに、ネット上でそういう声優さんにアフレコしてもらってお金を払えば、さほど高くないコストでゲームに声を付けられるというわけです。イラストレータなんかもWeb上で受注している人がいますね。それと同じです。

同じようなものが中国語圏にもあるのなら、一度注音符号にしてしまえば、その注音符号に対応する声を吹き込んで貰うことでもう少しよいものになりそう。ライセンス的も綺麗だしね。50の発音の4+1声で250くらい吹き込んで貰えば音の繋がりはバラバラでも結構見栄え(聴き栄え)がするものになるかな。註:中国語の発音は400くらいあります。50というのは注音符号の子音+母音+特殊な母音がだいたい50だということで、これだけでは完全な発音にはなりません。b + aoを続けて言えばbaoになりますが不自然さは残るでしょう。