中国の大学院生が全宋詞をコード化した自動作詞機を開発
中国で統計学を学ぶ大学院生ブロガー「yixuan」さん(ハンドルネーム)は最近、自信のブログに「宋代(960-1279年)に詠まれた詞の集大成『全宋詞』にはどんなイメージが一番よく使われているのかとふと思った。それを頻度分析できないかなと……。もちろん、文章から掘り起こすには言葉を分けなければならないが、そんな時間はない。だから可能な文字の組み合わせを列挙できれば、全体の使用頻度が統計できると考え、独自のコンピュータープログラミングで『全宋詞』の常用語を頻度順に並べてみた」と書き込み、話題になっている。湖北省武漢市の夕刊紙「武漢晩報」が報じた。
「宋詞」の言葉はいずれも短いものが多数で、最もよく見られる言葉は通常、2、3字の組み合わせ。可能な文字の組み合わせも少ない。例えば、「猶解嫁東風」(なお解る 春風に嫁ぐを)という一句は、可能な2字の組み合わせが「猶解」「解嫁」「嫁東」「東風」。一方、3字の組み合わせは「猶解嫁」「解嫁東」「嫁東風」。このように1句の字数が多ければ多いほど、可能な組み合わせは少なくなる。
Yixuanさんは、「全宋詞」の中で頻繁に使われている言葉99個をまとめることに成功。頻度の多い言葉トップ10は上から順に、「東風」(1382回)、「何処」(1230回)、「人間」(1202回)、「風流」(857回) 、「帰去」(812回)、「春風」(802回)、「西風」(779次)、「帰来」(771回)、「江南」(765回)だった。
Yixuanさんの同ブログは投稿されるとすぐに、別のサイトに転送され、ネットユーザーらの間で大人気に。さまざまなコメントが次々に寄せられている。(編集KN)
「人民網日本語版」2012年12月3日
ドイツ人写真家 東京の通勤地獄を撮影
ベッカムが米クラブを退団 次の移籍先は中国か
美人教師がメイド服で授業、ネット上で物議かもす 中国
赤ちゃんを連れて十八大に参加する四川代表
北京在住20年の英国人「中国生活に100%満足」
横須賀防衛大が開校祭 伝統の棒倒しも
日本人万里の長城遭難 救助時の写真が公開
日本の「走って逃げる大根」がネットで話題に
加藤嘉一氏、「東大合格はウソ」と謝罪