自分で入力した単語登録は他の人にも役立つはず
――開発の経緯はどういうものでしょう。大学での研究と関係があるのですか。
日本語入力の辞書を共有するというアイデアは、当時ハマっていたゲーム(東方Project)のキャラクター名などを変換することで思いつきました。
そのような単語を自分で辞書に登録をすることが多く、それならばみんなで共有できたら便利ではないかと考えていました。必要に迫られて思いつきましたが、色々な人に役立つかもしれないとも思いました。
実際に開発を始めたきっかけは、修士1年のときに情報処理推進機構(IPA)の未踏ソフトウェア創造事業に採択されたことです。そのことを研究室の教授に話すと、修士論文のテーマにするのを快諾してくださったため、修士課程の2年間はSocial IMEの開発と研究に専念しました。論文では成果を客観的に示す必要があるため、修論の研究は辞書の共有ではなく、予測変換のエンジンの部分を中心としています。
Google提供の大規模な日本語データを変換に活用
――Social IMEのサイトでは「膨大なWebページの文章から単語の使用頻度などの統計量を抽出する」とありますが、どのようなデータを利用されたのですか?
利用したデータは「Web日本語Nグラム」というもので、Googleから学術目的で配布されています。
このデータには統計処理される前の元データが含まれていないので、どのようなWebサイトのテキストがどう関わっているのかはわかりませんが、統計データで100GBあり、文章量が200億文なので、元データは1TB程度であると推測しています。今後はサイト別のデータや最新のデータを使うためにも、自前でのクロールやWikipediaのデータに移行していきたいと考えています。
――変換結果のログがサーバ上に残るとのことですが、これも利用されているのですか?
確かに変換のログを取っているのですが、現在はまだ有効に活用できていません。今後の方針として「自分自身の変換履歴」「自分と変換の傾向が似た人の変換履歴」「すべての人の変換履歴の平均」あたりに分けて、前者をより強く変換候補の優先順位に反映させる仕組みを作っていくつもりです。
――多くのユーザーが次々に単語を追加していくと、低利用頻度の単語が増えすぎるような気もしますが、対処はされていますか?
現在はまだユーザー数がWikipediaほど多くないということもあって、利用頻度の低い単語の登録が大きな問題にはなっていません。ただ、今は削除の仕組みがないので、メールアドレスなどの個人情報は手動で削除しています。
今後はやはりWikipediaのように共同で編集できる環境を用意することと、自分だけが使う単語は分けて登録できるようにすべきでしょうね。また、単語のカテゴリーやコミュニティーごとに辞書を分けてもおもしろいかもしれません。