「人間」が監修するATOK、「機械」が演算するグーグル
―― ジャストシステムの「ATOK」では辞書に対して監修委員会を置くなど人手を用いた作業も行なっていますが、グーグルはそこを自動化しているわけですよね。ところで、リリース直後はネット上で「オンラインでないと使えない」といった誤った情報も流れました。辞書はローカルのみ参照しているのでしょうか。また、その鮮度がどのように保たれるのかが気になります。
及川 辞書は完全にローカルデータを参照しています。したがって、100%リアルタイムでネット上のトレンドを反映出来るわけではありません。現在提供しているデータは11月末時点のものですので(12月16日取材時点)、今後はGoogleアップデートの仕組みを使って辞書を更新していく予定です。誤変換の指摘はオンラインでレポートいただけるようになっていますが、その内容やボリュームを見ながら、辞書更新の時期・頻度を検討している段階です。
―― 辞書の精度を測るという意味では、ユーザーの変換と確定の状況をネットを通じてモニターするという仕組みにはなっているのでしょうか? 「入力した言葉そのものが送信されることはない」と公式ブログではうたわれていますが。
工藤 その通りです。どういう言葉を入力したかは一切記録を取りませんが、「使用統計データや障害レポートをGoogleに自動送信する」のオプションを選んで頂いたユーザーを対象に、サジェストの選択回数、文節の文字数、バックスペースを押した回数などを送信しています。
小松 私たちが想定していたよりも、多くのユーザーにこのオプションを選んで頂けているので、ありがたいと感じています。また、「ネットにつながっていないと使えないのでは?」というのは私にとってはある意味うれしい誤解ですね。鮮度や精度の高い言葉がサジェストされているとユーザーに感じてもらっている証左かも知れませんので(笑)。
「ただしイケメンに限る」が一発変換される利点と留意点
―― サジェストは便利である一方、誤用や砕けた表現を選んでしまうというリスクも指摘されています。
小松 サジェスト機能がアグレッシブすぎ、ネットスラングなどを表示させたくないという場合は「システム辞書からのサジェスト自動表示を有効にする」のチェックを外してください。また「シークレットモード」を使うと、ユーザ時の変換確定履歴から学習した候補を一時的にサジェスト候補から取り除き、初期状態に戻すことができます。
工藤 このモードではユーザーの変換確定履歴も学習されなくなりますので、「これから機密性の高い文書を書く」といった場合にも有効ではないかと思います。人前で入力の必要があり、候補にネットスラングなどを出したくないという場合は「システム辞書からのサジェスト自動表示を有効にする」のチェックを外してください。
及川 これらのモードの切り替えはやや分かりにくいという意見がすでに寄せられていますので、UIの改良を加えていくつもりです。
―― なるほど。ただ別の記事でも書いたのですが(関連記事)、かつてジャストシステムのコマーシャルで話題になった「煎れ立てのお茶」は、残念ながら「入れた手のお茶」と変換されてしまいました。
小松 Google日本語入力も形態素解析に基づいた連文節変換を行なっているのですが、これは精度の問題というよりも、ウェブ上のデータにおいて、「入れた手のお茶」という利用頻度が多かったためにそうなってしまっているんですね(笑)。
工藤 ある意味、集合知に基づいた変換エンジンの特徴がよく現れている事例とも言えます。
及川 ユーザーの方がブログでGoogle日本語入力をレビュー頂いている記事を拝読することも多いのですが、そこで「官公庁のようなオフィシャルな現場でも果たして使えるかどうか」を他のIMEと比較されている記事が興味深かったです。サジェストの切り替えを使えば、機能としては五分五分という取り上げ方でした。