チューニング不足が招いた思わぬ問題
Q4 新開発したエンジンで、どうして変換精度が悪くなったの?
A4 大雑把に言えば、新規開発されたエンジンのチューニング不足が原因といえる。3つの修正内容それぞれについて、原因とその対策を見ていこう。
変換精度の改善
まず「変換精度の改善」が必要となった問題は、いくつかの不具合から構成されている。そのひとつが、「単語と文末のつながる確率計算に不具合があった」(佐藤氏)という点。IME 2007の変換エンジンでは、変換確定した文字列の後ろに「文末」があると認識して、「単語」+「文末」のつながりを元に変換候補を出す際の確率計算をするという。
例えば「そらをとぶ」と入力し、変換で「空を飛ぶ」と出て確定した場合、「空を飛ぶ+(文末)」といった認識をエンジンが行なっている。ところが、この文末と単語のつながりの確率計算に不具合があったため、変換結果が細切れになってしまい、ユーザーが期待した変換ができないことがあった。
症状の例としては、「じょせいでしょうか」と入力・変換した場合に、「女性で消化」という変換をしてしまう(正解は女性でしょうか)例が挙げられている。こうした誤変換は、文章を細切れに変換すると発生しやすいと佐藤氏は述べている。変換のたびに入力語+文末の組み合わせで確率計算するので、細切れに変換すればするほど、間違った計算が行なわれる可能性が高まるということだろう。
次の不具合は「文法生成データの不具合」。例えば「かんなな」と入力した場合に、「かんな」+「な」と細切れに認識してしまう。これはデータ側の問題で、変換エンジンの処理自体に問題があったわけではない。
3つめが「挿入の際に後ろの語を見る」という問題。文章を一旦入力してから、その文章の途中に追加の単語を挿入するといった作業はよくある。従来は、挿入部分を変換する際に、挿入部分の後ろに来る単語も見て変換していた。素人考えでは後ろを見た方が正確に変換できそうに思えるし、実際に従来のIMEではそれでよかった。
ところが調査の結果、新しいエンジンでは挿入部分の後ろの語を参照すると、かえって変換結果がおかしくなる場合があったという。そこで今回の修正では、後ろ側を参照しなくなっている。
学習機能の強化
これは前述の「学習方式の変更」に関わる問題だ。IME 2007ではユーザーが長期的にIMEを使い続けた場合により正確に変換できるように、学習機能の働く割合を「使用語統計>最新使用語」といった配分にしていた。
しかし使用語統計が優先されると、「直前に入力したばかりの単語が、変換候補で出てこない」といった現象が起こりやすくなり、「学習が機能していない」と思われる結果となっていた。ユーザーの利便性を考慮したものの、裏目に出てしまったわけだ。
そこで修正プログラムでは、学習機能を「使用語統計<最新使用語」という配分に変更した。最新使用語が優先されることにより、ユーザーには「学習が機能している」と感じてもらえるようになった。
学習副作用の抑制
学習副作用とは、簡単に言えば「誤った確定を学習してしまう」こと。例えば先述の「かんなな」を「かんな」+「な」と細切れ変換してしまったときに、ユーザーが間違えてそのまま確定しまうと、IME 2007は「な」をひとつの文節として学習してしまう。同様の誤変換を繰り返すと、「な」の使用語統計カウントが増えてますます出やすくなり、結果として変換結果の細切れ化を助長してしまうというわけだ。
そこで、この副作用を抑制するチューニングが施された。さらに、特殊な変換操作(例:F7キーによるカタカナ変換)については、最新使用語学習をしないといった例外処理も行なわれている。