IMEは中国開発ってホント？

修正プログラムで賢くなった？　Office IME 2007 6の疑問

2008年12月06日 09時00分更新

文● 小西利明／トレンド編集部

チューニング不足が招いた思わぬ問題

Q4　新開発したエンジンで、どうして変換精度が悪くなったの？

A4　大雑把に言えば、新規開発されたエンジンのチューニング不足が原因といえる。3つの修正内容それぞれについて、原因とその対策を見ていこう。

変換精度の改善

　まず「変換精度の改善」が必要となった問題は、いくつかの不具合から構成されている。そのひとつが、「単語と文末のつながる確率計算に不具合があった」（佐藤氏）という点。IME 2007の変換エンジンでは、変換確定した文字列の後ろに「文末」があると認識して、「単語」＋「文末」のつながりを元に変換候補を出す際の確率計算をするという。

　例えば「そらをとぶ」と入力し、変換で「空を飛ぶ」と出て確定した場合、「空を飛ぶ＋（文末）」といった認識をエンジンが行なっている。ところが、この文末と単語のつながりの確率計算に不具合があったため、変換結果が細切れになってしまい、ユーザーが期待した変換ができないことがあった。

　症状の例としては、「じょせいでしょうか」と入力・変換した場合に、「女性で消化」という変換をしてしまう（正解は女性でしょうか）例が挙げられている。こうした誤変換は、文章を細切れに変換すると発生しやすいと佐藤氏は述べている。変換のたびに入力語＋文末の組み合わせで確率計算するので、細切れに変換すればするほど、間違った計算が行なわれる可能性が高まるということだろう。

　次の不具合は「文法生成データの不具合」。例えば「かんなな」と入力した場合に、「かんな」＋「な」と細切れに認識してしまう。これはデータ側の問題で、変換エンジンの処理自体に問題があったわけではない。

　3つめが「挿入の際に後ろの語を見る」という問題。文章を一旦入力してから、その文章の途中に追加の単語を挿入するといった作業はよくある。従来は、挿入部分を変換する際に、挿入部分の後ろに来る単語も見て変換していた。素人考えでは後ろを見た方が正確に変換できそうに思えるし、実際に従来のIMEではそれでよかった。

　ところが調査の結果、新しいエンジンでは挿入部分の後ろの語を参照すると、かえって変換結果がおかしくなる場合があったという。そこで今回の修正では、後ろ側を参照しなくなっている。

学習機能の強化

　これは前述の「学習方式の変更」に関わる問題だ。IME 2007ではユーザーが長期的にIMEを使い続けた場合により正確に変換できるように、学習機能の働く割合を「使用語統計＞最新使用語」といった配分にしていた。

　しかし使用語統計が優先されると、「直前に入力したばかりの単語が、変換候補で出てこない」といった現象が起こりやすくなり、「学習が機能していない」と思われる結果となっていた。ユーザーの利便性を考慮したものの、裏目に出てしまったわけだ。

　そこで修正プログラムでは、学習機能を「使用語統計＜最新使用語」という配分に変更した。最新使用語が優先されることにより、ユーザーには「学習が機能している」と感じてもらえるようになった。

学習副作用の抑制

　学習副作用とは、簡単に言えば「誤った確定を学習してしまう」こと。例えば先述の「かんなな」を「かんな」＋「な」と細切れ変換してしまったときに、ユーザーが間違えてそのまま確定しまうと、IME 2007は「な」をひとつの文節として学習してしまう。同様の誤変換を繰り返すと、「な」の使用語統計カウントが増えてますます出やすくなり、結果として変換結果の細切れ化を助長してしまうというわけだ。

　そこで、この副作用を抑制するチューニングが施された。さらに、特殊な変換操作（例：F7キーによるカタカナ変換）については、最新使用語学習をしないといった例外処理も行なわれている。

前へ 1 2 3 4 次へ

ツイートする

カテゴリートップへ