このページの本文へ

IMEは中国開発ってホント?

修正プログラムで賢くなった? Office IME 2007 6の疑問

2008年12月06日 09時00分更新

文● 小西利明/トレンド編集部

  • この記事をはてなブックマークに追加
  • 本文印刷

チューニング不足が招いた思わぬ問題

Q4 新開発したエンジンで、どうして変換精度が悪くなったの?

A4 大雑把に言えば、新規開発されたエンジンのチューニング不足が原因といえる。3つの修正内容それぞれについて、原因とその対策を見ていこう。


変換精度の改善

 まず「変換精度の改善」が必要となった問題は、いくつかの不具合から構成されている。そのひとつが、「単語と文末のつながる確率計算に不具合があった」(佐藤氏)という点。IME 2007の変換エンジンでは、変換確定した文字列の後ろに「文末」があると認識して、「単語」+「文末」のつながりを元に変換候補を出す際の確率計算をするという。

 例えば「そらをとぶ」と入力し、変換で「空を飛ぶ」と出て確定した場合、「空を飛ぶ+(文末)」といった認識をエンジンが行なっている。ところが、この文末と単語のつながりの確率計算に不具合があったため、変換結果が細切れになってしまい、ユーザーが期待した変換ができないことがあった。

 症状の例としては、「じょせいでしょうか」と入力・変換した場合に、「女性で消化」という変換をしてしまう(正解は女性でしょうか)例が挙げられている。こうした誤変換は、文章を細切れに変換すると発生しやすいと佐藤氏は述べている。変換のたびに入力語+文末の組み合わせで確率計算するので、細切れに変換すればするほど、間違った計算が行なわれる可能性が高まるということだろう。

 次の不具合は「文法生成データの不具合」。例えば「かんなな」と入力した場合に、「かんな」+「な」と細切れに認識してしまう。これはデータ側の問題で、変換エンジンの処理自体に問題があったわけではない。

 3つめが「挿入の際に後ろの語を見る」という問題。文章を一旦入力してから、その文章の途中に追加の単語を挿入するといった作業はよくある。従来は、挿入部分を変換する際に、挿入部分の後ろに来る単語も見て変換していた。素人考えでは後ろを見た方が正確に変換できそうに思えるし、実際に従来のIMEではそれでよかった。

 ところが調査の結果、新しいエンジンでは挿入部分の後ろの語を参照すると、かえって変換結果がおかしくなる場合があったという。そこで今回の修正では、後ろ側を参照しなくなっている。


学習機能の強化

 これは前述の「学習方式の変更」に関わる問題だ。IME 2007ではユーザーが長期的にIMEを使い続けた場合により正確に変換できるように、学習機能の働く割合を「使用語統計>最新使用語」といった配分にしていた。

 しかし使用語統計が優先されると、「直前に入力したばかりの単語が、変換候補で出てこない」といった現象が起こりやすくなり、「学習が機能していない」と思われる結果となっていた。ユーザーの利便性を考慮したものの、裏目に出てしまったわけだ。

 そこで修正プログラムでは、学習機能を「使用語統計<最新使用語」という配分に変更した。最新使用語が優先されることにより、ユーザーには「学習が機能している」と感じてもらえるようになった。


学習副作用の抑制

 学習副作用とは、簡単に言えば「誤った確定を学習してしまう」こと。例えば先述の「かんなな」を「かんな」+「な」と細切れ変換してしまったときに、ユーザーが間違えてそのまま確定しまうと、IME 2007は「な」をひとつの文節として学習してしまう。同様の誤変換を繰り返すと、「な」の使用語統計カウントが増えてますます出やすくなり、結果として変換結果の細切れ化を助長してしまうというわけだ。

 そこで、この副作用を抑制するチューニングが施された。さらに、特殊な変換操作(例:F7キーによるカタカナ変換)については、最新使用語学習をしないといった例外処理も行なわれている。

カテゴリートップへ

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン