このページの本文へ

悟空、秘技「分かち書き」を習う (1/3)

2009年04月22日 08時00分更新

文●清田陽司/東京大学 情報基盤センター 図書館電子化研究部門 助教

  • この記事をはてなブックマークに追加
本文印刷

  前回(関連記事)は、文字N-gram方式の欠点がもたらす問題、名付けて「京都・東京都問題」にぶち当たりました。なぜこんな問題が起きてしまうのでしょうか?

 「キーワードを切り出すのに、人間の都合をまったく考えずに、パソコンの都合だけを考えていたからだよ。だからさっき『不安だなぁ』って言ったのに。言わんこっちゃない」――まさにおっしゃる通りです。人間が使うものである以上、検索エンジンはパソコンの都合だけではなく、人間の都合も合わせて考えて作る必要があります。

 今回は、「人間の都合」の中でもとりわけやっかいな「ことばの問題」を扱います。


ことばには「意味をもつ最小単位」が存在する ~単語のお話~

 「ことば」とはいったい何でしょうか。「はぁ?」――私たちがふだん何気なく話しているのはことばです。日記に書くのもことばです。本書からあなたが読んでいるのもことばです。世界中のWebページに書かれているのもことばですし、Googleに1秒間に寄せられる何万という検索キーワードもことばです。あなたなら、ことばをいったいどうやって定義しますか?

 禅問答のような疑問にひとつの明解な回答を与えた天才がいました。スイスの言語学者、フェルディナン・ド・ソシュール(1857~1913)です。ソシュールは、ことばを「意味表現と恣意的に結びつけられた記号表現」であると定義しました。下の図を見てください。


 「京都」という「記号表現」が、日本列島のほぼ中央部、琵琶湖のちょっと西側にある場所を矢印で指しています。この「矢印で指されたあたり」が「意味表現」です。「なんかややこしい言い方だけど、要するに『京都』という文字列が『近畿地方の一部』を指差しているってことを言いたいんでしょう?」――その通りです。それでは「恣意的」とはどういう意味でしょうか?

 第1回(関連記事)で説明した「文書の正体」の話を思い出してみてください。コンピューターの中に保存されている文書の正体は、1(オン)と0(オフ)の組み合わせで表される数字の列(バイト列)でした。たとえば十六進数「47、4F、4F、47、4C、45」という数字列です。何の意味もなさそうなこの数字列を、人間が文書として読めるのは、文字コードという「共通の約束事」があるからでしたね。「47、4F、4F、47、4C、45」という数字列にASCIIという文字コードを当てはめてみると、「GOOGLE」という単語が読み取れます。


 では、「47」という数字が「G」に結びつけられている根拠はなんでしょう?


 (次ページ、「意味をもつ最小単位=単語」に続く)

前へ 1 2 3 次へ

この連載の記事

一覧へ

この記事の編集者は以下の記事をオススメしています