このページの本文へ

前へ 1 2 次へ

Web時代の言語学 大規模Webアーカイブを使った新語分析

「ググる」「ファブる」……次の流行語はコレだ!

2008年09月17日 20時05分更新

文● 鍜治伸裕/東京大学

  • この記事をはてなブックマークに追加
  • 本文印刷

Web時代の言語学

 そこで私たちはWebに着目しました。最近では数年間に渡って蓄積したWebデータアーカイブが利用可能になってきたのです。実際、私の所属している東京大学喜連川研究室は、10年間に渡って収集した超巨大なWebアーカイブ(約100億ページ)を保有しています。これを使えば、新語の調査をすることができるのではないかと考えたのです。

 しかし、問題はそう簡単ではありませんでした。なぜなら、超巨大なWebアーカイブから新語を抽出する必要があったからです。一見、「テキストデータの分解(分かち書き)ソフト」を使えば良さそうですが、新語は解析辞書に登録されていませんから、新語を自分で登録しなくてはなりません。このようなやり方だと、自分の知っている新語は抽出できますが、そうでない新語は抽出できません。幅広い新語を分析対象にすることを考えれば、これはあまり言語学者にとって好ましいことではありません。また、日々作られていく新語をキャッチアップするのも大変でしょう。

 そこで、この問題に対応するために、統計的な学習手法を使った新語獲得アルゴリズムを考案しました。具体的には「ググ」や「ファブ」などの文字列が使われる文脈をベクトル表現でモデル化し,それが動詞として使われているのか,それとも名詞として使われているのかを判別する統計モデルを作りました。

 これを使うことによって、人手を介することなく新語抽出を行なえるようになり、冒頭で紹介した「モフる」や「ハラシマる」といった、普通の人は知らないようなマニアックな新語も発見することができたのです。これにより、マイナーな新語(ハラシマる)とそうでないもの(ググる)を比較し、両者の違いを明らかにできる可能性がでてきました。これはWebがなかった時代の言語学には難しかったことです。

 さらに、Webを使うことで、これまであやふやだったことを数字で示すことができるようになりました。例えば「ググる」や「ファブる」といった言葉がいつ頃から世の中に広まったのかを明らかにすることができたのです(図参照)。

 「ググる」はともかく「ファブる」が本当に新語と言えるのかどうか疑問に思っている人もいるかと思います。しかし、この図を見るかぎり「ファブる」は今現在、広まりつつある言葉であると結論づけても良さそうです。

 いかがでしたでしょうか。Webと言語学の融合という私の研究の紹介をさせていただきました。研究はまだまだ発展途上にありますが、Webが切り開く新しい言語学の可能性を感じ取っていただけたなら幸いです。

前へ 1 2 次へ

カテゴリートップへ