11月19日、NTTデータは9月に契約された米Twitterとの「データ再販(Data Resellers)」に関する契約に基づく、Twitterサービスを開始することを発表した。
Firehose契約で全件データのリアルタイム取得が可能に
NTTデータは9月22日、米Twitterと「データ再販(Data Resellers)」に関する契約を締結。日本語のツイートデータおよび日本国内で書き込まれたすべてのツイートデータを提供できる権利を取得した。Twitterでのデータアクセスは、時間あたりでのアクセス制限があるため、キーワードで検索してもすべての情報が取得できないことがある。また過去にさかのぼって情報を取得できる期間も短く制限されているため、過去データとの比較ができず、取得できる情報に制限があった。
今回の契約により、米Twitterが提供するFirehose APIを経由したデータ取得が実現。従来の公開APIの限界を超えた全件データのリアルタイム取得が可能になり、サービスとしてサービスプロバイダーやユーザー企業に提供できるようになった。
あわせてTwitterデータを活用するためのプラットフォームも整備。日本語処理基盤としてNTTデータの「なずき」を用いるほか、検索基盤としてはプリファードインフラストラクチャーの「Sedue(セデュー)」、情報分析基盤としてNTTの研究所であるソフトウェアイノベーションセンタとプリファードインフラストラクチャーが共同で開発した「Jubatus」などを採用。これらツールの採用により、高精度な検索や情報分析が提供可能となるという。
ストリーム系やサーチ系のTwitter連携サービスをスタート
今回発表された「Twitter連携サービス(仮称)」は、Firehose契約やプラットフォームの整備を受けたもので、2012年12月上旬から逐一リリースされる。現状はリアルタイム性を重視したストリーム系API、アドホックな検索処理を主体としたサーチ系、その他付加サービスに分類されており、12月14日からストリーム系のサービスをスタートする。
フィルタリングの条件は、キーワード、ハッシュタグ、アカウントのほか、ローケーションなども追加される予定。オプションとなる付加情報として、指定したユーザの年齢/性別/好・不評などの機械学習での判別結果や、指定したユーザのフォロー数、フォロワー数、プロフィール情報なども追加可能。ストリーミング系APIとRESTリクエスト系APIの2種類で提供される。
料金は、全データを10%をサンプリング提供する「サンプルホース」が初期設定料30万円、月額30万円/月、設定した条件に合致するデータをリアルタイム配信する「フィルタホース」が初期設定料30万円、月額30万円/月(取得件数500万件、100条件設定が上限)。サーチ系サービスは2013年2月中旬、その他はそれ以降の提供になるという。