データサイエンスにはオープンソースが不可欠

2015年01月29日 07時00分更新

文● Matt Asay via ReadWrite

分析専門家になるだけでは不十分だ。

このようなジレンマがある。あなたの会社には大量のデータがあるが、それを処理する手がかりはほとんどない。だからデータサイエンティストを雇わねばならないと考えるのだが、そのような人材は不足している。どのみち、有能な人材というのは不足するものだが。

あなたは何をするべきか？

そのことを理解しつつある企業がますます増えており、人材育成が必要となっている。しかし、誰もが上手くやれるというわけではない。1つの事実として、最高のデータサイエンティストはオープンソースを使いこなす傾向にあるのは明らかだと言える。

ビッグデータの手がかりを手に入れる

1年以上前、私はガートナーのビッグデータについての調査を分析した。ほとんど全ての企業がビッグデータ関連プロジェクトの稼働を主張しているのだが、現実にはかなり見通しが暗いことが分析から分かった。

データを掘り下げると、誰もがビッグデータの覇者になりたいと願ってはいるが、実際には「ビッグデータから価値を得る方法を見つけ出そうとしている」新参者にすぎないと言える。「（ビッグデータに対する）戦略をはっきりさせ」、そうするために「スキルや必要とされている能力を持つ人」を雇おうと悪戦苦闘しているわけだ。

実際上手くいくのだろうか？

ビッグデータの流れに乗ろうと、企業は必死に、ときとして無益に、ビッグデータを解き明かす手がかりとなる人材を雇い入れようとする。したがって、ビッグデータを扱うスキルはLinkedInの2014年最も人気のある職業スキルでトップにランクインしているのだ。しかし、需要が高くて見つからないスキルのトップでもある（現在少数のデータサイエンティストが毎日100通以上の人材スカウトメールを受け取るのはこういうわけだ）。

関連記事：LinkedInがジョブ・スキル・オブ・ザ・イヤーのトップ25を発表

社内でデータサイエンティストを探す

このような理由で、データサイエンティストを養成する方法を探ろうとしている企業が増えているのだ。好況な産業において、データサイエンティストの養成が盛んなのも同様の理由である。

中にはデータがより豊富となる将来には、訓練を受けた学生が増えることを期待する企業もあるかもしれない。また、CodecademyやCoursera、あるいはアイリーン・マクナルティが示したようなその他の選択肢によって社員に訓練を受けさせる企業もあるだろう。

関連記事：2015年、オープンソースはデータ無秩序化にどう備えるか

このような訓練を受けた（未来のであれ、現在のであれ）社員は、社内人材の活用という面でも有益だ。もしもデータサイエンティストが不足していたとしても、ガートナーのスヴェトラーナ・サイキュラーが言うように、社内に目を向けるのは意味のあることだ。

企業は社内を見るべきです。得体の知れないデータサイエンティストよりも、自社のデータをよく知っている人々が既に組織にいるのですから…社員は既にモデルを作り、調査し、分析する能力や経験を身につけています。Hadoopを学ぶのは自社のビジネスを学ぶことよりも簡単です。

彼女は正しいが、誰もが実行できるわけではない。

データをオープンソース化する

私は以前、なぜデータサイエンティストがそれほど高給を受け取るのかについて書いた。ミッチェル・サンダースが推測しているように、データサイエンスの難易度が高いのは、多くの専門知識、統計的および数学的能力、プログラミングスキルが必要になるからだ。

関連記事：データサイエンティストが高給取りな理由

それら全てのスキルを一人の人間に求めるのは難しいので、データサイエンティストは高給取りになるというわけだ。需要と供給の問題である。

とくに最後の部分、プログラミングスキルを持ち合わせるのは困難なことである。しかもデータサイエンティストがある種のプログラミング、すなわちオープンソースの開発に精通していなければならないという現実がある。それは暗黙の了解とも言えるだろう。

ガートナーのアナリスト、アレクサンダー・リンデンはこのように述べている。

革新的なデータサイエンティストの多くは実際、高度な分析においてオープンソースのコンポーネント（特にPythonやR）を好んでいます。最も先進的なクライアントからもこのようなことをよく伺うのですが…トップの小売企業で10数人のデータサイエンティストを率いる、ある部長がこんな理由を教えてくれました。「ある業者に依頼すれば、毎年のメンテナンスだけで約500万ドルの支出になります。その金で何人の有能なデータサイエンティストを雇えるか考えてみてください。…だから私は、RとPythonを組み合わせて使うことができる彼らを雇ったのです」

今日のビッグデータ・テクノロジーに不可欠なもののほとんどはオープンソースで、PythonやR、あるいはHadoop、Spark、MongoDB、HBase、Cassandraなどが挙げられる。誰もがわざわざSparkを開発する必要はない。しかし、オープンソースの動向を把握している人であれば、SASやMicrosoftといった企業製品の利用方法を知っているだけの人よりも、オープンソーステクノロジーの扱いにはるかに長けているはずだ。

要するに、最高のデータサイエンティストというのは、データに関する課題によく考えて答えることができるだけでは不十分である。よりよい課題を見つけ出すためにデータ分析ツールをうまく扱うことも求められるのだ。自ら行うという行為は、オープンソースの本質でもある。データサイエンスの研修生や新人がオープンソースに共感するならば、彼らはより強力な人材となるだろう。

トップ画像提供：Shutterstock

Matt Asay
[原文]

※本記事はReadWrite Japanからの転載です。転載元はこちら

■ReadWrite Japan関連記事