実体と情報のはざま

何事にも囚われず。

kaggleと日経BigDataのサイトについて

 今日は一旦プログラミングから目を離して、最近の情報の中で私のアンテナに引っかかったもの2点について書いておきたい。

①kaggleにPrizeMoney $1,200,000 のCompetitionが出たこと。

②「日経ビッグデータ」ってやつの存在を知ったこと。

 数日前に、kaggleのサイトを楽しんでいたらコンペにとんでもない数字が並んでいてドキッとした。それが①の件。他と桁が違うじゃないっすか!Overviewを読んでみると、Zillowというアメリカの有名不動産会社の住宅価格を予測する懸賞案件らしい。金額の大きさから話題性を引き出したいという狙いもあるのではないかとは思うが、データサイエンス業界にとっては嬉しいこと。どんどんやってほしい。

 kaggleではすでに突っ込んだdiscussionが行われている様子で、Zillowの担当者がKagglerたちの疑問に答えるなど活発な意見交換もあるようだ。読んでいてすごくワクワクする。私も早く参加できるレベルになりたい!英語力も含めて。。このブログでもちゃんとした翻訳で面白いやりとりのポイントを紹介したいのだけれど、英訳に確信が持てないので今はまだ無理。面白そうな議論てのは例えば、predictionに他から持ってきたデータを使っちゃっている人を指摘しているやつとかね。

 次は②の話。データサイエンティストを志す者としては常識がないと思われても仕方ないのだが、日経ビッグデータというメジャー誌の存在をつい先日まで知らなかった。たまたま勤めている会社(非IT系)のリサーチ部門が書いたレポートにその名前があったのがきっかけでサイトを見てみた。

 できれば定期購読したいところだけど、私のような平均的な会社員が個人で契約するのはちょっとハードル(嫁のご機嫌)が高すぎる。なので、今はサイトのトップページ右側にあるMostPopularの記事ランキングをチェックしている。これだけでも結構面白い。

 基本的に産業向けなので、学術的に最新の技術がどうとかは出てこない。それはそれで良かったりする。どんなに高度な技術であっても、広く社会に普及し世の中で役に立たなくては面白くないからね。私の場合、相対性理論がGPS技術で活用されていることを知ったときは一瞬テンションが上がって再学習した経験がある。

 上記2つのサイトには、データサイエンスはデータがあってなんぼの世界であることをあらためて気づかされる。あたりまえだが。データがあって初めて成立する。課題が先かデータが先かは両方よくある話で、課題を克服するためにデータをとって解析する場合とデータを分析した結果を見て課題を発見する場合の両方とも世間では散見される。私は、十分な実力が身についた暁には、与えられたデータからではなく、課題からデータを見つけ場合によっては必要なデータを取りに行く(とってもらうよう要請する)ような積極的な問題解決法としてデータサイエンスを使いたいと考えている。…思想は立派ですね。実力は序の口なのにね。。

 今日はここまで!