実体と情報のはざま

いつかデータサイエンティストになって世界を読み解く仕事がしたい!

データサイエンス

ランダムフォレストを勉強中!

ランダムフォレスト、なかなか手強い。一週間くらいかけて今日やっとアルゴリズムを理解したところ。目標では今日あたりにプログラム第一弾が完成しているはずだったのに、何回も立ち止まってしまった。。ネットで拾った英語の論文の解読にも苦労した。これ…

炭酸水でダイエット!

ここ数か月間、データサイエンスにのめりこんで運動らしい運動はしていない。週末は園児の息子と公園でサッカーなどはするが、平日は仕事でもデスクワーク中心で外出などはなし。そんな状況でも、最近取り組んでいるダイエットで成果が出始めてきたので書き…

散布図行列と主成分分析PCAをまとめ

(*2017.06.14(18:30)ちょっとプログラムを修正しました。。)最近取り組んできた上記2つの手法は今後も頻繁に使うことになると思う。データサイエンティストを目指して修行を続けるなら。ただ、勉強を続ける中でデータサイエンティストとしての方向性が見…

pandasを使わないで散布図行列をつくる

とあるデータセットを入手したとして、初めにやることは何か?まずは、そのままの値をグラフ化。次は、散布図行列を見るのではないだろうか?私の手元にある本では、散布図行列をpandasとseabornを使ってわずか数行でグラフ化している。すごく便利なのだが、…

PCA(主成分分析)を手中に収める!

機械学習を学んでいて、やたらと出てくるのがこのPCAというやつ。どの文献でもさらっと事前準備みたいな扱い。「まずはPCAで次元を削減してから・・・」なんてよく出てくる。ありきたりな手法のようですな。しかし、データサイエンス初心者の私としては、な…

kaggleと日経BigDataのサイトについて

今日は一旦プログラミングから目を離して、最近の情報の中で私のアンテナに引っかかったもの2点について書いておきたい。 ①kaggleにPrizeMoney $1,200,000 のCompetitionが出たこと。 ②「日経ビッグデータ」ってやつの存在を知ったこと。 数日前に、kaggle…

データセットの分割

データサイエンスの初めの一歩として、有名なIrisデータセットをいじり始めている。先日はデータの中身をプロットしたり散布図行列をつくってみたりした。データが俯瞰できたので、さっそく何かしらの機械学習をやってみようと思ったのだが、その前にやるこ…

葉山の釣り場で思いついたこと

昨日は中二の息子と久々の海釣りに行ってきた。平日だが息子は学校行事の振替休日で、私はそれに合わせて休暇を取った。天気は良好で風も穏やか、海はべた凪状態でやや物足りない条件ではあったが、そこそこ釣果もあり、楽しめた。最近データサイエンスを夢…

Irisデータセット事始め

データサイエンスの世界では有名なIrisデータセット(花の形状データ4種を変量とする150個の個体とその種類が入っている。)を使ってデータサイエンティストっぽいことをやってみたいと思い、少しデータをいじってみた。しかし、まだまだPythonとそのエコシス…

Kaggleにアカウント

Kaggleのアカウントを取得した。相変わらずの英語力なので読むのは遅いが、エキスパートたちのやりとりが面白くてついつい投稿を読んでしまう。。 サインインして初めにやったことは、タイタニックの件のチュートリアルの読み込みとデータセットのダウンロー…

Kaggleっていい!

そのうちKaggleのコンペに挑戦したいと思ってる。最近はちょっと寄り道っぽくSOMにはまってみたりしたけど、Pythonの扱いにも少しづつ慣れてきたし、そろそろKaggleのサイトに入り浸ってみようかな~と思っている。 だが、その前に若干問題が。。それは私の…

入力データを近似するSOM

前回は、自己組織化マップで色分けをやってみた。今回は、「マップ」の方ではなく入力ベクトルと参照ベクトル(プログラム中の行列Mでどんどん変わる)の「ベクトル空間」を可視化してみたいと思う。色分けは、入力ベクトルよりも参照ベクトルの方がずっと多い…

自己組織化マップに注力

前回は、初めて自己組織化マップ(SOM)をPythonで書いてみたが、いざやってみると自分が根本をいまいち理解できていないことがはっきりした。今も実はまだちゃんと理解できていない。ネットや本で調べてみたが様々な考え方があるようだし、根本的な部分で腑に…

自己組織化マップSOM(Self-OrganizingMap)に挑戦した!

今回は、ずっと気になっていたSOMに挑戦!アルゴリズムはコーエン博士の本を購入してなんとか分かってきていたので、さっそく勉強中のPythonでプログラミングを試してみた。ライブラリーを使えば簡単なのだろうけど、いつか自分でこの手のアルゴリズムを作り…

PythonのNumPyについて基本中の基本を学んだ。。

ある程度Pythonにも慣れてきたし、データサイエンスっぽい何かをやってみたいと思い立った。 まずは、まえからずっとやりたかったBL-SOM(バッチ方式の自己組織化マップ)をコーディングしようとSpyderに向かったが…書けない!配列の扱いが全然わからない!C#…

PythonでPyplotの散布図(scatter)を描いてみた。

今回はもっとグラフを使いこなしたいと思い、散布図に特化して色々やってみた。 決められる項目が多すぎてタイヘン! 散布図に深入りしてみたら…設定可能な項目の多さに圧倒された。。色々試してみたかったが、マーカーの形状だけでおなか一杯でした。。 今…

Pythonでニューラルネットワークを使った単回帰分析(関数近似)

前回は苦労したけどエクセルからデータを読み出すことができるようになった。 今回はこれを生かして、以前の記事で試した「ExcelVBAで関数近似」を覚えたてのPythonでやってみようと思う。最も単純なニューロン一本のニューラルネットワーク。ネットワークじ…

Pythonでエクセルから読み込み

前回は初めてPythonを使ってみて、なんとかグラフを描いてみた。 今回はエクセルからデータを読み出してグラフ化することにトライしてみる。私が好きな総務省統計局の「日本の統計」や「世界の統計」といった資料はエクセル形式であるため、読み込み方はぜひ…

python はじめました。

データサイエンスについて色々調べていて、kaggleの存在を知った。 正直、ショック。こんなに楽しそうな世界があるなんて。。 完全に取り残された気分。これは、もうやるしかない! というわけで、Rと迷ったんだけど、とりあえずはpythonでデータサイエンス…

都立中央図書館でデータサイエンス(SOM)を学習した

今日は仕事を休んで都立中央図書館へ行ってきました。世間的にはGWだし、混むかな~と思ったけど案外すいてて快適でした。 ここにはものすごくお世話になっていてほんとその存在に感謝してます。 図書館としての魅力は下記。 ・蔵書が多い。 ・本の貸出はし…

自己組織化マップ(SOM)って何?インフォグラフィックみたいで美しい!

人工知能(AI)への興味から統計解析の学び直しを経て、これらに関連するアルゴリズムである自己組織化マップ(以下、SOM)の存在に気が付いた。まだ、ちゃんと理解していないのだけれども、ライフワークとして学ぶべき対象が定まった気がする。 さっそく、「原…

統計解析を学び直し!【相関係数/回帰分析】

前回同様、ベクトルで表現してみる。 【相関係数】 ベクトルで表現すると、内積であることが視覚的によくわかる。 こうしてまとめると、 こうなる。もう完全にベクトルの内積の式。 ということは、 であることは明らか。正体は”cosθ”ですから。 線形の相関し…

統計解析を学び直し!【平均/分散/標準偏差】

最近、AIをゼロから理解したいと思い、ニューラルネットワークを勉強中。さらに、関連する統計解析も学びたいと思ってページを開いたが…全然頭に入ってこない。基礎の基礎から自分が腑に落ちる形で学びなおしたい! というわけで、まずはほんとの基礎量に関…

 エクセルVBAを使って、ニューラルネットワークで関数近似

この一週間、通勤電車の中でAIの本、特にDNNとかCNNとか呼ばれる深層学習ものを中心に読んだ。で、腑に落ちた文言がこれ。 「ニューラルネットワークは関数近似器」 多くのパラメーターを層状に重ねるのは関数を近似するためだったんだね。世界が量子力学…