世界を目指すIT少年の学習記録

世界を股にかけITを武器に暮らしていく!ことを目指す少年の備忘録。本のレビュー、勉強したこと、学んだことなどを記録していきます。

SEO対策ならこれだ!YeahそしてStatisticsな月 10月振り返り

今月をまとめると

SEOを学ぶために新しくサイトを作り始めたよ!

引き続きData analysis nanodegreeをやっているよ!

の二点です。

ウェブマーケター兼データサイエンティスト兼海賊王を目指す僕としては、一番体を成す月だったね!

以下なぜか、テンション高めの記事です。

 

SEOを学び始めているよ!

サイトはじめたんだ

まあもともと4年前くらいにもTOEFLを専門としたサイトを運営していて、

TOEFL 勉強法」とかで1位とってたりしたんだが、記事書くの飽きたっていうのと中国人のハッカーにハッキングされてサイトが真っ白になった。

っていうことがあったからやってなかったんだけど、今ウェブマーケティングを職種としてやっているしまた勉強しようかなってね。

 

作ったサイトは以前のTOEFLサイトを踏襲して英語勉強法サイト

英語勉強法 徹底解説 study-english.jp

っていうなんのひねりもないドメイン名のサイトだ!

 

僕がおすすめする本はこれだ!

 

いちばんやさしい新しいSEOの教本 人気講師が教える検索に強いサイトの作り方 (「いちばんやさしい教本」シリーズ)

いちばんやさしい新しいSEOの教本 人気講師が教える検索に強いサイトの作り方 (「いちばんやさしい教本」シリーズ)

 

 いわずとしれたアユダンテ(SEO専門コンサル会社)の本

本当にこれをはじめにやればOK

そして僕の目の前にはアユダンテ出身のSEO担当者が座っているよ!(^_-)-☆

 

 

SEO対策のための Webライティング実践講座

SEO対策のための Webライティング実践講座

 

次にこれ。SEOの基本を身に着けたら記事をどうやって書けばいいかをこれで学ぶんだ!Yeah

 

本は以上。他にもSEOじゃないけどWebマーケ(ソーシャルも含め)でいいとおもうのは

 これかな↓ 

 

絶対に読むべきリンクはこれだ!

だってGoogle先生が出している教科書だもの。みつを

  1. 検索エンジン最適化スターターガイド(PDF)
  2. ウェブマスター向けガイドライン(品質に関するガイドライン)

 あとはみんな大好き

海外SEO情報ブログ - 海外のSEO対策で極めるアクセスアップ術

Byすずきけんいちさん

これを毎日読んでいれば君はSEO担当だ!

 

 ちょっと気になるんだが↓これいいのかなぁ 内部対策大事そうだもんねぇ

これからはじめる SEO内部対策の教科書

これからはじめる SEO内部対策の教科書

 

 

 

Data analysisやってるよ!(Descriptive & Inferential statistics)

Descriptive statisticsは終わったぜ

www.udacity.com

Descriptive statistics は終わった。日本語で、記述統計かな?いわゆる中央値、最頻値、平均値とかを鬼丁寧にやってくれました。簡単すぎたが、一応すべて終わらせた

 

今はInferential statisticsをやっている

だんだんテンションが下がってきたが笑

今は

www.udacity.com

これをやっている。

t検定とかの統計的仮説検定やら、カイ二乗検定とかが学べる。

そこらへんやりたかったから非常にうれしい!

 

次はちょろちょろ

www.udacity.com

これやらなって思いつつなかなかすすまないやーつ。

今月読んだ本

今月読んだ本は以下だ!

 

小さなチーム、大きな仕事〔完全版〕: 37シグナルズ成功の法則

小さなチーム、大きな仕事〔完全版〕: 37シグナルズ成功の法則

  • 作者: ジェイソン・フリード,デイヴィッド・ハイネマイヤー・ハンソン,黒沢 健二,松永 肇一,美谷 広海,祐佳 ヤング
  • 出版社/メーカー: 早川書房
  • 発売日: 2012/01/11
  • メディア: 単行本
  • 購入: 21人 クリック: 325回
  • この商品を含むブログ (36件) を見る
 

 おススメ度:3

おもしろいっちゃ面白いけど自分に落とし込むのはむずいのと、体系的にまっとまってる気がしなくて読みづらかったね。

 

論点思考

論点思考

 

 おススメ度:4

超有名な本。

まずは何を解決するかの課題設定するのがビジネスで一番大事だもんね。って本

それがむずいんだなぁw

って感じなので読んだ。この前の仮説思考ってほうよんでるけどそっちのほうがおもしろいかも

 

 おススメ度:5

これは良書。酒がわかる。ただしウイスキーは少ないので、ウイスキー好きの僕には物足りないけど、日本酒とワインがちょっとわかるのはすごい今後の人生豊かになりそうw

 

 

 おススメ度:3

ヒントにはなる。けどコンマはまだまだ発展途上の分野だなぁと感じる

 

サラバ! 上

サラバ! 上

 

 

サラバ! 下

サラバ! 下

 

 

 おススメ度:4

名小説 上下巻 又吉も絶賛したという作品。小説はいいね。新しい世界に連れてってくれるからさ。

 

読んでいる本

 

仮説思考 BCG流 問題発見・解決の発想法

仮説思考 BCG流 問題発見・解決の発想法

 

 超良い。

 

発想する会社! ― 世界最高のデザイン・ファームIDEOに学ぶイノベーションの技法

発想する会社! ― 世界最高のデザイン・ファームIDEOに学ぶイノベーションの技法

 

 おもろいんだけどなぜか眠くなりがち

 

来月はPython頑張れるようにしよう。

 

 

状態空間モデルで時系列分析の概観を把握した 9月振り返り

どちらかというと統計のことをまとめるブログチックになってきてしまったが、本職はウェブマーケターです笑

いつかAdWordsの話とかも鬼のように暇だったら書きたいな。

SEO系は書くかもしれん。

 

状態空間モデルを使った時系列分析

前のポストでも書いたように、状態空間モデルとは単純に下記図のように

「観測データの裏にある状態が存在していて、その状態から観測データが生成される」というものです。

それに加えて、現在の状態は一つ前の状態に依存関係がある。

という仮定を置いていますが、そんなに概念としては難しくないです。

f:id:kenjioda:20161008165212p:plain

参照 

Rでベイジアン動的線形モデルを学ぶ(2):まずは状態空間のコンセプトと基本のローカルレベル・モデルから - 六本木で働くデータサイエンティストのブログ

 で、この状態θtを推定して(tはある時点の時間通常は現在)、そのθtに乱数が加わってYtが生成されるので、

θtをYtとかの観測したデータから推定&乱数部分を推定

という二つの推定があるわけですね。事前に理論的に分かっている場合も制御とかではあるみたいですが、と友人が言ってました(詳細は知りません)

 

じゃあ実際、状態空間モデルって全体の流れとしてどうやるのっていうのはこのようになっています。

Step1 状態空間モデルの「型」を決める
Step2 その「型」にいれるパラメタを推定する
Step3 Step2で推定されたパラメタを「型」に入れてカルマンフィルターを回す
Step4 カルマンフィルターの結果を使ってスムージングする

dlmの使い方 | 時系列分析 | Logics of Blue より

型というのは、どういうモデルにしたら良さそうか っていう分析者の設定するものですね。

でStep3,4のカルマンフィルターは実は一部の動的線形モデル(モデル部分が線形で、かつ乱数部分が正規分布に従うもの)にしか使えないのですが、Dlmライブラリーは動的線形なので、基本カルマンフィルターでおkですね。

という超絶ざっくりまとめ

 

ちゃんとやりたい人は理論と実装両方必要になってくると思うので、下記に理論面、実装面で大変御世話になったリンクや文献をまとめました。

Let's Check it Out!

 

参考になったリンクや文献

理論面で役に立つ文献
予測にいかす統計モデリングの基本―ベイズ統計入門から応用まで (KS理工学専門書)

予測にいかす統計モデリングの基本―ベイズ統計入門から応用まで (KS理工学専門書)

 

まずはこれと下記のコマンダーの本で、状態空間モデルとはを学ぶことができる。

コマンダーの本は線形かつ乱数部分が正規分布に従う、動的線形モデルというものに限定しているが、むしろ非線形のものってどう考えるのかは私は分からないので、ほとんどの人は動的線形だけでもいい気がする。

 

粒子フィルタの基礎と応用: フィルタ・平滑化・パラメータ推定

で、これは非線形かつ乱数が正規分布に限定されない時にも使えて、かつ高速、データが増えても対応できまっせな粒子フィルタを解説している論文。

すっっごい分かりやすい

 

 

実装面で役に立つ文献

dlmの使い方 | 時系列分析 | Logics of Blue

神リンクがこれ。基本これで学べるかもね。これと下のAn Introduction to State Space Time Series Analysis Summaryを参照すれば実装はできる。

 

 

このコマンダーの本とそれをRで実装したすべてのコードを載せてくれている神Summary(英語だけど別にコードは基本英語ですもんねw)

An Introduction to State Space Time Series Analysis Summary

 

状態空間時系列分析入門

状態空間時系列分析入門

 

これは数式的には一番簡単だし分かりやすいからこれから入るのがいいかもしれませんね。

 

 

Rによるベイジアン動的線形モデル (統計ライブラリー)

Rによるベイジアン動的線形モデル (統計ライブラリー)

 

 ぶっちゃけこれで理論も勉強できる人は、これだけでいいんですが、相当数学が得意で基本すべて独学でできる人だと思う。

僕はこれで理論を学ぶのはほぼほぼ諦めたので、あくまでコードの書き方の参照として使っています。

まだ、最後の粒子フィルタの実装方法はわかっていないんだが、そもそも非線形ガウスにする必要性がある時が少なそうだから一旦保留

 

 

今後学習していくこと

一通り時系列は学んだかなぁ感があるが、まだ他の解析方法とかわからないので下記二つどっちかやろうかなと悩んでいるなう。

一緒に気軽に勉強会したい!みたいな人いたらやりましょう。

 

1つ目:An Introduction to Statistical Learning with Applications in R

スタンフォードとかでも教科書として使われているものらしく、

無料!かつ網羅できて、Rのコードでの実装もあって、さらにそれぞれの手法のメリットだけでなくデメリットも詳細に書かれているのがすごいなと思った。これの重回帰のみをちょっと読んだのでね。

Pdf: 

http://www-bcf.usc.edu/~gareth/ISL/ISLR Sixth Printing.pdf

目次はこんな感じ!ベイズがないけどね

  1. Introduction
  2. Statistical Learning
  3. Linear Regression
  4. Classification
  5. Resampling Methods
  6. Linear Model Selection and Regularization
  7. Moving Beyond Linearity
  8. Tree-Based Methods
  9. Support Vector Machines
  10. Unsupervised Learning

 

2つ目:UdacityのData Analyst Nanodegree

こちらは結構重いけどw

UdacityのNanodegree取るときちんと証明書としてもらえて、履歴書にもかけたり、Nanodegree plusにすると就職先も保証されるというものがあります(確かアメリカのビザとかある人でないと保証はされないみたいだけど)

そんだけ、これを全部やれば世界レベルでのデータサイエンティストと言えるということですね。

www.udacity.com

シラバスは以下

1. Statistics
2. Introduction to Data Analysis (Python)
3. Data Wrangling with MongoDB or SQL

ちなみにData Wranglingとはデータ加工っていう意味ですかね

Data munging or data wrangling is loosely the process of manually converting or mapping data from one "raw" form into another format that allows for more convenient consumption of the data with the help of semi-automated tools.

4. Data Analysis with R

5. Introduction to Machine Learning

6. Data Visualization and D3.js

7. A/B Testing

 

このように理論だけ!とかじゃなくて実践的なデータサイエンティストのスキルを身につけるためのコースになっています。

 

Nanodegreeに登録すると、200ドル/ 月ですが、普通にそれぞれのコースは無料で受けることもできるので、試しにSan Jose State Universityが提供している

Statisticsを受講し始めてみました。

www.udacity.com

ふだんは出勤中と土日に主に勉強しているのですが、これならスマホで見れるから続けられるといいな。が、コーディングが必要なものについてはどうしようかなぁとは思っています。

内容はこんなん

f:id:kenjioda:20161008171221p:plain

 

そして先生のKatyさん(左)が美人なのでモチベーションが上がります笑

 

f:id:kenjioda:20161008171328p:plain

 

その他学習中のこと

 読み終わった本

文章は接続詞で決まる (光文社新書)

文章は接続詞で決まる (光文社新書)

 

日本語って難しいよねっていうことで学んだけどぜんぜん落とし込めていないからまとめなきゃ。 

ハッカーと画家 コンピュータ時代の創造者たち

ハッカーと画家 コンピュータ時代の創造者たち

 

 いやーおもろかったポールグレアム。さすが、天才ハッカーで成功した起業家で、世界で最も有名なベンチャーキャピタリストですね。

普通のことを考えていたら、普通のことしかできないんだぜ You Only Live Once!っていう話でしたw

 

自由な人生を手に入れる教科書: お金・時間・場所 あらゆる束縛がなくなる

自由な人生を手に入れる教科書: お金・時間・場所 あらゆる束縛がなくなる

 

 Kindle Unlimitedで読んだ。まあわかるよこの気持ちもね。アフィリエーターの本

 

Twitter カンバセーション・マーケティング ビジネスを成功に導く

Twitter カンバセーション・マーケティング ビジネスを成功に導く"会話"の正体

 

 Twitter社行った時に頂いた本。割と面白かったし、こういうSNSの活用事例あるんやなぁってね。SNSの活用って結構難しいんだよねとふだん実感しています。苦笑

 

 

コンビニ人間

コンビニ人間

 

 久々に小説読んだけど、なんか不思議な小説でした。二日で読み終わった笑

 

 読んでいる本

 

 最近日本酒が豊富な飲み屋に行っているのですが、これのおかげでわかります。ありがたや。

 

小さなチーム、大きな仕事〔完全版〕: 37シグナルズ成功の法則

小さなチーム、大きな仕事〔完全版〕: 37シグナルズ成功の法則

  • 作者: ジェイソン・フリード,デイヴィッド・ハイネマイヤー・ハンソン,黒沢 健二,松永 肇一,美谷 広海,祐佳 ヤング
  • 出版社/メーカー: 早川書房
  • 発売日: 2012/01/11
  • メディア: 単行本
  • 購入: 21人 クリック: 325回
  • この商品を含むブログ (36件) を見る
 

 まあまあおもろいけどこれ落とし込むのむずくね?w

 

論点思考

論点思考

 

どのように解くかよりも、何を解くかが大事なんですよね。っていうのを社会人に成ってから一番実感していることであるものの、実践できていないので、まずはフレームワーク知ろう的な。良書。 

 

ブログ書くのたいへんー だけど月一では書くと決めているから頑張ろう。

 

 

基礎からのベイズ統計学は神本だと思ったよ 8月振り返り

ちょっと並読しすぎている感、、

とりあえず、MCMC Yeahとか思っていた私は間違いだったようだ。おそらくね。

 

8月読んだ本

読んだ本リスト

4月 8冊 

5月 5冊

6月 4冊

7月 4冊

8月 4冊

平均 5冊⇒年間60冊程度見込み

 

 

 読んだ本

 

状態空間時系列分析入門

状態空間時系列分析入門

 

 おススメ度:4

時系列勉強するならまず沖本本 みたいな流れあるけど、個人的にはこっちのほうがいいんじゃないかなって思う。

状態空間モデル っていう名前だけ聞くと、なんか超むずそー って感じだけど、実際は観測するデータの裏側に実は真の状態があって、それをきちんと推測していくことが大事なんやで。っていう話なだけです。

 

毎回ですが、TJOさんのブログのこの以下の図が最もよく状態空間モデルを表していますね。(まあよくこの図で説明されますけどね)

f:id:kenjioda:20160828202159p:plain

参照 

Rでベイジアン動的線形モデルを学ぶ(2):まずは状態空間のコンセプトと基本のローカルレベル・モデルから - 六本木で働くデータサイエンティストのブログ

 数式的には全然難しくないので、まず時系列やるならこの本がいいんじゃないかなとか思ったり。

 

基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門

基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門

 

 おすすめ度:5

今まで読んだ統計系の本の中でも最も良い本のうちの一つな気がする。

理由は三つ

  1. 文系の先生が書いたので、理系本によくあるここは知ってるっしょwみたいなノリで式展開が飛ばされがちなことがなく、非常に丁寧
  2. 章末問題がちゃんとしていて、しかも答えもちゃんとある。理系本は答えないとか、答え適当とかよくあるけど、正直僕のような答えないとわかんないよぉ~ えーん みたいなアホには必要なんです。
  3. コードの解説もあってしっかり実装できる。まあ最近は理論だけで実装例がないという本は減ってきたけどね。とりあえずこの本はRstanのコードの解説なども丁寧

 

内容は

統計基礎→ベイズ推定→MCMCMCMCの実例

って感じです。そしてMCMCの各サンプリング手法がきちんと解説されていて良いです。RstanでMCMC、BugsでMCMCとりあえずやってみた→サンプリング手法についてよくわかってないまま使うの気持ち悪い!

って方は読むと良いかと。

メトロポリス・ヘイスティング法は久保本(データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学))にも書いてあったと思いますが、Rstanに実装されているハミルトニアンモンテカルロ法(厳密にはNUTS:No-U-Turn Samplerが実装されてるのかな?)が理解できます。

ハミルトニアンモンテカルロ法は物理出身者は特にわかりやすいんじゃないかな。

 

 

英文履歴書の書き方と実例集

英文履歴書の書き方と実例集

 

 おすすめ度:3

ということで、もともと日本で一緒に起業しようとしていたアメリカの友人が、スタンフォード大のPh.D課程にいて(人工知能専攻かな)

よくわからんがスタンフォード発のスタートアップにやや関わることになったので、そのためにVCに送るレジュメを書いたんご!って感じですね。

 

案外ちゃんと学んだことなかったんで、基本レジュメ書くときは以下のようなことを気をつけるんだってさ。

  1. 主語入れたりしないよーとか I managed the team,,,ではなくManaged the team,,,
  2. 過去行ったことは過去形、現在やっていることは現在形
  3. まどろっこしい書き方しない。よくある日本人の例では I think that,,, I might,,,などと書くけど、そんなじゃなくて能動態で書け

とかかな。知っていることも多かったけどさ。

 

なぜ、あなたの仕事は終わらないのか スピードは最強の武器である

なぜ、あなたの仕事は終わらないのか スピードは最強の武器である

 

おススメ度:4

社内の尊敬する先輩にいただいた。一瞬で読み切った。

仕事の8割は最初の2割の時間に終わらせる!

界王拳モードを発動させる気持ちで超最強集中モードを作り出せ!

みたいな本。w 

 

 読んでいる途中本

 Kindle Unlimitedな子たち

知っている人多いと思うけどKindle Unlimitedパイセンやばいっすね。特にマーケ系の本が充実しているとかで、登録した。

amzn.to

 おすすめ度:2~3

正直うーむな感じかも。コンマってまあ正解ないから仕方ないのかもだけど、なんというかすごい感覚論みたいになっている気もしなくもない。

このシリーズは他が良いからそのギャップかな。

 

夢をかなえるゾウ

夢をかなえるゾウ

 

 おすすめ度:5

色々な人に勧められるので、読み始めたけど面白いね。なんか内容がいわゆる啓発本Yeahみたいなノリじゃなくて、小説チックでおもろい。

 

 ちょっとまだあんま読めてない。。

 

 読んでいる本リスト

文章は接続詞で決まる (光文社新書)

文章は接続詞で決まる (光文社新書)

 

 おススメ度:4

このブログを読めばわかると思うけど、基本何言っているかわかんねぇ みたによく言われるんで、もっとわかりやすい文章話せ&書けや!ということで先輩に教わった。

まだ一ミリも自分に落としこめていないので、しっかり読んでまとめて落とし込む。

(それならもっとましな文章書けよ)

 

 おススメ度:5

衝動買い。お酒好きだけど、意外と知らないかもなぁと思って買った。面白いね。

 

ハッカーと画家 コンピュータ時代の創造者たち

ハッカーと画家 コンピュータ時代の創造者たち

 

 引き続き。発想力と洞察力は神ですね。この人はやっぱ。

 

 

Rによるベイジアン動的線形モデル (統計ライブラリー)

Rによるベイジアン動的線形モデル (統計ライブラリー)

 

 おススメ度:1~5(レベルによる)

一言でいうと苦行。読むのがつらい。がためになる本。正直理解度50%くらいで読み進めている感。

だけど最近思うのは、実務で使えるレベルと研究者のレベルは理解度に圧倒的な差があること。

実務家はある程度理論的背景、メリデメを理解して使えればよい。

対して研究者は、理論的背景をほぼ100%把握し、式の表面的な意味に限らないところまで理解し、理論の欠点を把握しそれを発展させる。必要がある。

もしかしたら、理論屋さんと工学よりの人は全然違うかもだけど。工学は実務に近いのかもね。

 

 

なぜこれを読み始めたかといえば、単純に

Rstanが時間がかかりすぎる&その割に収束しない

という問題に突き当たったから。(まあモデルが悪いんでしょうけど)

 

TJOさんが以下記事内で述べていることに、激しく同意という感じです。

そもそもいちいちモデル式立ててStanコード書いて、Stan上で毎回C++コンパイラ走らせて、収束しないand/or推定結果が妥当でないと思ったらやり直す、というのを繰り返していたらあっという間にジジイになってしまうので

tjo.hatenablog.com

 以下は理解度50%の前提で話しますので違ったら指摘してください。

そもそもMCMCやらずに、時系列の場合はカルマンフィルタというものを使うと、点推定だけど断然早いっすよ。という話と(ただし使用できる場面は限られる)

時系列みたいにどんどんデータが追加されているものは毎回毎回MCMC走らせるみたいなことになっちゃうので、逐次できる逐次モンテカルロ法というものが適しているらしいです

 

ってなわけで苦行だけどこの本を読むことはためになりそうだね

という次第です。

今月中に理解度浅くても一旦最後までは読み切りたい。そんで実装してみたい。

 

以上。

 

 

来月もがんばろ。

 

時系列分析とRstanを頑張った 7月振り返り

7月は引き続き時系列分析系を頑張ったよ って感じ&やっぱり復習とか何度も読むのって大事だね って思った。

 

7月読んだ本 統計系2冊、仕事系2冊

読んだ本リスト

4月 8冊 

5月 5冊

6月 4冊

7月 4冊

平均 4.25冊⇒年間50冊程度見込み

去年と同じペースだね。まあ妥当でしょう。

 

 

イシューからはじめよ―知的生産の「シンプルな本質」

イシューからはじめよ―知的生産の「シンプルな本質」

 

 おススメ度:5

個人的な傾向としてテクノロジー大好き!かっこいい手法好き!という単純でアホな部分が非常にあり、ソリューションドリブンとなりがちである。

だが、何かしら大きな成果を出したいとき重要なことは、どのように解いたかではなく

「どれくらい大きな課題を解決したか?」

 である。それをこの本では体系的にまとめていあり、非常にためになる。

 

リクルートで学んだリーダーになるための77の仕事術(ゴマブックス)

リクルートで学んだリーダーになるための77の仕事術(ゴマブックス)

 

おススメ度:4

リクルートという会社の中でどのようなことが行われているか、それを経営者の立場でどう考えるかなどがかかれている。結構面白い 

 

予測にいかす統計モデリングの基本―ベイズ統計入門から応用まで (KS理工学専門書)

予測にいかす統計モデリングの基本―ベイズ統計入門から応用まで (KS理工学専門書)

 

 おススメ度:4

 こちらの記事↓をやろうと思ったのだが、理論の詳細がわからなかったので、買って読んだ。ちょいちょい数式が難解なところがあって難しかったが図も多くて非常に役に立つ本だった

 

statmodeling.hatenablog.com

 

岩波データサイエンス Vol.1

岩波データサイエンス Vol.1

 

 おススメ度:5

数式の厳密さには欠けるが、MCMCを試してみたい人にはおすすめ。特にStanコードでどのようにやるかが載っているのが超良い。

 

 

Rstan備忘録

ちょいちょいつまづいたりしたので、自分のメモのためにもRstanの備忘録を

なんと素晴らしい先人達がいるものかと改めて感謝の嵐という感じなのですが、Rstanをどうやって導入するか、どうやって使うかとかをいろいろまとめてくださっている人達がいます。

github.com

こちらではStanの英語版のものを有志の方が日本語に訳してくださっています。めっちゃありがたい。

 

www.slideshare.net

これもバリ良い。MCMCで可視化するの大変だけどShinystanというライブラリ使うと、launch_shinystan(モデル名)とやるだけでめっちゃ生かした図とか出てくるで!って話。収束したかしてないかとかもすごい見やすい。

www.slideshare.net

こちらもためになるかと。ただ、上記の岩波データサイエンスVol.1のほうがはじめはよさそうだけど。

 

 

あと、現在勉強中だけど、コードをベクトル化すると高速になるとかで頑張っているけれども、よくわからない部分がちょいちょいありで、頑張っているなう。

その中でDocumentationの中で参考になった部分を以下引用

 

  • ベクトルは整数ではなくRealのみ
  • ベクトル化すると早くなる理由は三つの理由がある→正直メモリがほにゃほにゃとかは何言っているか一ミリもわからない笑
  • ベクトル表現だと列優先になるので、For文を扱うときは気をつける

 

vector, matrixは整数値を返すことはできず, 取り扱えるのはrealに限られています. (注1)
#(注1):Stanにおいて, 複雑な整数行列演算や, ブール行列演算が実行されている際にはこれは変更される場合があります. これは, 整数が行列演算に適切な入力ではないためです.
 
 
 
効率について
  • ArrayよりもMatrix, vectorの方がメモリの使用料が少ない
  • Matrixは列優先の順序でデータを格納する→matrix内のすべてのデータはメモリ内で隣接することが保証されます. これは最適化されたコードを考えると大切なことです. なぜなら現代のCPUを使った算術演算を実行することよりもデータをメモリからキャッシュに持っていくことの方がはるかに時間がかかるからです
  • いずれのデータ構造もデータが保持されている順序でインデックスを移動させると最も速くアクセスできます. メモリ上の位置もアクセス速度に関係します(以下例)

matrixは列優先であるため, 以下の順序でインデックスを移動させるのが適切です.

  matrix[M,N] a;
  //...
  for (n in 1:N)  //列が先
    for (m in 1:M)  //行が後
      // ... a[m,n]を使った計算...

他方, arrayは以下の例のように行優先の順序でインデックスを移動させるべきです(すなわち, 最後のインデックスが最も移動するのが速い).

  real a[M,N];
  // ...
  for (m in 1:M)  //行が先
    for (n in 1:N)  //列が後
      // ... a[m,n]を使った計算...
 
 

 

 

とのことです。

 

読み途中の本達

ハッカーと画家 コンピュータ時代の創造者たち

ハッカーと画家 コンピュータ時代の創造者たち

 

Ycombinatorのポールグレアムの本。この人の考え方は超面白いw

 

ファインマンさんは超天才 (岩波現代文庫)

ファインマンさんは超天才 (岩波現代文庫)

 

 

20世紀で最も偉大な物理学者の一人であるファインマンの本。

参考になったのは以下

「代数をつかって解く、というようなその答えをどのように出すかというのは大事ではない」

「複雑な本を読む時のコツは、とりあえず全部がむしゃらにでも読んでみること。途中で妙ちきりんな数式が出てきて、そこがわからなくても、その数式が二度と出てこないならそこはただの枝葉である。常に本質が何かを考えながら読んでいくことが大事なんだ」

 

つまりは、知識、分析力は手段でしかなく、解くべき本質的な問題を見極め、それに対して答えを出すこと。今まで学校では解くべき課題が与えられていたが、何を解くべきか、それは本質的かを常に自身に問うことを忘れないようにしたい。

と感じた。

 

ファスト&スロー (上)

ファスト&スロー (上)

 

 人間の認知メカニズムは

直観的なシステム1

論理的なシステム2

にわかれている。それらをいかに使い分けるか、意識するかを日々考える必要性がある

 

状態空間時系列分析入門

状態空間時系列分析入門

 

 某同期の僕としては雲の上の存在のような素粒子物理学者におススメしてもらった。

確かにわかりやすくて良い。が結構誤植が多いのが気になる。

今は10章中の8章

 

 

とりあえずこんなもんで。

じぇっ!

計量時系列分析とMCMCを勉強した(6月振り返り)

 

読んだ本達 多ジャンル(マーケ系が0!!!w)

読んだ本リスト

4月 8冊

5月 5冊

6月 4冊

平均 5.7冊⇒年間70冊程度見込み

下がってきているね笑 ちょっとデータ解析系に時間を費やしているためかと、、、笑

 

 

最近やっぱヘルプ最強じゃね説および、人づてが良いのでいわゆるマーケ系は読んでいない。かつアドテクとしらべて出てくる本はAmazonで4冊くらいしかないので、それは読み切ったため。

 

伝え方が9割

伝え方が9割

 

おすすめ度:4

 広告のカンファレンスで著者の佐々木さんがきていて、その場でぽちっと。

良い伝え方は科学なんやぞ。という話。非常にコンパクトでわかりやっしんぐ!

例えば、デートに誘うとき

悪い例:食事を食べに行こう!

良い例:びっくりするほどおいしいパスタの店見つけたんだけど、行かない?来週の土曜か、日曜。

 

みたいな。ね。ちゃんと理由とか書いてあるよ。的な。

 

 

なぜ、週4時間働くだけでお金持ちになれるのか?

なぜ、週4時間働くだけでお金持ちになれるのか?

 

おすすめ度:5

2年前くらいに、アメリカではやり始めていた本

ふーん。くらいに思ってよんでいなかったけど、仕事をしていく上で、あえて時間短縮の超極限を知っておいたほうがいいかなと思って読んでみたら、思った以上に面白かった笑

 

いかに、仕組化をし、自分が働かないようにすることを考えるか。という話。仕事においてもなかなかためになる考え方かな。と 

嫌われる勇気―――自己啓発の源流「アドラー」の教え

嫌われる勇気―――自己啓発の源流「アドラー」の教え

 

 おすすめ度:4

はやりのやーつ。

フロイトの因果的心理学、トラウマの心理学しか基本知られていない気がするけども、アドラー心理学はその真逆。まさにコペルニクス的発想の仕方。

「過去に起こったことが今の自分の行動を決定しているのではない。今の自分がどうしたいかが、自分の行動を決めているんだ!!」という考え方。

こっちのほうがいいよね笑

 

 

学研まんが人物日本史 織田信長 乱世の戦い

学研まんが人物日本史 織田信長 乱世の戦い

 

おすすめ度:3

織田だけに、織田信長を読んだ。そんだけ。

Kindleは読みづらい!!目悪くなるは!!!!

ただ、内容はおもろい。これで本能寺の変以外も何をしているか知れました。やったね! 

歴史で2点をとったことがあるわたしでも、理解できた。

 

読み途中(統計本)

経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)

経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)

 

 おすすめ度:5

 

現在50%程度を読んだ。

 

おすすめだけど、中級者向け。中級者の定義は知らない。

目次はこんなん。

1. 時系列分析の基礎概念
2. ARMA過程
3. 予測
4. VARモデル
5. 単位根過程
6. 見せかけの回帰と共和分
7. GARCHモデル
8. 状態変化を伴うモデル

 

3章まではしっかり読んで、4章を分け合って、いったん飛ばして、5章をちょっと読んだ感じ。あくまで実務とかに生かせればなのでね。

5章はいわゆるARIMAモデル(Auto Regressive Integrated Moving Average:自己回帰和分移動平均過程)

なんか概念としては差分っぽいのに、和分なんだね。つってな。

詳細はここ見ればわかるよ。ってね。

tjo.hatenablog.com

ただ、一つARIMA(p,d,q)の基本d=0か1かどっちかなんだが、どっちかを選ぶときに、AICだけじゃなくて、Dickey-Fuller検定とかで単位根検定をしたほうがいいかもということ。

なんでかはちょっと不明だが、d=1のほうが基本AICが小さくなるみたいで、なんかAICあんま信用できなくね?という風に思った。

 

なんで?差分をとると、どんどん尤度が大きくなるんですか?よくわからないっすね。そもそもAICがいいかどうかわからないっすしね。(強一致性がないとかあるし)

まあ、深追いは現在はしていません!!!

 

で。

VARが多変量Ver.で、8がいわゆる状態空間モデル(?)みたい。

おそらくだが、状態空間モデル系の時にMCMC(マルコフモンテカルロ連鎖法)などで、パラメタを推定しなきゃいけないとかで、それで以下の本を参照し始めたよ。(背景としてはこの本よんだからじゃないけどね。)

 

岩波データサイエンス Vol.1

岩波データサイエンス Vol.1

 

 とりあえず、MCMCっていろいろあるらしいんだが、

久保本ではWinBugsが使われおって、他にもRのパッケージではMCMCpackがあり、Rstanなどもホットらしい。

とりあえず、

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)

に忠実に従ってやったらかっこいいMCMCの結果が出てきたよ!

f:id:kenjioda:20160703234031p:plain

そして、ギブスサンプリングが何をしているかを理解した。

 

ここらは、きちんとやったら記事書くかね。(暇な時間とやる気があれば)

実は久保本の通りにやるとエラーが出るのでサポートページを参照するといいんご!

 

 

うん。中身ない。

けど自分は振り返れる。笑

 

 

AICそもそもどうなんだっけ?

MCMCはこれがいいよ!ここ参考になるよ!

とかあればぜひ教えてください。

 

 

じぇっ!

 

アドテクノロジーの初心者本と時系列解析の本を読んだ(5月の振り返り)

今月の総括

  • 有料集客の全責任を基本的に負って、運用することになり大変だけども一アドテク担として強制的に飛び立った
  • Rを用いた予測モデルを一つ実務にも生かし始めて実験中である
  • Advertising Week Asiaという国際カンファレンスに参加し、今後より幅広いマーケの視点を持っていくべきだと感じた

 

読んだ本リスト

4月 8冊

5月 5冊

平均 6.5冊⇒年間80冊程度見込み

ただし、少し偏っているかつ遅くなっているので軽めの本もいれてもいいかも?

 

 マーケ

SEOを強化する技術 エンジニアが内側から支えるサイト設計・構築術

SEOを強化する技術 エンジニアが内側から支えるサイト設計・構築術

 

 おススメ度:4

SEO担当をする人は読むべきかと、GoogleSEO対策の根本的な考え方(どのような処理をしていて)などや正則化に関することなど結構技術よりな本

 

アドテクノロジー プロフェッショナル養成読本 ~デジタルマーケティング時代の広告効果を最適化! (Software Design plus)

アドテクノロジー プロフェッショナル養成読本 ~デジタルマーケティング時代の広告効果を最適化! (Software Design plus)

 

おススメ度:3 

アドテクを幅広くという本。アドテクノロジーの教科書 デジタルマーケティング実践指南 を読めば基本OKという意味でおススメ度3

 

DSP/RTBオーディエンスターゲティング入門 ビッグデータ時代に実現する「枠」から「人」への広告革命 (Next Publishing)

DSP/RTBオーディエンスターゲティング入門 ビッグデータ時代に実現する「枠」から「人」への広告革命 (Next Publishing)

 

おススメ度:3

RTBの詳細な流れがわかったり、改めてアドネットワーク、アドエクスチェンジなどの変遷を俯瞰できたりとかそういうところがわかるかなぁ(?)

 

 

統計モデリング

おススメ度:5

言わずと知れたミドリ本。確かに、これは非常に読みやすく、かつ実践的。数学があまりおおくないので、数学があまり得意じゃない人も読めるかも。

ただ、より深堀りをしていきたいときは章末に載っている参考文献を読むべき。

一般化線形モデルからMCMC、階層ベイズモデリングなどを学ぶことができる。

ただし、いわゆる機械学習系は載っていない。

 

 

現場ですぐ使える時系列データ分析 ~データサイエンティストのための基礎知識~

現場ですぐ使える時系列データ分析 ~データサイエンティストのための基礎知識~

 

 おススメ度:4

時系列データは、一般的な統計モデリングと違いたくさんのデータをサンプリングすることができない。なぜなら、一時点に発生したある値をたくさんサンプリングすることは不可能だから。

そのために、基本的にある時点に発生した値は、近くの時点に発生した値に相関があるということを仮定する。それが自己回帰モデルの基本的な考え方。

その自己回帰モデルをどのように、次数や誤差項を決定するかというのをめちゃめちゃ丁寧に書かれている。

なので、まったく重くないし、Rがほぼ初学でもできるようになる。

ただし、あくまで自己回帰モデルの中の次数1のものを中心ししていたり、

扱っているモデルはAR, ARCH, GARCHのみなので、より多くを学びたい人は違う本を読むべきだろう。

 

 

というわけで今は

経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)

読み始めている。

 

振り返り

  •  マーケは当たり前だが、有料集客のリスディス、SEOアフィリエイト・アライアンスに限らずSNSや、オフライン広告、ブランディングCRMなどを組み合わせた総合体である。それを常に念頭において施策を行わなければ大きなイノベーションは起こせない
  • 日々の仕事に追われがちなので、強制的にこの時間帯は中長期への投資をするなどと考えるようにする

 

アドテクノロジーはじめました(4月の振り返り)

アドテクはじめました

 

 4月は初めてのフルタイムでの社会人生活の始まりでした。やはり社会人になって初めてのことがたくさんあって戸惑うことがたくさんありました。

そして最近はもっぱらアドテクノロジーと言うものをやっております。
当初マーケティングをやると言うことは聞かされてましたけれども、実際何をやるかは聞かされてませんでした。
で、初日に君はアドテクノロジーねと言われ、そこからリスティング、ディスプレイなどの基礎を学んでことになりました。実際今までSEOは少しやったことありましたが広告は全くやったことがなかったので、完全に初めからのスタートでした。
 
そしてこのアドテクノロジーの業界ではものすごい多くの3文字でのアルファベット省略文字が使われています。例えばCPC CTR CVRというような、一般的に知られている用語からeCPC, DSA, ROAS等わけわかんないものがたくさんあって、それが非常に戸惑いました。
 
そもそもアドテクノロジーとは、例えばGoogleで検索したときに1番上に出てくる広告のであったり、サイト上で出てくる写真のように見える広告を扱う事が主です。あの一見単純そうに見える広告たちは、実はものすごい複雑なテクノロジーが裏にあるというのをやっと勉強して知りました。
例えば1つの広告を出すのに対して超高速0.01秒と言うような世界で計算が行われ、どの広告を出すかということが裏で行われています。しかも僕は今までGoogleがそれを全部担っていると思ったんですけれども、実は多くの会社がそれに名を連ねていてそこではアドサーバーやったりDMPと呼ばれるような複雑なシステムが使われているのを知りました。
そこではいかに広告を配信していくかというターゲティングやセグメントの話であったり、予算をどのように使ってかと言う予算管理であったり、その他様々な日々の分析をする必要があります。個人的にはその業務が性にあっているので非常に楽しいなと思いながらやっています。彼は最近読んだアドテクノロジーや広告に関する本に関してのレビューを行ってこうと思います。
 

今月読んだ本

 

20歳のときに知っておきたかったこと スタンフォード大学集中講義

20歳のときに知っておきたかったこと スタンフォード大学集中講義

  • 作者: ティナ・シーリグ,Tina Seelig,高遠裕子
  • 出版社/メーカー: CCCメディアハウス
  • 発売日: 2010/03/10
  • メディア: ハードカバー
  • 購入: 475人 クリック: 17,353回
  • この商品を含むブログ (401件) を見る
 

おススメ度:3

これはどちらかと言うと自己啓発書で、スタンフォード大学で実際に行われている授業を元にした本です。アントレプレナーになるにあたってどのようなマインドセットを持つべきかであったり、よりクリエイティブなことを成し遂げるためにはどのように物事を捉えるべきか、というようなものが事例とともに述べられています。非常に実用的というわけではないですけれども読み物のとして面白かったです。

 

 

トラクション ―スタートアップが顧客をつかむ19のチャネル

トラクション ―スタートアップが顧客をつかむ19のチャネル

 

おススメ度:5

この本は個人的には、感動し、ものすごい評価が高いといえます。なんでかと言うと、基本的にマーケティングと言うと、特にIT業界にいる人にとってはリスティング広告Facebook広告が当たり前だよねと言う局所的で簡単な決定に終わってしまっことを多いです。しかしこの本で語られれている事はもっとPRであったりオフライン広告、それ以外にも違った方法が17個もあるんですよってことを述べています。
それぞれの方法のうちどれがいいかって言うのは完全にサービスによって違い、どのようにして見極めればよいかといったことも書かれています。特に予算の少ないスタートアップは1番初めに狭い範囲でしか考えずにマーケティングチャネルを間違えてしまうと大きな失敗を起こしがちですので、まず読んでみるべきだと感じました。

 

究極の鍛錬

究極の鍛錬

 

 おススメ度:3

以前も少し説明しましたが、これはいかにトッププロになるかまたは非常にレベルの高いレベルの超上級者になるかと言う事が書かれている本です。そのためには途中の過程でものすごい辛い思いをする必要があると言うことがわかってきているのと、その領域に至るまでにもいくつかの過程を踏む必要があるっていう事は書かれています。
 
 

 

おしゃべりな腸

おしゃべりな腸

 

 おススメ度:4

この本はある生物学者の教授の人に勧められた本で、腸ではどのようなことを起ってるかという腸に関する入門書です。僕自身が驚いたのは腸の調子であったり、体の調子を整えるものに大きな影響与えているのは、微生物の存在であると言うことです。
例えば有名なビフィズス菌であったりヨーグルト中に含まれている机などは善玉菌と呼ばれていましたそれ以外にも多くの菌が複雑に絡み合って腸を形作っています。これを読むとどのように食事をしていけば良いのかであったり、今日はなぜ調子が悪いんだろうといったことがわかるかもしれません。

 

ザ・アドテクノロジー データマーケティングの基礎からアトリビューションの概念まで

ザ・アドテクノロジー データマーケティングの基礎からアトリビューションの概念まで

 

 おススメ度:3

こちらはアドテクノロジーを俯瞰的に見るような本です、アドテクノロジーの教科書と比べると少し内容が薄い気がしますがRTB、DSPなど基本的なアドテクノロジーに関する説明が俯瞰的に語られています。
 

 

アドテクノロジーの教科書 デジタルマーケティング実践指南

アドテクノロジーの教科書 デジタルマーケティング実践指南

 

 おススメ度:5

アドテクノロジーの本を読むのでしたら、まずこの本が最初に読むべき本だと思います。初心者でもわかりやすい割に、もう少し知っている人に関してでもより深く知るTipsが含まれている内容になってると思います。全体を俯瞰して読むことができますし、さらに知りたかった場合に対するヒントも与えてくれています。またスペシャリストの対談などがあり、スペシャリストたちが、どのように考えてるかってことも垣間見ることができます。
 

 

 おススメ度:3~5

言わずと知れたあゆダンテの本です。今までSEOの本は読んだことありましたがリスティングの方読んだことありませんでした。僕自身は実際に運用するわけではありませんが、どのようにリスティングが覚えてるかって言うことを気軽に早く俯瞰することができます。しかしより深く知りたい場合はGoogleアドワーズのようなヘルプを読む必要があるかと思いました。
おススメ度に幅を持たせたのは、実際に運用しようと思う初心者にとっては非常に良いだろうなと思ったからです。
 

 

You Can Draw in 30 Days: The Fun, Easy Way to Learn to Draw in One Month or Less

You Can Draw in 30 Days: The Fun, Easy Way to Learn to Draw in One Month or Less

 

 おススメ度:5

めっちゃ良かった。そこそこちゃんと絵が描けるようになりました!笑

これに関してはまた、何かしらBeforeAfterを書きたいなw

 

やっていること、読んでいる途中の本など

 

この本はいわゆる検定や、その他の統計的手法を初心者からでもわかるように書かれています。ミドリ本という風にも知られている名著で、数学は特に得意でなくても理解することができます。非常に良い本だと思います。実際Rのコード例なども書かれていて、動かしながら学んでこともできるのもいいです。

今まで、謎に機械学習系ばっか(しかも超局所的な部分だけ)やっていて、しっかり統計の検定などを勉強していなかったので、良かったです。

 

【世界で2万人が受講】実践 Python データサイエンス | Udemy

またPythonのコースもとっていて、ここではnumpy, scipyなどを使って、どのようにデータ解析をするかであったり、タイタニックのデータを使ったデータ解析などの勉強しています。この講座はすごいおススメです!特にPythonでいろいろやってみたい!って人は良いのではないでしょうか。

 
ほかにもマーケ系の本を読んでいます。
 
 

振り返り

Keep
  • 週二冊ペース、年間100冊ペースを順調でできていて良い!
  • しっかりと現実的だけど、ちょっときつめで、詳細な計画を立てたこと

Problem

  • どんどん学ばなきゃいけないことも増えているので、どの分野をいつやるかを、計画表をもとにしっかりやっていかねば大変になりそう
  • ちょいかじり本がまだ存在すること(ずいぶん減ったが)

 

Try

  • アド&データ解析 の二軸はしっかり守って力を付けていくこと
  • 実務にもデータ解析を少しずつ取り込んでいくこと
 
P.S.
どうでもよいですが、この文章はほぼ音声入力で打ちました。めっちゃ楽でいいですね! 音声入力、そしてDeep Learningありがとう!