seri::diary

日常

技術書を読む意味について考えること

先日書いた記事が妙にバズってしまった。

別段新しいことをやったつもりはなく、NNは初めて勉強したけど専門外の知らないことを突然勉強するのは今に始まったことじゃないし、みんな普通にやってるもんだと思ってた。

それでもバズってしまったのは、あの書籍が発売直後からAmazonでずっと在庫がなくなるなどして相当の注目を集めていて、 Deep Learning というワードがバズワード的に流行っていたから、という部分が大きいだろう。そうでなければ、あんな下手な書評がこんなにバズらない。

自分は無名なエンジニアであり、「とりあえずあの人が書いているんだから流行っているのだろう」と認識されるようなインフルエンサーでもない。ついでに言えばDeep Learning自体はもっと前、それこそ数年前から聞くようになった単語であり、それを今更勉強しているのは本当に今更感がある。本当は去年Tensor Flowがリリースされてちょっといじってみた時に深く勉強すべきだったと思っている。出遅れてしまったなぁという反省がある。今からキャッチアップして、TensorFlowやChainerを使って業務に活かすにはかなり時間がかかるだろう。ただ、それでも今のところはいくつかNNで解決するのに適していそうな問題がいくつか手元にあるため、今後も継続して勉強していきたい所である。

で、話はちょっと変わるのだが、人はどうして技術書を読むのだろうか。自分は技術書をそこまで読む方ではないのだが、基本的にNNのように知らない知識を効率よく勉強するためである。

逆にES界隈など、変化が激しい(今年は落ち着きつつあるようだが)分野については、ネット上の情報と書籍の情報での鮮度に差が激しいのでネット上で鮮度の高い情報を調べる事が多い。仕事においては後者に該当する分野の技術を使ってる事が多いので、ネットで公式リソースに直接当たるケースが圧倒的に多い。

特にruby界隈は、言語自体もgemもコミュニティ内で議論されている内容まで追わないと状況が分からないことが結構ある。前に、ruby2.1.x(パッチバージョンまでは覚えてない)でバグを踏んで、その情報はbugs.ruby-lang.orgのissueにしかなかったことがある(どれかは忘れたが)。単にググって見つかる情報だけではもう足りなくなってきている。それぐらい情報の更新頻度が高い。

ではなぜ技術書も読むのかというと、ある程度枯れて体系化された知識は技術書の方がよくまとまっている事が多いからである。リアルタイムに日々更新されるコミュニティの議論やmasterブランチのcommit logと比べると、いわば綺麗に編纂され直された歴史書とでも言うのだろうか。そういう感覚が自分にはある。歴史書には瑣末なことが書かれないように、本質的な内容だけがきれいにまとめられる余地がある。自分は技術書に対してそういうものを期待しているし、そういうものが書かれている技術書を中心的に読む傾向がある。

今年読んだもので言えば、TCP/IP, HTTP1.x, HTTP2.0の歴史と昨今のN/W界隈で話題になってることまで広く説明されている「ハイパフォーマンスブラウザネットワーキング」がまさに「歴史書」といった感じの本。@kazuhoさんのhttp2に関するスライドを読んでいてTCP/IP輻輳制御の話がよく出てくるのだが、ネットワーク全然知らないので良くわからんということで手に取ってみた。非常に広く・深くといった感じで昨今話題になっていることを理解するのに最適な一冊だった。こういう、過去の経緯から最新の事情までを広く、かつ分野も広く知りたいような時には技術書というフォーマットが強いと特に感じた一冊でもある。

ハイパフォーマンス ブラウザネットワーキング ―ネットワークアプリケーションのためのパフォーマンス最適化

ハイパフォーマンス ブラウザネットワーキング ―ネットワークアプリケーションのためのパフォーマンス最適化

あと技術書というか学術書だが、統計や機械学習といったアカデミックな分野での情報発信が根強い分野は学術書にしかないネタがまだまだ多いと感じているので、この分野はまだ書籍に優位性がある。

学術書、といっても今年は統計、機械学習関係と自然言語系の本しか買ってないのだが、一冊の値段が結構お高いので買うのに気合が必要だったりするのだが、大学に行って勉強するのに比べれば低コスト勉強できるのではないかと思う。

が、逆にアカデミックな分野は専門の人とディスカッションしたり質問したりしながら勉強しないと流石に厳しいなぁと感じる分野でもある。「データ解析のための統計モデリング入門」は初学者の自分でも分かりやすい部類の統計の本だと思うのだが、「こういう場合はどうだろう?」「ここはどういう意味だろう?」というクエスチョンマークを頭に沢山浮かべながらも調べる術がないので気合でゴリ押して読む感じになってしまうので、やはり大学の教科書的な使われ方を想定してるんだろうなという気はした。実際作者の久保拓哉弥先生は北大の准教授(出版当時で今は不明)なので、いつか直接この本に関する講義を受けてみたいなぁと思った(まぁ自分が関東にいる限り無理だろうけど…)

何が言いたいかというと、そろそろもう独学での勉強が限界に来ている。

こんな私でもニューラルネットワークをスクラッチで実装できました(30歳 男性)

この記事はトレタ Advent Calendar 2016の22日目です。
21日目はswdhActiveRecordオブジェクトを関連ごとシリアライズしてデシリアライズするでした。

スナップショット的にその時点のモデルを関連モデル含めて保存したい、っていう要望はBtoBやってると結構遭遇しますね。テーブルをちゃんと正規化すればするほど難しくなるやつなのでgem化されてるとありがたいです。

f:id:serihiro:20161221233653j:plain

さて、この記事ではゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装を読んでpythonに入門するところから初めてニューラルネットワークを実際に実装して見た所感を記述します。平たく言えば読書感想文です。


書籍「ゼロから作るDeep LearningPythonで学ぶディープラーニングの理論と実装」の概要

本の内容としては

という流れ。

なお、本文中に出てくるサンプルコードはすべてgithub公開されているので、写経するのがだるいという人でも安心だ。

読んで実装してみた所感

前提条件として、自分は機械学習は多少かじった程度の知識しかなく、ニューラルネットワークについてはパーセプトロンとの違いとバックプロパゲーションのぼんやりとした概念、ぐらいしか知らないレベルでこの本を手に取ってみた。あともちろんpythonも書いたことがなかった。

TensorFlowやChainerのMNISTサンプルを動かしてみたりもしたのだが、フレームワークを使うといまいち抽象度が高くて具体的に何をやってるかわからないと感じていた。(余談だが結構そういう声をよくネットで見かける)

そういう状態で読んで一通り実装してみたのだが、今までふわっとしていた「ニューラルネットワークとはこういうものか」というイメージがかなり明確になった。それが何によるものかということを以下述べていきたい。

なぜこの本が良いと思ったのか

この本の最大の特徴は、機械学習系の本だと省略されがちな数学の前提知識について1つ1つ丁寧に説明されている点と、それらが全て動く「コード」を持って説明されている点にあると感じた。

文字通り「ゼロから作る」ための本である。pythonを手元で動かせる環境さえあれば数学の知識がなくても問題ない、という機械学習系の入門書にしては非常にめずらしい位置づけの本である。

どのくらい「ゼロ」でも大丈夫か?体を張って試してみた

結論から言えば、高校数学なんて忘却の彼方という人でも全然問題無いと言える。

例えば、ニューラルネットワークでは結果を求めるまでに途中で行われる計算の流れを行列を使うとスッキリ書けるのだが、いきなり行列の積だけ書いて放置するようなことはしない。 まずは行列の積の計算の仕方(行列の掛け算ではどの要素とどの要素を乗じるのかという所から)から説明してくれる。NumPy特有の話もあるが、基本的には遠い昔高校時代に習ったような説明を受けることができる。

また、勾配降下法の説明をしている章では、微分の定義から始まり数値微分の計算方法を説明している。至れり尽くせりである。

しかも、それらは数式だけでなく、すべてpythonの実装がセットになっている。例えば数値微分を行う関数もサンプルコード上で下記のように実装されている。 *1

def numerical_diff(f, x):
    h = 1e-4 # 0.0001
    return (f(x+h) - f(x-h)) / (2*h)

そのため、説明がよく理解できずとも、pythonの実装を読んで、写経して手元で動かしていじっているうちに計算手順のイメージを掴むことができる。

数値微分の実装は、引数をあれこれ変えて近似された値を計算で求められると、解析微分の公式だけを丸暗記していただけの微分がまた違うものに見えてきて非常に面白い。

コードを書いて動かして学ぶというアプローチについて

こういうアプローチは、数式よりもコードに馴染みがあるプログラマならではの方法かも知れないが、少なくとも自分はもともとコードを書いて動かした方が理解しやすい派なのでこの本のアプローチはかなりマッチしていた。

数学が得意な人にとっては、わざわざシンプルに表現された数式をプログラムに変換して動かして理解するという面倒なことをよくやるもんだという感想を抱くかもしれない。しかし、実際に自分でコードを書いて動かした結果を確認する学習方法は、プログラマにとって一番理解し易いアプローチではないかと思う。*2

一方で、説明がかなり細かいので、既知の知識と重複するところが多い人には本書は少々冗長に感じるかも知れない。 しかし、大学時代に数学を勉強していない筆者のような人間にとってはこういう基礎知識こそがありがたい。

まとめ

  • 「プログラミングは普通にできるけど機械学習とかニューラルネットワークってなんか難しそうだな~」と思ってる人にこそ読んでほしい一冊。
  • まだちゃんと理解できていない部分もあるので年末年始に改めて読み直したい。
  • トレタ Advent Calendar 201623日目は私とよく昼食を一緒に食べに行くサーバーサイドエンジニアの出番です。

*1:https://github.com/oreilly-japan/deep-learning-from-scratch/blob/471ff64c25d27eaad58d8b5a9e787249db974d44/ch04/gradient_1d.py#L6-L8

*2:余談だが自分も統計モデルについての本を読んでいた時はポアソン分布の定義にしたがって確率を計算するクラスを実装してみたりしていた。 bitbucket.org

自分はストレス耐性が高い方ではなく、無駄に色んなことに気を揉んでしまう性格のせいか疲れを溜め込みやすい性格のようだ。そういうことに気づいたのはつい最近である。最近ではあるが、最近そうなったか?というとそうでもないように思う。振り返れば中学ぐらいの頃から余計なものをたくさん背負う癖があったようにも思うし、そうでなければ(全くそういうのに向いてないのに)生徒会役員とかやらなかっただろうなと思う。

心が折れるというのは面白い表現だと感じる。普段は折れていないのだろうか。まっすぐなのだろうか。それとも真っ直ぐでも折れてもない、いい塩梅に曲がっているのだろうか。そういう形状が通常時ならば、枯れ枝のようにポキっと折れていたら、それはまぁ誰が見たってまともな状態ではないという兆候なのだろう。

自分はどうか。自分のことは良くわからない。しかし、もう、特定のことしかやっていたくないと思うことが増えた。仕事に行かずにこれだけをやっていたい。それは本を読むことだったりコードを書くことだったり、或いは延々と映画を観たいとか旅行に行きたいとか、あるいは何の予定もなくサンフランシスコに行ってスタートアップ訪問したいとか、突拍子もないことだったりもするのだけれど、何かこう色々とうまく回せなくなってきていると感じる。この状況をどう捉えればいいか自分でもよう分からない。

がんばって客観的に自分の状況を鑑みるに、どうにもこうにも消化不良を起こしているような心情が占めているように思う。自分では納得してないけどやらなきゃならん、やるぜー、うぉーっ、と頑張ってきたことが、ある日突然外的要因により、それはもうどうしようもないくらいの力によって、ポシャってしまう。そういうことがなぜか自分の身にはたくさんあった。

そういうことが何度かあって、結果として、自分は何も成果を残せていない。残せていないから、何も自分で自分を褒める要素なんてない。当然誰からも評価はされない。新たに得たものは何もない。一応会社員としてはこれはまずい。種を植えることになって、自分はいつものように土を作っていたが、やーそろそろ種を植えようかね、というところで、畑は使われなくなってしまった。使われないから自分は畑をもとの状態に戻した。

気がつけば、確実に結果を残せることを自分で身つけて拾って片付けるようなことに自然と意識が傾き始めた。必然であったし無意識でもあったのだが、結果が残せるということは精神衛生上とても良いことだった。そうか、何かの本に書いてあったけど、小さな勝利を積み重ねるのは、だから大事なのか、ということに気付かされる。

プログラミングで言えば、細かいバグを直したり、リファクタリングしたり、依存しているライブラリのバージョンを(特に理由もなく)上げてみたり、テストが足りないところでテストを書いてみたりといった、まぁ概ね自分やらなきゃならないタスクではないとは思うような、間違えようのないタスクをやることが心の平穏につながる。どうやったってうまくいくし、自分の成果として形に残る。これは素晴らしいことだ。面白くはないけれど。

そうこうしているうちに、もしかしたら、少しは育つかもしれない種みたいのが何とか見つかってきている。

自分は土は作れる。だが種がなかった。だけど種さえあれば、何とかなるのではないか。そういう気持ちが、最近になって、本当に久しぶりなのだがようやく芽生えてきた。

そういうものをどうにかこうにか育てられればと願う。 願うだけでなく、芽が出るぐらいまでは、まぁ自分で面倒を見てやりたいと、そう思う。畑はいつでも移ることができるが、多分育てられる種は見つけた場所でしか育てられないと思うので。

自分が2016年に作ったrails拡張系gemとその解説

この記事はトレタ Advent Calendar 2016の4日目です。
3日目は弊社CTOのmasuidriveによる【定番】 新しいWebサービスを開発・運営するときに使いたいサービス 【2016年末版】でした。私の推しサービスはBugsnagです。詳細はこちらのスライドを参照ください。

さて、3日目のこの記事では、私が今年railsの実装についての調査と暇つぶしを兼ねて作ったrails拡張系gemについて紹介します。

flatten_routes

github.com

routes.rb を書くときにresouceresourcesを使った書き方をしているとroutes.rbだけでは実際のURLがパッと見でわかりにくくなることがある。

$ rake routes を使えばよいのだが、routes.rb が膨大になってくると表示まで3~4秒待たされることもあり、プロジェクトが佳境を迎え、1秒でも惜しい状況では結構なストレスになる。

そこで、routes.rbを書くときのもう一つの記法である verb {directory} => {controller}/{action} の書き方もコメントで併記できたらよさそうと考えてこのgemを作った。

実行例は以下の通りである。 仮にroutes.rbが以下の通りだったとすると

Rails.application.routes.draw do
  ActiveAdmin.routes(self)
  resources :todos, except: [:new, :edit] do
    member do
      post :start
      post :finish
      post :restart
      post :giveup
      put :awesome
    end
    collection do
      get :finished
      get :not_yet
    end
  end
end

Rails.rootで以下のコマンドを実行することで

$ rake flatten_routes:annotate

こうなる

Rails.application.routes.draw do
# == generated by flatten_routes from here 2016-02-27 17:56:31 +0900
#  get    '/admin'                    => 'admin/dashboard#index'
#  get    '/admin/dashboard'          => 'admin/dashboard#index'
#  post   '/admin/todos/batch_action' => 'admin/todos#batch_action'
#  get    '/admin/todos'              => 'admin/todos#index'
#  post   '/admin/todos'              => 'admin/todos#create'
#  get    '/admin/todos/new'          => 'admin/todos#new'
#  get    '/admin/todos/:id/edit'     => 'admin/todos#edit'
#  get    '/admin/todos/:id'          => 'admin/todos#show'
#  patch  '/admin/todos/:id'          => 'admin/todos#update'
#  put    '/admin/todos/:id'          => 'admin/todos#update'
#  delete '/admin/todos/:id'          => 'admin/todos#destroy'
#  get    '/admin/comments'           => 'admin/comments#index'
#  post   '/admin/comments'           => 'admin/comments#create'
#  get    '/admin/comments/:id'       => 'admin/comments#show'
#  delete '/admin/comments/:id'       => 'admin/comments#destroy'
#  post   '/todos/:id/start'          => 'todos#start'
#  post   '/todos/:id/finish'         => 'todos#finish'
#  post   '/todos/:id/restart'        => 'todos#restart'
#  post   '/todos/:id/giveup'         => 'todos#giveup'
#  put    '/todos/:id/awesome'        => 'todos#awesome'
#  get    '/todos/finished'           => 'todos#finished'
#  get    '/todos/not_yet'            => 'todos#not_yet'
#  get    '/todos'                    => 'todos#index'
#  post   '/todos'                    => 'todos#create'
#  get    '/todos/:id'                => 'todos#show'
#  patch  '/todos/:id'                => 'todos#update'
#  put    '/todos/:id'                => 'todos#update'
#  delete '/todos/:id'                => 'todos#destroy'
# == generated by flatten_routes to here
  ActiveAdmin.routes(self)
  resources :todos, except: [:new, :edit] do
    member do
      post :start
      post :finish
      post :restart
      post :giveup
      put :awesome
    end
    collection do
      get :finished
      get :not_yet
    end
  end
end

コメントするだけでなく、いっそのことresorucesresourceを使う記法をすべてconvertしたい、という時には

$ rake flatten_routes:convert

を実行することで、上記の例でコメントされていた部分が記述され、オリジナルのresourcesresouceを使っていた方がコメントアウトされる。

railsからrouting情報を取り出す方法について

$ rake routeがそれっぽい情報を表示してくれているのでその辺のソースを参考に調べた。(このgemを書いた当時はrails5が出る前だったので4-2-stableブランチを参照した)

rails4.2におけるrake routesタスクは以下の様に実装されている

desc 'Print out all defined routes in match order, with names. Target specific controller with CONTROLLER=x.'
task routes: :environment do
  all_routes = Rails.application.routes.routes
  require 'action_dispatch/routing/inspector'
  inspector = ActionDispatch::Routing::RoutesInspector.new(all_routes)
  puts inspector.format(ActionDispatch::Routing::ConsoleFormatter.new, ENV['CONTROLLER'])
end

Rails.application.routes.routesでrouting情報の構造を取得し、それを ActionDispatch::Routing::RoutesInspectorに渡して、 ActionDispatch::Routing::ConsoleFormatter で定義されたformat(定義箇所はここ)で整形されたものをputsしているということがわかる。ちなみに、ActionDispatch::Routing::RoutesInspectorActionController::RoutingErrorがraiseされたときに出るエラーページのルーティング一覧を表示する部分でも使われており、htmlのtableに整形するためのformatterも実装されている

なので、今回はオリジナルのformatterを作ってそれをinspectorに渡すように実装すればいいかなと思ったが、別にformatterを差し替えて使いまわすような使い方を提供するgemでもないので、ベタっとformatterを書いて実装した。中身はroutes.rbのフォーマットに合わせて置換したり見た目を揃えるためにスペース入れたりとかそういう当たり前のことしかしていないので割愛。

補足

単に実際のURLをコメントするだけなら他のgemとしてはannotateというgemがある。
自分はプライベートでも仕事でもよく使っており、ActiveRecordのModelにコメントでschema情報を付けるだけのgemかと思っていたのだが、READMEをよく読んだらrouting情報もコメントしてくれる機能があったらしい。じゃあこれ使えばいいか

error_arranger

github.com

Controller内部でエラーが起きて、rescue_fromに渡されたりそのままraiseされてrack layerで処理される前に何か前処理を入れたりできないかなぁと思って作ったgem。

例えば

class PostsController < ActionController
end

みたいなcontrollerがあったとして、PostsController内部で発生したエラーメッセージに何か注釈をつけたりしたい、みたいなケースがあったら(あるのか?)以下のようにarrange_exception!を実装することで実現できる。

class PostsController < ApplicationController

  private

  def arrange_exception!(exception)
    exception.message << 'This error raised in PostsController'
  end
end

エラーがrailsで処理される前にcallbackを差し込む仕組みについて

結論から言えばモンキーパッチを当てているので、あまり行儀が良い方法ではない。

で、モンキーパッチの内容は下記である。

module ActionController
  module Rescue
    extend ActiveSupport::Concern
    include ActiveSupport::Rescuable

    private
      def process_action(*args)
        super
      rescue Exception => exception
        request.env['action_dispatch.show_detailed_exceptions'] ||= show_detailed_exceptions?
        arrange_exception!(exception) if self.respond_to?(:arrange_exception!)
        rescue_with_handler(exception) || raise(exception)
      end
  end
end

単にcontrollerにarrange_exception!という名前のメソッドが生えていたらそれを呼んでからrescue_fromで定義されたhandlerに渡すかそのままraiseする、という感じである。

このgemを作った当時、Controllerのactionで発生したエラーがどこでhandlingされるか分からなくて散々railsのソースを読んでようやく見つけた記憶があるのだが、rails/actionpack/lib/action_controller/metal/rescue.rbに実装されている。

ソースをちゃんと読み切れていないのだが、どうもrails/actionpack/lib/action_controller/metal配下に実装されているモジュールがロードされて、そのモジュールの中でprocess_actionというメソッドをoverrideしていってstackされていき、実際にリクエストが来てactionが実行されるときにcallbackとしてcontrollerからprocess_actionが呼ばれる。。という感じのように見えるのだが、よくわかっていない。謎い。

practical_errors

github.com

先に説明したerror_arrangerを使って、railsでよく見るエラーにもう少し丁寧な解説をつけてみたらrails初心者に優しくなるんじゃなかろうか?と思って作ってみたgem。

例えば、Post.find(1000)を実行してActiveRecord::RecordNotFoundがraiseされたとする。

そのときには以下のようなメッセージをerrorオブジェクトに追加してくれる。

ActiveRecord::RecordNotFound (
========== Practical Errors appends message from here ==========

Rails says, "Couldn't find Post with 'id'=1000".

You might have called ActiveRecord::FinderMethods#find, but the record for provided id was not found.
If you DO NOT want to raise ActiveRecord::RecordNotFound even if the record was not found,
you should use ActiveRecord::FinderMethods#find_by instead.

Post.find(1000) # raise ActiveRecord::RecordNotFound
Post.find_by(id: 1000) # just returns nill


========== Practical Errors appends message to here ==========
See more detail about Practical Errors: https://github.com/serihiro/practical_errors

)

idで検索してnilになるケースが想定される場合はfind_by使ってね、的なrails初心者のコードをレビューする時につけるようなコメントをrailsに勝手にやってもらえる。もちろん、ちゃんとエラーメッセージを読む相手であるということが前提だ。読まない相手の場合は頑張って教育しよう。

ちなみに、ActiveRecord::RecordNotUniqueのときの追加メッセージはこうだ。

The column included in the record that you were about to insert or update, is not allowed duplicated value.
This error was detected by database, not Rails.
You might have configured uniqueness validation to this column, but uniqueness validation is not panacea.
In race condition, uniqueness validation was passed easily.
For more detail, see rails document
http://api.rubyonrails.org/classes/ActiveRecord/Validations/ClassMethods.html#method-i-validates_uniqueness_of

uniqueness: trueなvalidationを入れてもrace conditionではすり抜けるから気をつけような、的な。あまり役には立たないがActiveRecord::RecordNotUniqueがrescueされずに突き抜けてしまった時の慰めにはなるだろう。

ちなみにいまのところ対応しているエラーはActiveRecord::RecordNotFoudActiveRecord::RecordNotUniqueの2種類しかない。他にも色々作る予定だったが力尽きてしまったので、ぜひPRを送って熱いエラーメッセージを追加してもらえるとうれしい。

実装部分については特筆すべき事項はなく、前出のerror_arrangerを使ってraiseされたエラーのクラスを見てそのクラスに該当するAdviserクラスがあったらAdviserクラスにメッセージを付与してもらう、ぐらいの感じである。

      if PracticalErrors::ErrorAdvisers::const_defined?(exception.class.to_s)
        @customised_message << PracticalErrors::ErrorAdvisers::const_get(exception.class.to_s).advise(exception)
      else
        @customised_message << <<-"EOS".strip_heredoc
          hmm... I don't know this error :(
          Tell me => https://github.com/serihiro/practical_errors
        EOS
      end

Adviserがいない時は教えてくれ!っていうメセージを入れているが今の所一件も報告がないので誰も使ってないと思われる。PRお待ちしております。


トレタ Advent Calendar 2016の5日目は2回目の登場horimislimeによる「ここ最近作ってたMacアプリの話とか」の予定です。

高校数学やり直してみた時に使った教材や勉強法やあれこれ

このエントリーは 機械学習に必要な高校数学やり直しアドベントカレンダー Advent Calendar 2016の2日目です。
1日目は現役高校生の方のエントリーでした。自分もこういう話を現役の頃に先生や同級生としたかったですね。現役の頃は数学って大学に行くための手段程度にしか思ってなくて、今考えたら非常にもったいなかったなと思います。。

これは何か

  • Railsおじさんが機械学習の手法を使って仕事でデータ分析できるようになることを目標に12年ぶりに高校数学を復習した(ている)記録です

きっかけ

  • もともと機械学習に興味があったのだが、いい加減仕事でちゃんと使えるレベルになってRailsしか能がないおじさんから脱却しようと思い立ち、2016年5月ぐらいから「データサイエンティスト養成読本 機械学習入門編」を読み始めた

  • のだが、途中途中で出てくる数式の意味が理解できなくてモヤモヤした。

  • わからない所は飛ばしつつ、まずは大枠を理解しようと頑張って読んでいたのだがやっぱりモヤモヤする
  • なので数学をちゃんとやり直すことにした
  • 機械学習でよく出てくる線形代数、等比級数、確率、みたいにピンポイントで勉強し直せばいいかなと思ったけど、いい機会なので高校数学をまるっとやり直すことにした。

やったこと(時系列順)

高校数学をざっとやり直す

  • まずは高校数学一通りやり直そうと思ってことでこれを買って一通り練習問題を手で解いた。

もう一度高校数学

もう一度高校数学

  • 主に平日に出社前と帰宅後にちょっとずつ解いていき、大体2ヶ月ぐらいで一通り最後までやり終わった。
  • 仕事が忙しかった時期と被ってたりもしたので平日1日の勉強時間は平均して1時間にも満たない程度だったと思う。平日全然できなくて休みの日にガッツリやったりしたときもある。
  • この本にも書いてあるが、テキストを読むだけでは頭に入ってこない。実際にペンと紙で問題を解くことが重要だと感じた。(当たり前だけど)

その時の勉強ノート。字の汚さは昔と全く変わっていない…*1 f:id:serihiro:20161126130616j:plain

12年ぶりに高校数学を勉強してみた気づき

  • 高校数学なんて高校卒業以来12年近く使ってなかったのに、手を動かして問題解き始めたらすぐ思い出せたりして人間の記憶ってすごいなーと思った
  • 高校時代よりかはゆっくりしたペースで勉強できるので一個ずつ自分のペースで理解できてとても楽しい
  • 特に、高校時代はただ丸暗記していただけの公式を、導き方含めてその意味をじっくり考える良い機会になった

高校数学をやり直した成果を形に残したいと思って数学検定を受けてみた

  • 勉強中に、調べたら数学検定という検定試験があったので、まずは高校2年生レベルの2級を受けてみることにした。
  • 調べたら直近の試験日まで1ヶ月程度しかなかったが勢いで受けてみることにした。
  • 教材として上記の本に加えて過去問集を買って解きまくってみた。
  • 過去問の正答率はギリギリ受かるか受からないかといったライン。何度も繰り返し勉強した。

結果

  • センター試験レベルの一次試験は受かったが、二次試験は大問を合計5問説いて各1点満点という配点だったのだが、計算ミスって0.2点足りなくて不合格だった。
  • ので、来年リベンジしたい*2
    • 追記: 2017年11月に合格.なお准1級と1級はいまだに取れていない...

  • 二次試験の応用問題は青チャートの例題レベルをやっておかないと厳しいかと感じた。過去問で出てないパターンの問題が1パターンずつぐらいは毎回増えていっているように見える。
  • ので、これまた15年近くぶりに青チャート買った。昔は数学は基本的に青チャートシリーズだけで勉強してたが、まさかおっさんになってから改めて買い直すとは思ってなかった。

チャート式基礎からの数学2+B―新課程

チャート式基礎からの数学2+B―新課程

高校数学を改めて勉強してみて思ったこと

  • 現役高校生の頃はセンター試験対策の勉強しかしてなくて、公式丸暗記して問題を解く方法しか練習しておらず「数学が楽しい!」なんて全く思わなかったのに、「機械学習でデータ分析ができるようになる」ことを目標を持って勉強してみるとすごく楽しく感じた。
  • また、数学検定受ける際に時間がなかったので、必要な公式をすべて丸暗記することはできないと分かっていたので、最低限の公式から必要な公式を導けるように勉強してみた。その結果、12年越しに現役高校生の頃にやってたことの意味が理解できるようになったりして新たな発見が多かった。
  • あと特に三角関数複素数平面、ベクトルの辺りの横のつながりや、行列で計算することの意味を少しは理解できるようになった。
    • 昔はこれらの繋がりなんてまるで考えてなかったが、社会人になってプログラミングするようになってから「どういうデータ構造でデータを表現して問題を解決するか」という考え方が身に付いたことも関係しているのかもしれない。

まとめ

*1:なお、後述している数学検定の二次試験は計算過程含めて筆記なので、普段手書きで字を書かない自分にとっては採点者に読める字で時間内に回答を書くのは結構苦労した。。

*2:本当は今年もう一度試験日があったのだがTOEICと被ったので断念した

PageRankについて調べてみた

この記事はトレタ Advent Calendar 2016の2日目です。
1日目は弊社iOSエンジニアのhorimislimeによるリリース自動化だけじゃないfastlane活用方法でした。恥ずかしながらfastlane初めて知ったんですが便利ですね。あと関係ない話ですがなぜか弊社のiOSエンジニアは普通にruby書けるのでビビります…

概要

PageRankについて

PageRankが生まれた時代背景

  • Googleの前身であるBackRubが開発された1996年当時、他の商用検索エンジン転置インデックスを用いた全文検索を主な検索の手段としていたケースが多かった(AltaVistaなど)
  • しかし、それらの商用検索エンジンは、人間から見て実用的な検索結果を表示することが非常に困難な状態にあった。単純に検索クエリとページに含まれるキーワードの一致数などを使って表示順序を決定していたため、そのページに価値があるかどうかを評価することができなかった。
  • また、特定のタグに同じキーワードを沢山いれるなどするだけで簡単に任意のページの検索ランキングを操作することができ、スパマーの攻撃の的にされるという問題も抱えており、ますます実用性からはかけ離れていた。*1
  • その一方で、webサイト上のリンクのつながりから自律的にページの重要度を学習するBuckRubは、検索結果の表示順序を決定する際にPageRankによって算出された「ページの重要度」を用いていたため、他の商用エンジンと比べ「実用的な」検索結果を表示することができた。
  • 2016年8月現在においてもGoogle内部でページランクが「ページの重要度」を評価するために用いられていると公表されている

基本的なアイデア

PageRankの基本的なアイデアは下記がベースとなっている(後述するが実用的なスコアを算出するためには若干の調整が必要になるので単純に実際のリンク数だけで決定している訳ではない)

  • 沢山のページからリンクを貼られているサイトほど重要(以後本記事ではこのリンクを 入リンク と呼称)
  • 他のページにリンクを貼る時、重要なサイトから貼られたリンクの方が価値がある(以後本記事ではこのリンクを 出リンク と呼称)
  • 出リンク の価値は1つのサイトから貼られている 出リンク の数に反比例する

webサイトのPageRankスコアを計算してみる

以下のように6つのページが互いにリンクを貼っている状況を考える(それぞれのノードが1つのWebサイト) f:id:serihiro:20161118160538p:plain

Lawrence Page とSergey Brinは、当初下記の計算式によりPageRankスコアを求めた。*2

 \displaystyle
  \mathrm r(P_{i}) = \sum_{ P_{j} \in B_{P_{i}} } \frac { \mathrm r(P_{j}) } { \mathrm |P_{j}| }

ここで

  •  \displaystyle r(P_{j}) : ページPjのPageRank
  •  \displaystyle P : 全ページの集合
  •  \displaystyle B_{P} : 入リンクの集合*3
  •  \displaystyle \mathrm |P_{j}| : ページPjの出リンク数の総数

この数式を反復法で繰り返し計算することでPageRankのスコアを求めることができると考え、k+1回目の繰り返しで求められるスコアを

 \displaystyle
   r_{k+1}(P_{i})

とすると

 \displaystyle
  \mathrm r_{k+1}(P_{i}) = \sum_{ P_{j} \in B_{P_{i}} } \frac { \mathrm r_{k}(P_{j}) } { \mathrm |P_{j}| }

となる。

ここで、当然ながらk=0の時の値(つまり初期値)を何の値とするかという問題が発生するが、Lawrence Page とSergey Brinは初期値として集合Pに含まれるページ数の逆数を用いたとされる。今回の例で言えば、Pにはページが6個含まれるので、k=0の時は一律で 1/6 となる。

単純なアプローチによるスコア計算

上記の数式を用いて実際にスコアを計算してみる。*4
 \displaystyle r_{1}(P) から計算してみる。

 \displaystyle
  \mathrm r_{1}(P_{1}) = \frac { \mathrm r_{0}(P_{3}) } { \mathrm |P_{3}| } = \frac 1 6 / 3 = \frac 1 {18}
 \displaystyle
  \mathrm r_{1}(P_{2}) = \frac { \mathrm r_{0}(P_{1}) } { \mathrm |P_{1}| } + \frac { \mathrm r_{0}(P_{3}) } { \mathrm |P_{3}| }  = \frac 1 6 / 2 +  \frac 1 6 / 3 +  = \frac {5} {36}
 \displaystyle
  \mathrm r_{1}(P_{3}) = \frac { \mathrm r_{0}(P_{1}) } { \mathrm |P_{1}| } = \frac 1 6 / 2 = \frac {1} {12}
 \displaystyle
  \mathrm r_{1}(P_{4}) = \frac { \mathrm r_{0}(P_{5}) } { \mathrm |P_{5}| }  + \frac { \mathrm r_{0}(P_{5}) } { \mathrm |P_{6}| }  = \frac 1 6 / 2 + \frac 1 6 / 1 = \frac {1} {4}
 \displaystyle
  \mathrm r_{1}(P_{5}) = \frac { \mathrm r_{0}(P_{3}) } { \mathrm |P_{3}| } + \frac { \mathrm r_{0}(P_{4}) } { \mathrm |P_{4}| }  = \frac 1 6 / 3 +  \frac 1 6 / 2 +  = \frac {5} {36}
 \displaystyle
  \mathrm r_{1}(P_{6}) = \frac { \mathrm r_{0}(P_{4}) } { \mathrm |P_{4}| } + \frac { \mathrm r_{0}(P_{5}) } { \mathrm |P_{5}| }  = \frac 1 6 / 2 +  \frac 1 6 / 2 = \frac {1} {6}

つづいてk=1の時のスコアを使ってk=2のスコアを反復的に求めてみる。texで書くのがめんどくさくなってきたので細かい計算は省略する。

 \displaystyle
  \mathrm r_{2}(P_{1}) = \frac { \mathrm r_{1}(P_{3}) } { \mathrm |P_{3}| } = \frac 1 {36}
 \displaystyle
  \mathrm r_{2}(P_{2}) = \frac { \mathrm r_{1}(P_{1}) } { \mathrm |P_{1}| } + \frac { \mathrm r_{1}(P_{3}) } { \mathrm |P_{3}| }  = \frac 1 {18}
 \displaystyle
  \mathrm r_{2}(P_{3}) = \frac { \mathrm r_{1}(P_{1}) } { \mathrm |P_{1}| } = \frac 1 {36}
 \displaystyle
  \mathrm r_{2}(P_{4}) = \frac { \mathrm r_{1}(P_{5}) } { \mathrm |P_{5}| }  + \frac { \mathrm r_{1}(P_{5}) } { \mathrm |P_{6}| }  = \frac {17} {72}
 \displaystyle
  \mathrm r_{2}(P_{5}) = \frac { \mathrm r_{1}(P_{3}) } { \mathrm |P_{3}| } + \frac { \mathrm r_{1}(P_{4}) } { \mathrm |P_{4}| }  = \frac {11} {72}
 \displaystyle
  \mathrm r_{2}(P_{6}) = \frac { \mathrm r_{1}(P_{4}) } { \mathrm |P_{4}| } + \frac { \mathrm r_{1}(P_{5}) } { \mathrm |P_{5}| }  = \frac {14} {72}

k = 2の時点でスコアを降順ソートすると

 \displaystyle
\mathrm r_{2}(P_{4}) > \mathrm r_{2}(P_{6}) > \mathrm r_{2}(P_{5}) > \mathrm r_{2}(P_{2}) > \mathrm r_{2}(P_{1}) = \mathrm r_{2}(P_{3})

となり、6ページ間のランキングが作成できる。*5

総和計算から行列計算に置き換えて考える

ここで、最終的に得られるPageRankのスコアのリストを、n次元ベクトル(nは集合Pに含まれるページ数)と捉えると、上記の計算はn * n行列とn次元ベクトルの積として考えることができる。*6

具体的には、総和式の代わりに以下の行列を導入することで、先に行ったPageRankスコアの計算を単純な行列計算として考えることができる。

 \displaystyle
\begin{equation}
H=
\begin{vmatrix}
0 &\frac {1} {2} &\frac {1} {2} &0 &0 &0 \\
0 &0 &0 &0 &0 &0 \\
\frac {1} {3} &\frac {1} {3} &0 &0 &\frac {1} {3} &0 \\
0 &0 &0 &0 &\frac {1} {2} &\frac {1} {2} \\
0 &0 &0 &\frac {1} {2} &0 &\frac {1} {2} \\
0 &0 &0 &1 &0 &0
\end{vmatrix}
\end{equation}

Hi行の要素は、ページ Pi が持つの出リンクの有無を示す。

例えば H[1] 行においては H[1][2]H[1][3] のみが非0で、それ以外は0になっている。これは、 P1P2P3 に対する出リンクを保持しており、それ以外のページに対してはでリンクを保持していないことを示している。*7

要素の値がそれぞれ 1/2 となっているのは P1 の持つ出リンクの個数で除している為である。これは、先に示した総和式でPageRankスコアを計算した時、各ページのスコアを |Pj| で除した処理に対応した前処理である。

Hj 列の要素は、ページ Pj が持つ入リンクの有無を示す。 例えば H[1] 列においては H[3][1] のみが非0で、それ以外は0になっている。これは、 P1P3 からの入リンクを保持し、それ以外のページからの入リンクを保持していないことを示している。H[3][1] 要素が1/3 なのは、先に説明したとおりP3の出リンクの総数で除されている為である。

この行列Hを用いると、先に掲載した

 \displaystyle
  \mathrm r_{k+1}(P_{i}) = \sum_{ P_{j} \in B_{P_{i}} } \frac { \mathrm r_{k}(P_{j}) } { \mathrm |P_{j}| }

は以下のように書き換える事ができる。

 \displaystyle
  \mathrm r_{k+1}(P_{i}) = \sum_{ j = 1 }^n H_{ji} \times { \mathrm r_{k}(P_{j}) }

ここで、

 \displaystyle
\begin{equation}
\pi^{(k)T}=
\begin{vmatrix}
r_{k}(P_{1}) &\cdots &r_{k}(P_{n})
\end{vmatrix}
\end{equation}

と定義される行ベクトル  \displaystyle \pi^{(k)T} を導入すると、

 \displaystyle
\pi^{(k+1)T} = \pi^{(k)T}H

と置き換えられる。

なお、実際に行列計算をする時は

 \displaystyle
\pi^{(k+1)} = H^{T} \times \pi^{(k)}

として、Hの転置行列に右から列ベクトル  \displaystyle  \pi^{(k)} を乗じる必要がある(と思うのだが、なぜか参考にした書籍ではこの辺のことが記載されていなかった。。そんなもんは数学者の間では常識なんだろうか?)

単純なアプローチをそのまま用いて計算する場合の問題点

しかしこの式には以下のような問題があると参考にした書籍では指摘されている。

  • いつか  \displaystyle \pi^{(k)T} は収束するのか?
  • 計算を繰り返す回数は何回が最適なのか?10回か?20回か?それ以上か?

また、実際、先に掲載した式で  \displaystyle \pi^{(13)T} ぐらいまで求めると `(0 0 0 2/3 1/3 1/5) となり、一部のページにスコアが隔たってしまうという問題もある。

これらの問題を解決するためにLarry PageSergey Brinは以下の調整を行った。以下の調整を行うことで  \displaystyle \pi^{(k)T} がある定常ベクトルに収束することがべき乗法の考え方から収束することが保証される*8

ハイパーリンク行列を調整する

Larry PageSergey Brinが行った調整は下記の2つ。

出リンクを1つも持たないページには他のページに出リンクがあることにする

出リンクがないページに到達したらどっか適当なページに飛ぶじゃろ、という前提で他のページに対する出リンクが同確率で「あること」にする。

例えば P(2) は出リンクを持たないページなので、 H[2] の行において、全ページに対して出リンクを持つことにする。

つまり一定の確率で他のページにジャンプする、という概念を導入することになる。Larry PageSergey Brinの論文では ランダムサーファー と呼称されている。

この調整により先の数式で出てきた行列 H を用いて新たな確率行列 S が定義される。

 \displaystyle
S = H + a(1/ne^{T})

ここで a は出リンクを1つでも持つPは0、ないPを1とする2値ベクトルとする。

全てのページから関係のないページに一定の割合で他のページに出リンクがあることにする

出リンクがあるページを閲覧していたとしても突然関係ないページに飛ぶじゃろ、という前提で、全ページに対する出リンクが同確率で「あること」にする。

その結果、更に調整を行った新たな行列 G が登場する。

 \displaystyle
G = {\alpha}S + (1-\alpha)1/nee^{T} \\
\ \ \ = {\alpha}(H + a(1/ne^{T})) + (1-\alpha)1/nee^{T} \\ 
\ \ \ = {\alpha}H + ({\alpha}a + (1 - {\alpha}e)1/ne^{T} \\

 \displaystyle \alpha は0と1の間のスカラーである。googleでは長い間 0.85 が使われていたらしい。

実際に先に挙げた例で G を計算すると以下のようになる。

 \displaystyle
G = 0.9H + ({0.9}
\begin{vmatrix}
0 \\
1 \\
0 \\
0 \\
0 \\
0
\end{vmatrix}
+ {0.1}
+ \begin{vmatrix}
1 \\
1 \\
1 \\
1 \\
1 \\
1
\end{vmatrix}){1/6}
\begin{vmatrix}
1 &1 &1 &1 &1 &1
\end{vmatrix}

 \displaystyle \pi^{T}はGに対する定常ベクトルで、以下のようになる。参考書籍よりそのまま抜粋。参考書籍掲載のMATLABの参考実装で計算したものらしい。

 \displaystyle
\pi^{(k+1)T} = \begin{vmatrix}
0.03721 &0.05396 &0.04151 &0.3751 &0.206 &0.2862
\end{vmatrix}

参考書籍に掲載されていた参考実装では π(k)Tπ(k-1)Tノルムの差が一定数値以下になるまで計算を繰り返した最後の π(k)T を定常ベクトルとして扱っているらしい。要するに、1回前の計算値と最後の計算値の差が十分小さくなったら収束した、と見なすというアプローチらしい。

 \displaystyle \pi^{T} は以下の固有ベクトル問題を解くことでべき乗法で繰り返し計算しなくても近似的に求める方法があるらしいが、自分の数学力と時間が足りなくて固有値問題についてよく理解できないので誰か教えてほしい…(要勉強)

 \displaystyle
\pi^{T} = {\pi^{T}}G

自分でもrubyで実装してみた

最後に、自分がrubyで実装したpagerankのスコアをべき乗法で求めるコードを掲載しておく。

bitbucket.org

なるべく参考書籍の数式がそのまま動く感じになるように実装した。

実際にべき乗法で繰り返し計算するループは下記のような感じ。本文でも記載しているが、G 行列を転置して列ベクトルである pie を右から乗じて計算している。行列計算においてはrubyMatrixクラスが非常に便利だった。

収束したかを判定する @residual_erorr は参考書籍の参考実装から持ってきた 1e-8 を使っている。

    _transposed_google_matrix = google_matrix.transpose

    loop do
      previous_pie = pie
      pie = _transposed_google_matrix * pie
      if pie.norm - previous_pie.norm < @residual_erorr
        break
      end
    end

まとめ

  • ページランクの概要はざっくり知っていたが、いざ書籍を一冊読んでちゃんと調べると数学的な奥深さが半端なく、その辺のバックグラウンドがない自分には難解でほとんど理解できてないように感じる。実際、参考書籍は前半においてはオリジナルの論文の解説といった感じだが、後半は収束速度とパラメータの数値の調整に関する議論やPageRank以外でのランキングについて記されているのだが、その辺の内容が高度すぎてまだ理解できていない。
  • これをきっかけ確率過程やマルコフ連鎖について勉強していきたいと感じた。実際、確率過程についてはネットで拾った大学講義の資料とかで調べてみたらかなり面白く、自然言語処理機械学習の分野でもこれが理解できないといつか詰みそうな内容だったので、いつか単独でブログネタにしたい。*9
  • トレタ Advent Calendar 20163日目はmasuidriveによる「Railsで新規サービスを作る時に使うべきサービス」です。

参考資料

*1:CCCメディアハウス「グーグル ネット覇者の真実 追われる立場から追う立場へ」より

*2:この数式は書籍 「Google PageRankの数理」に記載されていた通りのものだが、書籍中では出典が明らかになっておらず、また、オリジナルの論文である 「The Anatomy of a Large-Scale Hypertextual Web Search Engine」 にはこの数式は書かれていない。Lawrence Page と Sergey Brin によるもう一つの論文 「PageRank, an Eigenvector based Ranking Approach for Hypertext」 の方に記載があったのかも知れないが、この論文はweb上で本文が見つからなかったため確認できなかった。無念。

*3:Lawrence Page とSergey Brinらが入リンクのことをBacklinkと論文の中で記述していたのでBを使っているのだろう

*4:このあたりから段々tex記法で数式書くのが辛くなってきた…ので段々サボり出しているがはてなブログにおけるmarkdowntex記法の組み合わせが最悪なのでご了承いただきたい

*5:ページ1とページ3のスコアが同値なので、2つのページが同じ検索結果に含まれる場合にどう並べるかという問題に対しては、別の評価パラメータを用いて総合的に優劣を決定しているものと考えられる。

*6:実際は行列と行ベクトルの積は直接計算できないので(懐かしの数Cでやったことを思い出そう)それぞれの転置行列同士の積を取ることになるのだが、アカデミックの世界ではその辺をよしなにやってくれる計算ライブラリを使うのが常識なのかどうかは分からないが「PageRankの数理」においてはその辺の説明を端折っている

*7:ここでtex使わないで書いているのは、同じ行にtex記法で書くとはてなブログが展開してくれないからである。。

*8:なぜ保証されるかは参考書籍を読んでも良く分からんかったが、調整したH行列の固有値を用いることで収束することが証明できるらしい…要勉強

*9:公開されている大学の講義資料にいつも助けられている。機械学習自然言語処理の方で調べ物するときも信頼のおける情報ソースとしていつも使わせていただいている。工学系の学位取ってない自分にとってはホントありがたい。

エンジニアの立ち居振舞い:過度に仕組みを作らない

お題「エンジニア立ち居振舞い」

特に仕事でコードを書く場合で意識してることだけど、過度に仕組みを作らないというのを大事にしている。

ここで、過度な仕組みとは例えば最初から以下のような実装をすることを指すことにする

  1. 1つのクラスでしか使われないコンテキストの上に成り立つ実装をグローバルなクラスに切り出してそのクラスを他のクラスからも使えるように実装する
  2. テンプレートメソッドパターンを適用して部分的に実装を差し替えられる用に実装する
  3. 例えばjavaとかで実装クラスは現時点で一つしかないのに最初からインターフェースを用意する

要するに、万人が使うようなフレームワークやライブラリを実装するかのように拡張性の高いコードを実装してしまうことを指す。

過度な仕組みを作れば作るほど、仕組みの動作を保証するのに必要なUTの量は増加し、実装量も増えてレビューは大変になり、またその部分を修正する人はロジックそのものに加えて仕組みそのものの仕様理解にも時間を取らされたりと、色んな人の工数を大量に消費する。

それでもまだ本当にそんな仕組みが必要だろうか?自分たちが今必要としているのは動く実装でありフレームワークではない。

自分が過度な仕組みを持つ実装をする場合は、今から作ろうとしている実装において、明らかにコピペできるレベルの実装がいくつもあるなーと感じた時だけにしている。これもしかしたら他でも使うかもなーと思うこともあるのだが、それでも一箇所でしか使われないコードならグッと我慢してベタッと実装する。

もちろん機能的な分解点やUTの書きやすさを意識してメソッド自体はあれこれ分割したりスコープを考えたりクラスを分けたりといったことはするが、しょっぱなからサブクラスを作ってそのクラスをオーバーライドするところから実装を始めたりはしない。

なぜか?今作ろうとしている目の前の機能こそが一番大事だからだ。

今作ろうとしている機能を過不足なく、他のメンバーが理解しやすい形の落とし所に納めて、リリースすることこそが一番大事だからだ。だから無駄なことはしない。早く作って早くリリースする。

そして時が経って、必要になったらその時初めて抽象化でもなんでもする。

大事なことは常に「今」必要最低限のものだけで始めて、「必要なとき」に素早く拡張できることだと思う。