Songleの外部埋め込みプレイヤーがJavaScriptでカスタマイズできるので、それを利用して五度圏の可視化をするデモを作ってみました。 スピッツの「ロビンソン」 中島みゆきの「地上の星」 きゃりーぱみゅぱみゅの「ファッションモンスター」 ロビンソンはコ…
オライリー・ジャパンから「word2vecによる自然言語処理」という電子書籍を出版しました。予定外のドタバタがあってブログで紹介するのが遅くなってしまいましたが、その間にオライリーのEbook Store Sales Rankingでは1位になっていました。word2vecは2013…
「Hooked ハマるしかけ 使われつづけるサービスを生み出す[心理学]×[デザイン]の新ルール」を読んだ。サービスが「使われ続ける」ためには、顧客の「習慣」をいかにして作るかが重要だ。そこで「習慣が作られる過程」を以下の4つのフェーズで考えている。 ト…
拙著「コーディングを支える技術」の11章では、オブジェクト指向が必須ではない言語を使って、一歩ずつオブジェクト指向に近づいていくことでオブジェクト指向を理解しようとしています。ところが一番難しいところが終わってホッとしたのか、最後の一歩 p.19…
4月24日発売のWEB+DB PRESS Vol.80に、特別企画として「エンジニアの学び方」という記事を書きました。Vol.80自体は4月発売ということもあって「新人さん大歓迎!」と銘打っています。「エンジニアの学び方」もこの4月に就職・進学をした人を想定読者にして…
U理論によれば、新しい理解を結晶化するには、一度今までのコダワリを捨てることが必要。「自分は何にこだわっているのか」と内省したところ、やはり「本を読む以上はその内容を理解しなければならない」という点にこだわりがある。そこで、これを捨てて、中…
U理論の本を流し読みしてたけど、これは結構面白い。PDCAサイクル(計画→実行→評価→改善)は、既にサイクルが回っている人にとっては納得感があるのだろうけども、回ってない人にやらせようとすると「で、計画はどうやって立てるの?」で悩んで止まってしまっ…
こんな質問を頂きました。 『コーディングを支える技術』p157のPythonの例をRubyのpryとかで試すにはどうすればいいのだろう? pic.twitter.com/4uZXV9mJc4 https://twitter.com/maehrm/status/429954521947598850端末のエンコーディングがutf-8として、Ruby…
@tokorotenの作ったdivsumというゲームが面白い。http://dl.dropboxusercontent.com/u/26405542/divsum/divsum.html#0_0_100序盤:「なんだこれー、どうやってゲームを進めるんだ?」中盤:「なるほど、収縮と分散を繰り返して数をコントロールして消してい…
word2vecのdistanceでXを検索したらY、Yを検索したらXになるようなX, Yの対を検索するコードを書いてみた。コーパスは僕のBookscanで電子化した蔵書、約100MB。語彙数は66622。結構時間がかかるので途中経過を下に乗せておく。全部できたら何%が両思いか調べ…
ロクださんのアクタ、向き引き起こすとしては同意だけども、この「コーディネーターに着くと不愉快になっ」ということばの思い入れはコーディネーター体験がなかっはずだから「コーディネーターとは誰であるか」が分からず「Xに着くと不愉快になっ」というこ…
きしださんのエントリ、方向性としては賛成だけども、その「コミュニティに入ると幸せになる」という言葉の受け手はコミュニティ経験がないわけだから「コミュニティとは何であるか」がわからず「Xに入ると幸せになる」という言葉としてしか理解しかできない…
Qiitaとブログの違いがわからないと思ってたがだいぶ違うってことがわかった ブログでは記事に間違いがあった時にコメントで指摘して著者が修正するしかないが、Qiitaではプルリクエストを投げられる(投げてくれるかどうかわからないけど) 間違いがあって修…
Wikiquoteのダンプデータから引用部分だけ取り出したいな、と思った。元データを見るとこんな感じ [[小泉純一郎]] CATEGORIES: 政治家, 日本人, 日本の内閣総理大臣, 1940年代生 小泉純一郎(1942年 - )は、日本の政治家(自由民主党)、第87、88、89代総理…
「無期限で世界規模で非独占的で使用料無料で取り消し不能な特許ライセンスを付与します」という条項があるので使わせてもらう側が「わーい、便利なライブラリだー」と思って使っていたら後から「特許料払え!」と言われるという悲劇が起こらないことだって…
「放射線耐性 Quine (1 文字消しても動く Quine) - まめめも」という頭のおかしい(ほめことば)コードがリリースされていました。以前「The Qlobe - まめめも」がリリースされた時は、Pythonに移植したら「難読コードを読んでみよう(Python初心者向け解説) -…
「プログラマは能力によって生産性に10倍の差がある」とかいうけどこれはプログラミングに限った話ではない。編み物未経験のXさんと既に何本もマフラーを編んだ経験のあるYさんとで、マフラーの最初の5列ぐらいを編むのに掛かる時間で勝負したら、Xさんが編…
去年の台風シーズンに「靴下が濡れるのが嫌だ」とボヤいていたら妻が「メレル」を買ってくれた。最近の雪でも靴下が濡れないので重宝している。追記:メレルのが全部防水というわけではないみたい。CHAMELEON II STORM GORE-TEXが僕の履いているもの。GORE-T…
NPYLMを実装するために元になっているHPYLMの論文を読む話。3章。Pitman-Yor過程はbase distributionG0とdiscount parameter 0 -d から新しい分布を作る確率過程。スティック・ブレイキングで構成できる。独立な確率変数列Vk ~ Beta(1 - d, θ+kd)とφk ~ G0か…
Deep Learningで単語を連続なユークリッド空間に投影したらそれが意味を表現すると盛り上がっているけど、それをやるのに最適化の難しいニューラルネットを使わないで正規分布だと思って最適化したらいい、という論文。word2vecには直接論文上は言及していな…
既存の方法だと8-gramの言語モデルとか現実的に無理なんだけども、この方法だと可変長だから必要なところだけ長いgramにできるよ、という論文。Pitman-Yor過程と等価な中華料理店過程でツリーを作る。she willの後にsingが来たとするとルートノードからwill…
形態素解析しなくても単語に分割できる、しかも教師データがいらないので古文や未知の言語でもOK、という論文。Deep Learningの勉強をアウトプットしながらやるために始めた「Deep Learning論文紹介」企画だけども、いきなりDeep Learningではない論文になっ…
タイトルには全く賛同しませんが、大阪の実家から送られてきた白だしは妻に重宝がられています。自宅で食べるうどんがうまくて幸せ(のろけ)ref. 本の虫: 東京は住みにくい http://cpplover.blogspot.jp/2014/02/blog-post_10.html
残念なお知らせですが、この連載は続きません。そもそも僕の興味はword2vecによる意味の理解と、言語モデルによる文章の生成だったわけです。後者の論文はRNNLMを使っていて、それは前者の論文の著者がword2vecの前にやっていたことです。というわけでRNNLM…
"Hessian-Free"という新しい最適化手法をDeep Learningのauto-encoderの学習に使ってみたら事前学習なしで既存の報告の性能を超えたぞ凄いだろう、という話。Deep Learning論文紹介「Deep learning via Hessian-free optimization」の続き。病的な勾配の例と…
"Hessian-Free"という新しい最適化手法をDeep Learningのauto-encoderの学習に使ってみたら事前学習なしで既存の報告の性能を超えたぞ凄いだろう、という話。ニューラルネットのパラメータ決定はよく研究されている問題で、勾配法で効率よく計算できると言わ…
リカレントニューラルネット(RNN)に長距離相関を学習させるのは難しい問題だったが、Hessian-Freeを使ったらできた、という話。RNNはBack Propagation Through Time(BPTT)+確率的勾配法で簡単に計算できることが長所とされているが、10タイムステップほど離…
リカレントニューラルネット(RNN)を使って文章を生成する話。RNNはパワフルだけど学習が難しい。Hessian-free最適化(HF)を使えばいい感じに学習できて、難しい問題に使える。この論文では文字を入力として言語モデルを作って、そこから文章を生成する。標準…
就職面接で行われるフェルミ推定がアスペルガー症候群の人を選ぶためのものであるという主張をしている人がいた。看過できないので反論しておく。http://anond.hatelabo.jp/20140128183151 まずここが嘘。 アスペルガー症候群(高機能自閉症、PDD)は、まさ…
予測に使うパラメータが増えると、たとえそれがただのノイズで真のモデルには一切出てこないデータであったとしても、訓練データに対しての当てはまりはよくなる。しかしもちろん、テストデータに対しての当てはまりは悪くなる。というわけで線形回帰で1〜5…