word2vecで両思いの単語を抽出してみた
word2vecのdistanceでXを検索したらY、Yを検索したらXになるようなX, Yの対を検索するコードを書いてみた。コーパスは僕のBookscanで電子化した蔵書、約100MB。語彙数は66622。結構時間がかかるので途中経過を下に乗せておく。全部できたら何%が両思いか調べる。あとGistにでも貼ろうかと思っている。
が は た て < > し する な 的 こと もの 0 R ( ) 「 」 れ れる だ です この その い き 3 4 これ それ A B なっ なつ でき できる とき 場合 ( ) だけ ばかり 章 第 D E まし ます など や だろ でしょ しかし そして によって により られ られる 考え 見 8 9 へ ヘ 図 表 たり ながら なかっ なかつ a b 企業 市場 上 下 彼 彼女 ので のに
語彙数66622で、O(N^2)だとトータルで4時間29分もかかった。今後A-B+C=Dのパターンも探そうと思ってたんだけどO(N^4)だから現実的でない時間がかかるなぁ。66622単語のうち、両思いの単語は6303個だった。約1割。
https://gist.github.com/nishio/9250783