Pythonで本文抽出
Pythonでウェブページから本文抽出がしたくて、ググったら弊社の中谷のWebページの本文抽出 (nakatani @ cybozu labs)をPythonに移植したもの(yono/python-extractcontent)が見つかったのでとりあえずそれを使ってみたんだけど、Google Ad Sectionがついていて100%の成功率のはずのこのブログを対象にして本文抽出に失敗して空文字列を返してくるので、あれれおかしいなー、と思ったら。
https://github.com/yono/python-extractcontent/blob/master/extractcontent.py#L80
いや、正規表現の途中で改行するんだったらVERBOSEオプションが必要ですよ。(?isx)するなりre.compileでre.VERBOSEつけるなり、もしくは文字列分割して改行が入らなくするなり。
とか考えながら修正してプルリクエストしようかと思ったらFork 5とか表示されていて、確認してみたらフォーク先で修正されていた。
https://github.com/petitviolet/python-extractcontent/commit/7e91da3824023c1fa305d5f25a8f9d7e39277809
なのでこれから本文抽出する人はこちらを使ったほうがいいよ、という結論でした。 https://github.com/petitviolet/python-extractcontent
自分への教訓:Googleで検索して一番上に来たからといって一番メンテされているとは限らない。