11月1日 Rubyによるクローラー開発技法 読書会 第2回(兵庫県) に参加しました。 今回は3,4章でした。
メモ
前回参加していなかった人向けに、最初に 1,2 章の概要説明があって、 今回は 3 章からでした。 今回から、誤字・脱字などのフィードバックのため、 Wiki (2014.11.01 『Ruby によるクローラー開発技法』読書会 第2回) に記録するようになりました。
以下、今回のメモです。
- p.112 Crawl-delay の単位は決まっていない
- p.148 構文解析で正規表現が使われていることは多い?
- p.149 3-1-2 ECU_JP → EUC-JP
- p.151 行頭に
=~
は syntax error で、行頭に.
は最近の ruby では OK になっている - Fluent API の話
- p.150 RegExp → Regexp
- posix 文字クラスと Unicode プロパティの話
- Oniguruma と Onigmo の話
- pp.152-153 名前付きキャプチャの説明がローカル変数への割当だけの説明になっているようにみえる
- p.153
\b
は文字クラスの中か外かで解釈が変わる - p.154
\x{7HHHHHHH}
は使えない https://github.com/rurema/doctree/issues/80 参照 - p.154
\s
には\v
が含まれる - p.155 「m」オプションを使うことで改行を無視する →
.
で改行も含むようになる - p.156 EUC_JP → EUC-JP
- https://github.com/cuzic/amagasakirb/wiki
- p.159 コードの中のコメント部分: UFT8 → UTF-8
- p.162 モンキーパッチではなく直接変更している話
- p.164
xmlns:"デフォルトの名前空間識別子"
→xmlns="デフォルトの名前空間識別子"
- p.167 Webサイトの更新には、Atom配信フォーマットが利用できます。 → Atom出版プロトコルの間違い?
- p.171 Atom 1.0の構造は、RSS 2.0と同様に名前空間の指定が必要になります。 → RSS 1.0?
- close されていないので
open(url).read
よりもopen(url, &:read)
の方が良いのではという話 - 標準添付の RSS ライブラリが便利という話
- Google Feed API
- p.180 の
doc.at('//a').[]('href')
からdoc.xpath("//a/@href").text
などの話 - p.177 Aタグの例の
node.inner_text
の出力例が間違っている - p.182
\/
の\
が不要? - p.184 スクリーンショットの値段がずれている
- p.192 ここでは nokogiri ではなく REXML を使っている
- p.199, p.205 Marshal.dmp は Marshal.dump なのではないかという話
- mitmproxy の話
Disqus Comments