ぽっぺん日記@karashi.org
2006-07-17(Mon) 海の日 [長年日記]
_ 101fwy.com「陸・海・空軍」板から写真をぶっこ抜き(仮)
今のところ、mixiとfrepaの閲覧くらいにしかPlaggerを使っていないので、少しずつでも活用する幅を広げていこうということで、101fwy.comの「陸・海・空軍」板から写真をぶっこ抜くYAMLを subtechグループ - Bulknews::Subtech - [Plagger] ぶっこ抜き系を参考に(と言うか、ほぼ丸ごとコピー)して書いてみた。
未完成なのだが晒しておく。
assets/Filter-FindEnclosures/101fwy.pl:
sub handle {
my ($self, $url) = @_;
$url =~ qr!http://(www\.)?101fwy\.com/\w+/!;
}
sub find {
my($self, $args) = @_;
if ($args->{content} =~ m!<a href="(src/\d+\.jpg)" target=_blank>\d+\.jpg</a>!) {
my $enclosure = Plagger::Enclosure->new;
$enclosure->url( URI->new_abs($1, $args->{url}) );
$enclosure->auto_set_type;
return $enclosure;
}
return;
}
YAMLは下記の通り。
global:
plugin_path:
- /path/to/plagger/assets/plugins
assets_path: /path/to/plagger/assets
timezone: Asia/Tokyo
log:
level: debug
plugins:
- module: Subscription::Config
config:
feed:
- url: http://101fwy.com/army/
meta:
follow_link: \d+\.(htm|jpg)
- module: CustomFeed::Simple
- module: Filter::FindEnclosures
- module: Filter::FetchEnclosure
config:
dir: /path/to/download
Filter-FindEnclosuresで、リンク先から複数のEnclosureをFindさせる方法が分からず、現状、\d+\.htmから1つずつしかjpgが取れないので要改良。
ホントは101fwy.com用のEntryFullTextを書きたかったんだけど、どうやって掲示板のような1つのHTMLを複数のエントリに分割するのかが分からなくて中断中(1ページを1つのエントリと言うことにすれば書けたんだけど)。
他の人のYAMLをコピって、ちょいちょいイジれば、おKじゃね? とか考えていたが甘かった。とりあえず、ソースから読んでいかないとダメぽい感じ。
追記
Filter-FindEnclosuresの書き方が少し分かったので書き直した。
_ できごと
- 今日は祭日なので、除草剤の散布などの庭仕事をしようと思っていたら、朝から結構な降りなので中止。
- 気温が低めで、湿度も高くないので、犬は過ごしやすそう(一日中寝てるけど)。
- 昼飯にフォー(ベトナムのスープ麺)を食べた。辛くてウマー。
- 少し身体の調子が悪いと聞いていた、叔母の家に行く。やはり、なんだか元気がない感じ。暑かった所為もあるとは思うが。
- 夕飯後、Plaggerをいじる。YAMLだけ見ていても、さっぱりだったが、ソースを読んだら、少しだけ理解出来た。
[]
本日のPingbacks(全0件)


まで頂ければ幸いです。
叛逆としての科学―本を語り、文化を読む22章(フリーマン・ダイソン)
ゲバルト時代 SINCE1966-1973 あるヘタレ過激派活動家の青春(中野正夫)
>どうやって掲示板のような1つのHTMLを複数のエントリに分割するのかが分からなくて<br>woremacxの日記 - yaml で簡単なレシピを書ける CustomFeed プラグイン<br>d.hatena.ne.jp/woremacx/20060503/1146587892<br>みたいなのが必要かも。