top

TOP  RSS  Login

Perl - HTML::TagParser

HTML::TagParser - HTMLソースの解析/属性値やinnerTextの取得

HTMLの中身にDOMっぽくアクセスできるのですごく便利。HTMLがinvalidでもOK。

サンプル

use HTML::TagParser;
use LWP;

#my $doc = HTML::TagParser->new( "http://localhost/" ); # URI::Fetchがあれば "use LWP" なしでも URL が取得できる

my $doc = HTML::TagParser->new(
    LWP::UserAgent->new->request(
        HTTP::Request->new( GET => "http://localhost/" )
      )->content
  );

my @a = $doc->getElementsByTagName("a");

print join("\n", map {
    $_->getAttribute("href") . " : ". $_->innerText;
  }(@a) );

Last modified:2008/02/11 04:06:42

vJ

0.201779