博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
perl 爬虫两个技巧
阅读量:5289 次
发布时间:2019-06-14

本文共 1740 字,大约阅读时间需要 5 分钟。

jrhmpt01:/root/lwp# cat data.html      
 
首页 
上一页  
11  
12 
12/12
 
首页 
上一页  
11  
12 
12/12
jrhmpt01:/root/lwp# cat c1.pl use LWP::UserAgent;use DBI; use POSIX;use Data::Dumper;use HTML::TreeBuilder;my $ua = LWP::UserAgent->new;$ua->timeout(10);$ua->env_proxy;$ua->agent("Mozilla/8.0"); use HTML::TreeBuilder::XPath; $tree= HTML::TreeBuilder::XPath->new; $tree->parse_file( "data.html");my @title= $tree->findvalues('/html/body//a[@class="changePage"]');print "\@title is @title\n";jrhmpt01:/root/lwp# perl c1.pl@title is 首页 上一页 11 首页 上一页 11my @title= $tree->findvalue('/html/body//a[@class="changePage"]');表示 根据body的内容 查找a标签的@class="changePage"的值jrhmpt01:/root/lwp# cat c1.pl use LWP::UserAgent;use DBI; use POSIX;use Data::Dumper;use HTML::TreeBuilder;my $ua = LWP::UserAgent->new;$ua->timeout(10);$ua->env_proxy;$ua->agent("Mozilla/8.0"); use HTML::TreeBuilder::XPath; $tree= HTML::TreeBuilder::XPath->new; $tree->parse_file( "data.html");my @pages=$tree->find_by_tag_name('a'); #@urlall除了包含每个类别的文章,还包含阅读排行里的文章 foreach (@pages) { @titlepage = $_->attr('page'); foreach (@titlepage) { if ($_){ print "\$_ is $_\n"; }; };};jrhmpt01:/root/lwp# perl c1.pl $_ is 1$_ is 11$_ is 11$_ is 1$_ is 11$_ is 11根据a标签,查看page属性的值
 

转载于:https://www.cnblogs.com/zhaoyangjian724/p/6200214.html

你可能感兴趣的文章
第十章、random模块
查看>>
第十章、hashlib模块和hmac模块
查看>>
第十章、json和pickle模块
查看>>
第十章、logging模块
查看>>
第十章、typing模块
查看>>
第十章、numpy模块
查看>>
第十章、jupyter入门之pandas
查看>>
第十章、collections
查看>>
第十一章、面向对象及类与对象
查看>>
第十一章、定制对象独有特征
查看>>
第十一章、类和数据类型
查看>>
第十一章、类的继承
查看>>
第十一章、对象属性查找顺序与属性和方法
查看>>
0827作业
查看>>
第十一章、菱形继承问题
查看>>
第十一章、super()详解
查看>>
第十一章、面向对象之多态、多态性
查看>>
第十一章 面向对象之类的组合
查看>>
第十一章、类的封装
查看>>
第十三章、元类(metaclass)
查看>>