写个小爬虫爬下迅雷会员

好久不写爬虫。。。忘了个锤子。于是借着学java的机会用java写个爬虫
爬取静态页面 迅雷会员账号和密码。时时获取最新的~

先上我暑假写的python版~

# -*- coding: utf-8 -*-
import urllib
import re
import os
url1 = 'http://xlfans.com/'
regex = r'迅雷会员(.+?)密码(.*)<'
regex1 = r'class="item"><a href="(.+?)">'
ml = 'c:/xunlei.txt'
def get_html(url):html1 = urllib.urlopen(url)html = html1.read()html1.close()return html
def get_re(html):xunlei = re.findall(regex,html)for a in xunlei:with open(ml,'a') as f:b = a[0]+' '+a[1]f.write(b+'\n')
def get_new(html):new = re.findall(regex1,html)return new[0]html= get_html(url1)
url = get_new(html)
new_html = get_html(url)
if os.path.exists(ml):os.remove(ml)
get_re(new_html)
print 'please look c:/xunlei.txt thankyou!'
print 'newurl= '+url

附一个暑假写的获取代理ip的小python代码:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
import urllib2
url1 ='http://www.kuaidaili.com/'#<td data-title="IP">123.182.216.241</td>
html1 = urllib2.urlopen(url1)
html = html1.read()
html1.close()
regexip = r'data-title="IP">(\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3})'
regexport = r'data-title="PORT">(\d{1,4})'
poxyip = re.findall(regexip,html)
poxyport = re.findall(regexport,html)
for x in range(10):print poxyip[x]+':'+poxyport[x]

然后~

java版

package com.Recar;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.net.*;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class pacdemo1 {public static void main(String[] args) throws IOException {System.out.println("程序开始....");String str =newURL();String url1 =str.replace("class=\"item\"><a href=\"", " ");String url = url1.replace("\">", " ");System.out.println(url);http(url);}//抽出来单独写个方法返回html的public static String html(String url1) throws IOException{URL  url = new URL(url1);URLConnection connection = url.openConnection();connection.connect();BufferedReader in = null;in = new BufferedReader(new InputStreamReader(connection.getInputStream(),"UTF-8"));String result = null;String line;while((line=in.readLine())!=null){result+=line;   }//whileSystem.out.println("获取到html....");return result;}///////////////////////////////////////////////////////////////////获取最新的迅雷会员网址public static String newURL() throws IOException{String newURL = null;String result;result= html("http://xlfans.com");//result是返回的网页String regex ="class=\"item\"><a href=\"(.+?)\">";Pattern pattern = Pattern.compile(regex);Matcher matcher = pattern.matcher(result);System.out.println("开始查找最新迅雷会员网址.....");if(matcher.find()){newURL = matcher.group(0);}else{System.out.println("sorry,没有找到,请更新正则"); }return newURL;}///////////////////////////////////////////////////////////////////////////获取网页,并匹配正则public static void http(String newurl)throws IOException{try {//URLURL url = new URL(newurl);String result;result = html(url.toString());//result是返回的网页//那么做正则 迅雷会员(.+?)密码(.*)String regex ="<br />迅雷会员号(.+?)密码(.*)<br />";Pattern pattern = Pattern.compile(regex);Matcher matcher = pattern.matcher(result);String xunlei = null    ;   String xunlei2= null    ;   if(matcher.find()){xunlei = matcher.group(0);xunlei2= xunlei.replace("<br />", "\n");System.out.println(xunlei2);}else{System.out.println("sorry,没有找到,请更新正则"); }} catch (MalformedURLException e) {// TODO Auto-generated catch blocke.printStackTrace();}}}

java版还有问题,总是还有一块一起匹配出来了。我是个萌新,忘大佬指点啊。java写爬虫真心烦啊。Python大法好。

这里写图片描述

导出jar 要注意是导出 可执行版的。不是单纯的jar文件。

小总结:

java的爬虫是先用定义URL

    URL  url = new URL("www.baidu.com");

然后打开网址

URLConnection connection = url.openConnection();connection.connect();

用流来接收html

BufferedReader in = null;in = new BufferedReader(new InputStreamReader(connection.getInputStream(),"UTF-8"));String result = null;String line;while((line=in.readLine())!=null){result+=line;   }//while

然后用正则匹配,当然还有其他更好的方法~

java写的像C。。。以后要改。要学习。有空写动态网页的爬虫。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/351066.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

LNMP服务

目录 一、安装Nginx服务 1.编译安装nginx服务 2.添加nginx系统服务 二、安装Mysql服务 1.编译安装mysql服务 2.修改mysql配置文件 3.设置路径环境变量 4.初始化数据库 5.添加mysql系统服务 6.修改mysql 的登录密码 三、安装配置 PHP 解析环境 1.安装环境依赖包 2.编…

深圳市有什么靠谱的PMP机构推荐吗?

PMP项目管理专业人士资格认证是由美国项目管理协会&#xff08;Project Management Institute&#xff0c;简称PMI&#xff09;发起的。PMP作为世界级的项目管理认证证书&#xff0c;拥有着最先进的项目管理知识体系&#xff0c;它严格评估项目管理人员知识技能是否具有高品质的…

HarmonyOS3 Stage模型介绍

Stage模型是HarmonyOS 3.1 Develper Preview&#xff08;API 9&#xff09;版本开始新增的模型&#xff0c;也是目前HarmonyOS主推且会长期演进的模型。在该模型中&#xff0c;由于提供了AbilityStage、WindowStage等类作为应用组件和Window窗口的“舞台”&#xff0c;因此称这…

构建智能电商推荐系统:大数据实战中的Kudu、Flink和Mahout应用【上进小菜猪大数据】

上进小菜猪&#xff0c;沈工大软件工程专业&#xff0c;爱好敲代码&#xff0c;持续输出干货。 本文将介绍如何利用Kudu、Flink和Mahout这三种技术构建一个强大的大数据分析平台。我们将详细讨论这些技术的特点和优势&#xff0c;并提供代码示例&#xff0c;帮助读者了解如何在…

投影仪哪个牌子好?怎么选家用投影仪

这两年看我身边好多朋友都买了投影仪&#xff0c;我心里也是痒痒的。他们都说有了投影仪之后再也不用去电影院了&#xff0c;周末在家拉上窗帘&#xff0c;准备一堆甜品奶茶&#xff0c;躺在沙发上就可以开始享受家庭影院了。不过我在想&#xff0c;投影仪的牌子这么多&#xf…

十大国产投影仪品牌:极米、当贝、明基、小米等国产投影仪大牌厂商

投影仪&#xff0c;想必网友都比较熟悉了&#xff0c;目前很多家庭里都购入了投影仪作为观影设备&#xff1b;特别是在近些年&#xff0c;笔者不少朋友也选择投影仪给孩子们使用。经过多年的技术开发与经验累积&#xff0c;国产投影仪已成为高销量、高品质的品牌。 十大国产投…

家用投影仪什么品牌好?投影仪哪家好?

最近好多朋友都在问我家用投影仪什么品牌好。但是我的观点是选任何一个产品都不能只看品牌&#xff0c;一定先要了解如何选择该类产品&#xff0c;才能选出兼顾产品和品牌两个方面的好东西。因此&#xff0c;这篇文章将会先告诉大家如何选择投影仪&#xff0c;然后再给大家介绍…

投影仪参数哪些最重要?什么品牌投影仪好

大家都知道投影仪规格参数多&#xff0c;包括系统配置、显示参数、音效在内&#xff0c;大大小小总共几十个&#xff0c;要是每个都摘出来详细对比的话&#xff0c;也太花功夫了。俗话说得好&#xff0c;打蛇打七寸。与其面面俱到&#xff0c;不如分清主次&#xff0c;抓大放小…

怎么挑选投影仪?高清投影仪什么品牌好

随着家庭智能影院的兴起&#xff0c;投影仪逐渐成为家庭观影的一种新潮流。那么投影仪应该怎么挑选呢&#xff1f; 我们在选择投影仪的时候要注重不同功能参数之间的对比&#xff0c;下面将我自己选择投影仪的一些经验分享给大家。 首先看分辨率&#xff0c;我们都知道分辨率是…

投影仪什么牌子最好?哪款投影仪做家庭影院效果好

这几年来国内新兴的投影仪牌子不计其数&#xff0c;除了几个占据行业领先地位的老牌子之外&#xff0c;很多新起之秀也蓄势待发&#xff0c;在打造极致性价比方面卯足了劲儿&#xff0c;跟大牌竞争。 与其问现在什么牌子的投影仪最好&#xff0c;还不如自己学会看投影仪的参数&…

投影仪哪些比较好?投影仪如何选购

现在在家里装投影仪能提升幸福感&#xff0c;很多小伙伴准备入坑。但看到市场上那么多品牌和款型&#xff0c;不知道投影仪哪些比较好。接下来和大家分享自己的选购经验&#xff0c;后半部分整理出来了口碑比较好的部分产品&#xff0c;希望能帮助大家缩小选择的范围。 挑选指南…

投影仪家里用什么牌子好?哪种投影仪性价比高

人们对生活品质的追求&#xff0c;已经体现在投影仪上。不管是买房还是租房&#xff0c;都可以在家享受大屏电影的体验。可看着这么多牌子&#xff0c;很多人可能不知道怎么选。其实只要会看参数&#xff0c;就能知道投影仪家里用什么牌子好了。 1、显示芯片、分辨率 家里用的…

什么牌子投影仪好?投影仪买什么牌子的好

最近几年投影仪行业发展很快&#xff0c;除了几个传统的品牌&#xff0c;几个新兴的品牌也很受关注。概括起来国内有极米、坚果、大眼橙、明基等&#xff0c;国外有索尼、松下、爱普生。备选一多就容易纠结&#xff0c;很多人问什么牌子投影仪好&#xff0c;下面就分享一下自己…

什么牌子投影仪好?国产投影仪什么牌子好

小巧&#xff0c;智能&#xff0c;易于操作的物品越来越受到人们的喜爱。在科技的进步中&#xff0c;一些影视爱好者也不满足于电影院或者电视等传统观影方式&#xff0c;这也是投影仪越来越受人们欢迎的原因。它兼备了智能化与信息化等多种现代元素&#xff0c;同时能满足观影…

国产家用投影仪十大排名品牌,最新排名整理分享给大家选前要看哦

支持国货现在已然成为国人绝对支持的行为之一&#xff0c;对于像华为、鸿星尔克等国产国货出现火爆的场景&#xff0c;仍然历历在目&#xff01;现在国产国货已经影响着世界&#xff0c;国际友人都爱上了中国造&#xff01;今天小编分享新国货十大国产投影仪品牌排行榜&#xf…

投影仪哪个牌子的好?家庭影院投影仪哪款好

近年来的投影仪市场真的太火爆了&#xff0c;各大平台上都在推各种品牌的投影仪&#xff0c;有的是几百块钱价位的&#xff0c;有的是大几千的&#xff0c;还有上万的。作为一名家电行业的技术人员&#xff0c;个人觉得几百块钱的投影仪真心不能买&#xff0c;连智能系统都没有…

mac电脑git clone项目时报错证书过期和权限被拒绝

mac电脑使用git clone命令克隆项目时&#xff0c;一开始一直提示证书过期 SSL certificate problem: certificate has expired 执行以下代码关掉验证后&#xff0c;解决了这个问题 找到git目录 Git\git-cmd输入命令跳转到bin目录&#xff0c;cd bin输入命令运行git.exe执行关…

4000元左右家庭投影仪推荐,什么牌子投影仪效果最好?

在家用投影仪的选择上&#xff0c;更多的年轻人倾向于性价比最高的款。花同样的钱买更高的配置已经成为了大家都喜欢的事儿&#xff0c;今天我们来讲讲4000元左右的家用投影仪&#xff0c;给大家整理推荐一下。 像大眼橙、当贝、坚果这些牌子在4000价位都有不错的选择。下面主要…

javax.validation常用注解

javax.validation 提供了一系列的注解&#xff0c;用于在 Java Bean 中对属性进行验证&#xff0c;主要有以下几种&#xff1a; NotNull&#xff1a;验证对象不可为 null&#xff1b;NotEmpty&#xff1a;验证字符串&#xff0c;数组&#xff0c;Collection&#xff0c;Map不可…

弱网测试,Network Link Conditioner你知多少

网络环境的好坏&#xff0c;有时会让你的产品带给用户完全不同的体验&#xff0c;作为开发者&#xff0c;在开发项目过程中&#xff0c;我们需要进行对于网络环境的调试。Mac环境下模拟慢速网络可以使用苹果官方提供的工具&#xff1a; Network Link Conditioner 具体操作步骤…