使用 XPath 定位 HTML 中的 img 标签

00020.png

引言

随着互联网内容的日益丰富,网页数据的自动化处理变得愈发重要。图片作为网页中的重要组成部分,其获取和处理在许多应用场景中都显得至关重要。例如,在社交媒体分析、内容聚合平台、数据抓取工具等领域,图片的自动下载和处理是必不可少的。本文将详细介绍如何在 C# 应用程序中使用 XPath 定位 HTML 中的 img 标签,并实现图片的下载。

技术背景

XPath(XML Path Language)是一种用于在 XML 文档中进行选择节点的查询语言,同样也适用于 HTML 文档。它提供了一种简洁的方式来定位和操作文档中的元素。在 C# 中,我们可以使用 HtmlAgilityPack 库结合 XPath 来实现对 HTML 文档的解析和数据提取。

环境准备

在开始编写代码之前,你需要准备以下环境和工具:

  1. Visual Studio:一个强大的 C# 开发环境。
  2. .NET Framework:确保你的项目是基于 .NET Framework。
  3. HtmlAgilityPack:一个用于解析 HTML 文档的库。可以通过 NuGet 包管理器安装。

实现步骤

1. 安装 HtmlAgilityPack

首先,通过 NuGet 包管理器安装 HtmlAgilityPack。在 Visual Studio 中,打开你的项目,然后通过“工具” > “NuGet 包管理器” > “管理解决方案的 NuGet 包”,搜索并安装 HtmlAgilityPack

2. 创建 HttpWebRequest

为了从网页中获取 HTML 文档,我们需要创建一个 HttpWebRequest 对象。这将允许我们发送 HTTP 请求并接收响应。

csharp
using System;
using System.IO;
using System.Net;
using HtmlAgilityPack;namespace HtmlImageExtractor
{class Program{static void Main(string[] args){string targetUrl = "http://example.com";string proxy_host = "ip.16yun.cn";int proxy_port = 31111;HttpWebRequest request = (HttpWebRequest)WebRequest.Create(targetUrl);request.Proxy = new WebProxy(proxy_host, proxy_port);request.Proxy.Credentials = CredentialCache.DefaultCredentials;HttpWebResponse response = (HttpWebResponse)request.GetResponse();Stream responseStream = response.GetResponseStream();HtmlDocument doc = new HtmlDocument();doc.Load(responseStream);string firstImageUrl = doc.DocumentNode.SelectSingleNode("//img[@src]").Attributes["src"].Value;DownloadImage(firstImageUrl, "image1.jpg");response.Close();}private static void DownloadImage(string url, string localFileName){using (WebClient webClient = new WebClient()){webClient.DownloadFile(url, localFileName);}}}
}
3. 使用 HtmlAgilityPack 解析 HTML

在上述代码中,我们首先创建了一个 HttpWebRequest 对象,并设置了代理服务器。然后,我们使用 HtmlAgilityPack 库来解析 HTML 文档。

csharp
HtmlDocument doc = new HtmlDocument();
doc.Load(responseStream);
4. 使用 XPath 定位 img 标签

一旦 HTML 文档被加载到 HtmlDocument 对象中,我们可以使用 XPath 来定位 img 标签。

csharp
string firstImageUrl = doc.DocumentNode.SelectSingleNode("//img[@src]").Attributes["src"].Value;

这里,//img[@src] 是一个 XPath 表达式,它选择所有具有 src 属性的 img 元素。SelectSingleNode 方法返回第一个匹配的节点。

5. 下载图片

最后,我们定义了一个 DownloadImage 方法,该方法使用 WebClient 类的 DownloadFile 方法将图片下载到本地。

csharp
private static void DownloadImage(string url, string localFileName)
{using (WebClient webClient = new WebClient()){webClient.DownloadFile(url, localFileName);}
}

代码解析

在上述代码中,我们展示了如何使用 C# 和 HtmlAgilityPack 库结合 XPath 来实现图片的下载。以下是关键步骤的详细解析:

  1. 创建 HttpWebRequest:通过 WebRequest.Create 方法创建一个 HTTP 请求对象。
  2. 设置代理:通过 WebProxy 设置代理服务器,以便绕过某些网络限制。
  3. 获取响应流:通过 GetResponse 方法获取响应,并从响应中获取流。
  4. 解析 HTML:使用 HtmlAgilityPackHtmlDocument 类加载 HTML 流。
  5. 使用 XPath:通过 XPath 表达式定位 img 标签,并获取其 src 属性。
  6. 下载图片:使用 WebClientDownloadFile 方法下载图片到本地。

应用场景

  1. 网页爬虫:自动从网页中下载图片,用于内容聚合或数据分析。
  2. 内容管理系统:下载并存储网页中的图片,用于内容展示。
  3. 数据抓取工具:从网页中提取图片,用于图像识别或机器学习。

结语

通过本文的介绍和代码示例,我们可以看到如何在 C# 中使用 XPath 定位 HTML 中的 img 标签,并实现图片的下载。这种方法不仅高效,而且易于实现,适用于各种需要从网页中提取图片资源的场景。希望本文能够为你的项目提供帮助,并激发你在数据处理和自动化方面的创新思维。
有对文章的代理有需求的可以关注这里:https://v.16yun.cn/accounts/phone_register/?sale_user=ZM_seven7

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3249388.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

浅谈端到端(自动驾驶)

一、 引言 端到端是近期非常火的话题,尤其在自动驾驶、具身智能等领域。去年UniAD的发布,给大家普及了端到端的网络设计,带动了行业的发展。产业界,特斯拉FSD Beta V12效果惊艳,近期理想也推出了双系统的E2E自动驾驶系…

使用LVS+NGinx+Netty实现数据接入

数据接入 链接参考文档 LVSKeepalived项目 车辆数据上收,TBox通过TCP协议连接到TSP平台 建立连接后进行数据上传。也可借由该连接实现远程控制等操作。 通过搭建 LV—NGinx—Netty实现高并发数据接入 LVS:四层负载均衡(位于内核层&#x…

Grafana :利用Explore方式实现多条件查询

背景 日志统一推送到Grafana上管理。所以,有了在Grafana上进行日志搜索的需求,而进行日志搜索通常需要多条件组合。 解决方案 通过Grafana的Explore的方式实现多条件查询。 直接看操作步骤: 在主页搜索框中输入“Explore” 进入这个界面…

高精度滚珠导轨:驱动装配线自动化升级!

滚珠导轨是一种先进的运动控制装置,具有高精度、高稳定性和高可靠性等特点,被广泛应用于各个行业,为工业生产带来了巨大的影响。 滚珠导轨技术的广泛应用,尤其是在实现装配流程自动化中,不仅提高了生产效率&#xff0c…

qt 自定义样式 switch开关,已解决

在日常需求中,需要对功能增加一个开关,因此做了简单封装。结果能正常使用。自定义信号接收! 实现 QWidget* switchBtn new CCendSwitchWidget(btn_value);connect(switchBtn, SIGNAL(clicked(bool,QString)), this, SLOT(clickedSlot(bool,…

41 QOS技术(服务质量)

1 QOS 产生背景 对于网络业务,影响服务质量的因素包括传输的带宽、传送的时延、数据的丢包率等。网络资源总是有限的,只要存在抢夺网络资源的情况,就会出现服务质量的要求网络总带宽固定的情况下,如果某类业务占用的带宽越多&am…

MenuToolButton自绘控件,带下拉框的QToolButton,附源码

MenuToolButton自绘控件,带下拉框的QToolButton 效果 下拉样式可自定义 跟随QToolButton的Qt::ToolButtonStyle属性改变图标文字样式 使用示例 正常UI文件创建QToolButton然后提升,或者直接代码创建都可以。 // 创建一个 QList 对象来存储 QPixm…

Visual Studio Code 实现远程开发

Background 远程开发是指开发人员在本地计算机上进行编码、调试和测试,但实际的开发环境、代码库或应用程序运行在远程服务器上。远程开发的实现方式多种多样,包括通过SSH连接到远程服务器、使用远程桌面软件、或者利用云开发环境等。这里我们是使用VSCo…

C学习(数据结构)-->单链表习题

目录 一、环形链表 题一:环形链表 思路: 思考一:为什么? 思考二:快指针一次走3步、4步、......n步,能否相遇 step1: step2: 代码: 题二: 环形链表 I…

仅两家!云原生向量数据库 PieCloudVector 全项通过信通院「可信数据库」评测

7月16日,2024 可信数据库发展大会在北京隆重举行。大会以“自主、创新、引领”为主题,近百位数据库领域的专家、学者齐聚一堂,带来高质量的数据库技术洞察与实战经验。 本次可信数据库发展大会中,中国信通院正式公布 2024 年上半年…

科研绘图系列:R语言热图(heatmap)

介绍 热图是一种数据可视化技术,通常用于展示数据的分布情况。它通过颜色的变化来表示数据的大小或密度,使得观察者能够直观地理解数据集中的模式和趋势。以下是热图的一些关键特点和应用场景: 数据分布:热图可以显示数据在不同区域的分布情况,比如在地图上显示不同地区的…

低代码中间件学习体验分享:业务系统的创新引擎

前言 星云低代码平台介绍 星云低代码中间件主要面向企业IT部门、软件实施部门的低代码开发平台,无需学习开发语言/技术框架,可视化开发PC网页/PC项目/小程序/安卓/IOS原生移动应用,低门槛,高效率。针对企业研发部门人员少&#…

Vscode+Pyside6开发之虚拟环境配置以及错误解决

Pyside开发之虚拟环境配置以及错误解决 开发环境一、项目创建以及虚拟环境设置1.创建项目2. 新建py文件,新建虚拟环境3.激活虚拟环境二、项目位置改变pip命令报错1.删除原来的虚拟环境2. 产生包列表文件requirements.txt3.重新创建虚拟环境4.重新安装包文件5.其他错误开发环境…

大语言模型在病理AI领域中的应用2|文献速递·24-07-18

小罗碎碎念 本期文献主题:大语言模型在病理AI领域中的应用 本期推文是大模型4病理AI系列的第2期,每一篇文献都使用了ChatGpt,应用场景如下: 直接用ChatGpt生成回答比较多种主流大模型在指定任务中的性能表现比较大模型与专用模型…

大数据开发之Hadoop

大数据开发之Hadoop Hadoop的发展Hadoop的三个功能组件一、HDFS 分布式文件系统 1、HDFS的基础架构2、HDFS基础操作命令3、HDFS WEB浏览:4、Big Data Tools插件5、使用NFS网关功能将HDFS挂载到本地系统6、HDFS数据存储7、NameNode 元数据8、SecondaryNameNode的作用…

【CMU博士论文】结构化推理增强大语言模型(Part 0)

问题 :语言生成和推理领域的快速发展得益于围绕大型语言模型的用户友好库的普及。这些解决方案通常依赖于Seq2Seq范式,将所有问题视为文本到文本的转换。尽管这种方法方便,但在实际部署中存在局限性:处理复杂问题时的脆弱性、缺乏…

外企跨境传输应该如何做到安全有效的文件管控?

跨境文件传输并非易事,它面临着多重挑战,尤其是数据安全、隐私保护以及法律法规遵守等问题。所以如何做到安全有效的文件管控,却是一个让许多企业头疼的问题。小编今天将说说跨境文件传输面临的主要挑战,并讨论如何选择合适的加密…

02线性表 - 链表

这里是只讲干货不讲废话的炽念,这个系列的文章是为了我自己以后复习数据结构而写,所以可能会用一种我自己能够听懂的方式来描述,不会像书本上那么枯燥和无聊,且全系列的代码均是可运行的代码,关键地方会给出注释^_^ 全…

云计算实训室的核心功能有哪些?

在当今数字化转型浪潮中,云计算技术作为推动行业变革的关键力量,其重要性不言而喻。唯众,作为教育实训解决方案的领先者,深刻洞察到市场对云计算技能人才的迫切需求,精心打造了云计算实训室。这一实训平台不仅集成了先…

c# .net core中间件,生命周期

某些模块和处理程序具有存储在 Web.config 中的配置选项。但是在 ASP.NET Core 中,使用新配置模型取代了 Web.config。 HTTP 模块和处理程序如何工作 官网地址: 将 HTTP 处理程序和模块迁移到 ASP.NET Core 中间件 | Microsoft Learn 处理程序是&#xf…