多维点分布的均匀性评估方法(NDD和Voronoi 图法)

评估多维点分布的均匀性是统计学和数据科学中的一个重要问题,特别是在模拟、空间分析和样本设计等领域。下面,我将详细介绍2种评估多维点分布均匀性的方法,包括它们的数学原理、实现公式以及各自的优缺点。

1. 最近邻距离法(Nearest Neighbor Distance, NND)

        最近邻距离法(Nearest Neighbor Distance, NND)是一种评估点分布均匀性的方法,其基本思想是通过计算每个点到其最近邻点的距离,构建最近邻距离的经验分布函数,并与理论均匀分布下的经验分布函数进行比较,从而评估点分布的均匀性。

        构建经验分布函数是为了从实际数据中得到最近邻距离的分布情况。而理论分布函数是基于均匀随机点分布假设得到的。两者的比较旨在观察实际数据是否与理论假设(均匀随机分布)一致。

1. 经验分布函数(\hat{G}(r))

经验分布函数用于描述观测数据中,每个点到其最近邻点的距离小于或等于某个特定值 r的比例。具体步骤如下:

计算最近邻距离:对于每个点 x_{i},计算它到所有其他点x_{j}的距离,并找出最小的那个距离d_i

        在二维空间中,给定一组点X=\{x_1,x_2,...,x_n\},每个点x_{i}的位置通常由其坐标(x_{i1},x_{i2})表示。针对每个点x_{i},最近邻距离定义为:

d_i=\min_{j\neq i}\|x_i-x_j\|

        其中,\|x_i-x_j\|是点x_{i}和点x_{j}之间的欧式距离,计算公式为:

\|x_i-x_j\|=\sqrt{(x_{i1}-x_{j1})^2+(x_{i2}-x_{j2})^2}

构建经验分布函数:对于不同的距离阈值 r,计算数据集中满足d_{i}\leq r的点的比例。

2. 理论分布函数(G_{CSR}(r))

        理论分布函数基于假设点是在给定区域内均匀随机分布的。对于二维空间,这个分布可以用以下公式表达:

G_{CSR}(r)=1-\exp(-\lambda\pi r^2)

其中,\lambda是单位面积内的点的密度,可以通过\lambda=\frac{N}{A}计算,其中{N}是点的总数,{A} 是区域的面积。(公式的原理下面附录有推导)

3. 使用单样本Kolmogorov-Smirnov 检验(K-S检验)

Kolmogorov-Smirnov检验是一种非参数检验,用于比较两个样本是否来自同一分布,或一个样本是否来自某个特定的理论分布。在这里,它用于:

计算统计量:K-S检验的统计量是两个分布函数之间的最大差异,即

{D}=\max|\hat{G}(r)-G_{CSR}(r)|

评估显著性:通过计算得到的统计量 {D},与相应的临界值或通过模拟得到的{P}值比较,来判断差异是否统计显著。如果显著,这表明观测数据的分布与理论上的完全随机分布有显著差异。

更详细的K-S检验可以参考

Kolmogorov Smirnov 检验_kolmogorov-smirnov检验-CSDN博客文章浏览阅读1.1w次,点赞5次,收藏41次。Kolmogorov-Smirnov检验一个例子假设你拿到下面的这100个观察值:-0.16-0.68-0.32-0.850.89-2.280.630.410.150.741.30-0.130.80-0.750.28-1.000...._kolmogorov-smirnov检验https://blog.csdn.net/qq_16587307/article/details/102850741

4. 解释结果

  • 如果K-S检验显示实际数据的分布和理论分布之间无显著差异,我们可能会认为数据支持完全随机分布的假设
  • 如果检验结果显示显著差异,这表明数据中的点可能具有聚集性或排斥性,这与完全随机分布假设相违背。

        通过这种方法,科学家和研究人员可以更好地理解空间数据的分布特性,以及它们是否符合某些预期的随机模式或是否存在潜在的空间结构和相互作用。这在生态学、地理学、流行病学等领域尤为重要,因为空间分布模式往往与过程或机制密切相关。

优点:

  1. 计算简单直观:最近邻距离法的计算过程相对简单,只需要计算每个点到其最近邻点的距离,然后构建经验分布函数,再与理论分布函数进行比较。这个过程直观易懂,便于实现和解释。

  2. 对数据分布的局部特征敏感:最近邻距离法关注每个点的局部邻域,能够捕捉到数据分布在局部尺度上的特征。如果点在局部区域内分布不均匀,最近邻距离法能够有效地检测到这种异常。

缺点:

  1. 对噪声和异常值敏感:最近邻距离法依赖于每个点到其最近邻点的距离,如果数据中存在噪声或异常值,可能会影响最近邻距离的计算,进而影响均匀性的评估结果。

  2. 缺乏全局信息:最近邻距离法主要关注局部邻域的信息,而缺乏对数据全局分布的考虑。在某些情况下,局部均匀但全局不均匀的分布可能无法被最近邻距离法有效地检测到。

  3. 参数选择影响结果:最近邻距离法中的一些参数,如最近邻的数量、距离度量的选择等,都会影响均匀性评估的结果。不同的参数选择可能导致不同的结论。

5. 示例

假设我们有以下五个二维点:

\begin{gathered} x_{1} =\begin{pmatrix}0.1,0.2\end{pmatrix} \\ x_{2} =(0.3,0.4) \\ x_{3} =(0.2,0.6) \\ x_{4} =(0.7,0.8) \\ x_{5} =(0.5,0.1) \end{gathered}

构建经验分布函数 \hat{G}(r)

        使用欧几里得距离公式\|x_i-x_j\|=\sqrt{(x_i^1-x_j^1)^2+(x_i^2-x_j^2)^2},计算各点之间的距离,并找到每个点的最近邻距离d_{i}

        假设r=0.3,我们统计满足d_{i}\leqslant 0.3的点的数量和比例。

        如果3个点的最近邻距离 ≤0.3,则\hat{G}(0.3)=\frac35=0.6

计算理论分布函数G_{CSR}(r)

        假设区域面积 A=1平方单位,点总数N=5,则\lambda=\frac51=5

        G_{CSR}(0.3)=1-\exp(-5\cdot\pi\cdot(0.3)^2)=1-\exp(-1.413)\approx0.756

        这样,你可以比较经验分布函数 \hat{G}(0.3)=0.6 和理论分布函数 G_{CSR}(0.3)\approx0.756,看它们是否接近。

单样本Kolmogorov-Smirnov检验(K-S检验)

        上面内容展示了实际数据点的位置、如何计算点之间的距离、如何得到经验分布函数\hat{G}(r),以及如何计算理论上的完全随机分布的分布函数 G_{CSR}(r)。然后,它说明了对于r=0.3,经验分布函数和理论分布函数之间的差值,这个差值 |\hat{G}(0.3)-G_{CSR}(0.3)| 可以用作K-S检验的统计量D。最后一步将是比较这个统计量临界值来判定是否拒绝原假设。

        在Kolmogorov-Smirnov检验中,临界值取决于样本大小和选择的显著性水平(通常是0.05或0.01)。临界值可以通过查阅Kolmogorov-Smirnov检验的临界值表获得,或者通过计算机软件计算得到。通常,统计软件包(如R、Python的SciPy库等)都有现成的Kolmogorov-Smirnov检验的实现,可以直接输出检验统计量和对应的P值,无需手动查表。

2. Voronoi 图法

通过构建 Voronoi 图,将空间划分为多个 Voronoi 多边形,每个多边形内只包含一个样本点,且多边形内任意点到该样本点的距离小于到其他样本点的距离。通过分析 Voronoi 多边形的形状和大小分布,评估点分布的均匀性。

        目前,我们有两个特定的点。假象一下,如果我们以这两个点作为圆心,向外扩散形成圆周,随着半径的增加,这两个扩散的圆将在某个时刻相交,形成一条交线。

我们给它再加几个点:

优点:能够同时考虑点之间的距离关系和局部空间结构,对点密度变化较为鲁棒。
缺点:计算 Voronoi 图的复杂度较高,对边界效应敏感

1. 构建 Voronoi 图

        首先,我们需要给定一组点集{x_i}\mathbb{R}^d空间中。Voronoi图可以定义如下:

        对于每个点{x_i},其Voronoi多边形 V_i 定义为集合:

V_i=\{x\in\mathbb{R}^d:d(x,x_i)\leq d(x,x_j),\forall j\neq i\}

其中 d(x, y)表示点 x 和点y之间的距离(通常是欧几里得距离)。

2. 计算每个 Voronoi 多边形的面积和周长

        面积  A_i 和 周长 P_i 可以通过计算几何库来获得。在Python中,可以使用scipy.spatialVoronoi 类和shapely库来计算。

3. 分析面积和周长的分布

        计算面积和周长的均值(\mathbb{E}[A_i]\mathbb{E}[P_i])以及方差(\text{Var}(A_i)\text{Var}(P_i))。

        计算变异系数:

CV(A)=\frac{\sqrt{\mathrm{Var}(A_i)}}{\mathbb{E}[A_i]}

CV(P)=\frac{\sqrt{\mathrm{Var}(P_i)}}{\mathbb{E}[P_i]} 

        变异系数越小,表明Voronoi多边形的大小和形状分布越均匀,进而说明点分布越均匀。

优点:

  1. 考虑了点之间的空间关系:Voronoi 图将空间划分为多个 Voronoi 多边形,每个多边形内只包含一个样本点,且多边形内任意点到该样本点的距离小于到其他样本点的距离。这种划分方式充分考虑了点之间的空间关系,能够反映点分布的局部特征。

  2. 对点密度变化较为鲁棒:Voronoi 图法通过分析 Voronoi 多边形的面积和周长分布来评估点分布的均匀性。当点密度发生变化时,Voronoi 多边形的面积和周长也会相应调整,从而在一定程度上适应点密度的变化。这使得 Voronoi 图法对点密度的变化较为鲁棒。

  3. 提供了多个指标衡量均匀性:Voronoi 图法可以计算多个指标来衡量点分布的均匀性,如 Voronoi 多边形面积的变异系数、周长的变异系数等。这些指标从不同角度反映了点分布的均匀性,提供了更全面的评估信息。

  4. 直观易懂:Voronoi 图将空间划分为多个多边形,每个多边形对应一个样本点,这种划分方式直观易懂,便于理解点分布的空间结构。Voronoi 图也可以直观地展示点分布的不均匀性,如异常大或异常小的 Voronoi 多边形可能表示局部点密度的异常。

缺点:

  1. 计算复杂度较高:构建 Voronoi 图的时间复杂度为 $O(n \log n)$,其中 $n$ 为点的数量。对于大规模数据集,计算 Voronoi 图可能非常耗时。此外,计算 Voronoi 多边形的面积和周长也需要额外的计算开销。

  2. 对边界效应敏感:Voronoi 图法对边界点的处理较为敏感。对于位于边界的点,其对应的 Voronoi 多边形可能会延伸到边界之外,导致面积和周长的计算不准确。处理边界效应需要特殊的技巧,如引入虚拟点或对边界多边形进行修正。

  3. 评估结果依赖于点密度:Voronoi 图法的评估结果在一定程度上依赖于点的密度。在点密度较低的区域,Voronoi 多边形的面积和周长可能会较大,而在点密度较高的区域,Voronoi 多边形的面积和周长可能会较小。这种差异可能影响均匀性的评估结果。

  4. 局限于欧式空间:Voronoi 图法通常适用于欧式空间,即数据点之间的距离可以用欧几里得距离来度量。对于非欧式空间或者具有复杂度量的空间,构建 Voronoi 图可能变得困难或者不适用。

  5. 缺乏统一的显著性检验:与其他一些均匀性评估方法不同,Voronoi 图法缺乏统一的显著性检验方法。评估结果的显著性通常需要通过经验阈值或者与其他分布的比较来判断,这可能带来一定的主观性。

        尽管 Voronoi 图法存在一些局限性,但它仍然是一种有效的均匀性评估方法,特别适用于分析点分布的局部特征和空间结构。在实际应用中,可以结合数据的特点和分析目的,权衡 Voronoi 图法的优缺点,并与其他均匀性评估方法进行互补和对比,以获得更全面可靠的结果。同时,也可以考虑一些改进措施,如采用增量算法构建 Voronoi 图、引入加权 Voronoi 图等,以提高计算效率和适应性。

示例1:均匀分布的点

        假设我们在一个平面区域上随机均匀地放置了100个点。这些点没有聚集在特定的区域,而是均匀分布在整个平面上。生成这些点后,我们绘制了对应的Voronoi图。

在均匀分布的情况下,我们通常会观察到以下特点:

        Voronoi多边形的形状和大小相似:因为点是均匀分布的,所以每个点周围的空间大致相同,导致大多数Voronoi多边形在面积和周长上差异不大。

        较低的变异系数:面积和周长的变异系数(CV)较低,这表示多边形的大小和形状比较均匀。

示例2:聚集(集群)分布的点

        假设我们在相同的平面区域上放置了100个点,但这次我们将它们分为几个小群集。每个群集中的点非常接近,而群集之间的距离较远。

在聚集分布的情况下,我们通常会观察到以下特点:

        Voronoi多边形的形状和大小差异显著:位于群集中心的点通常拥有较小的Voronoi多边形,因为周围点的密度较高;而位于群集间的点则可能有较大的Voronoi多边形,因为周围较少点。

        较高的变异系数:面积和周长的变异系数(CV)较高,这表明多边形的大小和形状差异显著,指示出点的分布不均匀。

        通过比较两种情况下Voronoi图的特征,我们可以获得关于点分布均匀性的直观理解。在实际应用中,这种方法可以帮助我们了解数据点在空间上的分布特征,从而对数据集进行初步的空间分析。例如,在生态学研究中,科学家可能会利用这种方法来评估物种在环境中的分布是否均匀。在城市规划中,这种分析可以帮助规划者了解设施(如公园、商店等)的空间分布是否满足居民的需求。

附录

A.  二维空间理论分布函数过程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3030135.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

复习了好久的软考中项,现在上半年不考了,该怎么办?

如果有更多学习时间的话,可以考虑报考高级职称,因为高级和中级职称的很多知识点有重叠,只需要再复习一下相关论文就可以了。 从2024年下半年开始,集成考试将采用最新版教材和大纲,与高级职称的新版教材内容相似度很高…

深入浅出JavaScript继承机制:解密原型、原型链与面向对象实战攻略

🔥 个人主页:空白诗 文章目录 🔥 引言🧱 原型基础⛓️ 原型链的形成🔄 修改原型的影响🏁 原型链的尽头为什么null标志着结束?实际意义 🌐 🔄 继承的实现方式1. 原型链继承…

海外仓管理系统:为什么推荐基于云的SaaS模式,而不是本地部署

海外仓管理系统 是 海外仓 企业 使用 最多 的 软件 , 根据 公开 的 行业 数据 显示 , 几乎 8 4 % 的 海外仓 企业 都会 通过 海外仓 管理系统 来 管理 仓储 。 然而,市场上存在很多不同类型的海外仓管理系统可以选择,归结起来有两…

【Web】2023浙江大学生省赛初赛 secObj 题解

目录 step 0 step 1 step 2 step 3 题目本身是不难,简单复健一下 step 0 pom依赖就是spring 反序列化入口在./admin/user/readObj 输入流做了黑名单的过滤,TemplatesImpl不能直接打 可以jackson打SignedObject二次反序列化绕过 具体原理看下面这…

哪里有视频素材可以用?全视频素材都在哪里找?

在这个数字化快速发展的世界中,高清和4K视频素材对于提升视觉故事的品质至关重要。以下是一系列全球知名的视频素材网站,它们提供的高质量素材能够满足您从商业广告到个人项目的所有需求。 1. 蛙学府 以其庞大的创意资源库著称,订阅者可以无…

1.基于python的单细胞数据预处理-归一化

目录 归一化的引入移位对数皮尔森近似残差两个归一化方法的总结 参考: [1] https://github.com/Starlitnightly/single_cell_tutorial [2] https://github.com/theislab/single-cell-best-practices 归一化的引入 在质量控制中,已经从数据集删除了低质…

百面算法工程师 | 传统图像处理——OpenCV

本文给大家带来的百面算法工程师是传统图像处理的面试总结,文章内总结了常见的提问问题,旨在为广大学子模拟出更贴合实际的面试问答场景。在这篇文章中,我们将介绍一些集几何变换和图像平滑处理,并提供参考的回答及其理论基础&…

JAVA 双亲委派之一

JAVA 双亲委派之一 JVM类加载流程 java语言系统内置了众多类加载器,从一定程度上讲,只存在两种不同的类加载器:一种是启动类加载器,此类加载由C实现,是JVM的一部分;另一种就是所有其他的类加载器&#xf…

QT作业5

1、聊天室 服务器端 //头文件 #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QTcpServer> #include <QTcpSocket> #include <QList> #include <QListWidget> #include <QMessageBox> #include <QDebug> #includ…

第十五届蓝桥杯python B组省赛

前言&#xff1a; 这是我第一次参加蓝桥杯&#xff0c;成绩并不理想&#xff0c;我反思了一下午&#xff0c;我的问题主要是知识点学不透&#xff0c;题目做的太少&#xff0c;而且学习的时候少数时间不专心&#xff0c;但是&#xff0c;我能感觉到我的学习能力并不弱&#xf…

用云手机打造海外社媒矩阵

在全球经济一体化的大背景下&#xff0c;中国出海企业及B2B外贸公司正将海外社交媒体营销作为重要的市场拓展策略。为更好地触及不同受众群体&#xff0c;构建跨平台的社媒矩阵已成为企业营销的关键步骤。本文将探讨如何利用云手机技术&#xff0c;高效管理并运营多个海外社交媒…

CSS-页面导航栏实现-每文一言(过有意义的生活,做最好的自己)

&#x1f390;每文一言 过有意义的生活,做最好的自己 目录 &#x1f390;每文一言 &#x1f6d2;盒子模型 &#x1f453;外间距 (margin) &#x1f97c;边框 &#x1f45c;内边距 切换盒子模型计算方案&#xff1a; &#x1f3a2; 浮动布局 浮动特点 &#x1f3c6;导航…

Adobe Photoshop PS 25.6.0 解锁版 (最流行的图像设计软件)

前言 Adobe Photoshop 是一款专业强大的图片处理工具&#xff0c;从照片编辑和合成到数字绘画、动画和图形设计&#xff0c;一流的图像处理和图形设计应用程序是几乎每个创意项目的核心所在。利用 Photoshop 在桌面上的强大功能&#xff0c;您可以在灵感来袭时随时随地进行创作…

推荐3个实用的github开源项目

目录&#xff1a; 1、AI生成高清短视频 2、媒体平台爬虫 3、文本转语音项目

C++对象的拷贝构造函数

如果一个构造函数的第一个参数是类本身的引用,且没有其它参数(或者其它的参数都有默认值),则该构造函数为拷贝构造函数。 拷贝(复制)构造函数:利用同类对象构造一个新的对象 ●1.函数名和类同名 (构造函数) ●2.没有返回值 (构造函数) ●3.第一个参数必…

5.12母亲节营销攻略:TikTok助力出海品牌赢得用户心

母亲节&#xff0c;作为一个全球性的节日&#xff0c;不仅是表达对母亲的感激之情的时刻&#xff0c;也是品牌们展示创意、赢得用户心的黄金机会。2024母亲节将至&#xff0c;如何利用TikTok在母亲节这一特殊时刻进行营销&#xff0c;赢得用户的心&#xff0c;成为出海品牌必须…

Oracle count的优化-避免全表扫描

Oracle count的优化-避免全表扫描 select count(*) from t1; 这句话比较简单&#xff0c;但很有玄机&#xff01;对这句话运行的理解&#xff0c;反映了你对数据库的理解深度&#xff01; 建立实验的大表他t1 SQL> conn scott/tiger 已连接。 SQL> drop table t1 purge…

会话劫持攻击就在我们身边,我们要如何防范

会话劫持攻击&#xff08;Session Hijacking&#xff09;是一种网络攻击方式&#xff0c;攻击者通过某种手段获取到用户的会话标识&#xff08;Session ID&#xff09;&#xff0c;然后使用这个会话标识冒充合法用户进行恶意操作。这种攻击方式允许攻击者以合法用户的身份访问受…

【Linux】Linux——Centos7安装Nginx

不需要安装包 1.安装依赖 #查看 C 环境是否安装gcc -v #查看 zlib 是否安装cat /usr/lib64/pkgconfig/zlib.pc #查看 pcre 是否安装pcre-config --version 2.安装C #安装C yum install gcc-c 3.安装pcre yum install -y pcre pcre-devel 4.安装zlib #安装 yum install -y zlib…

5.11学习记录

20长安杯部分 检材 1 的操作系统版本 CentOS Linux 7.6.1810 (Core) 检材 1 中&#xff0c;操作系统的内核版本是 3.10.0-957.el7.x86_64 检材 1 中磁盘包含一个 LVM 逻辑卷&#xff0c;该 LVM 开始的逻辑区块地址&#xff08;LBA&#xff09;是 2099200 物理卷&#xff…