2018-2022 年份微博签到数据集

前阵子接到一个实验室老师的需求,采集五年前(2024-5=2019)过年前后的北京微博签到数据。

前两年采集的深圳签到数据是 2022 年是当年的尚可,这次虽然时间跨度只有两个月,但是由于时间太过久远,但是颇费了一番心力,还好最终老师只需要每个月 10000 条左右,我赶紧停止了集群的采集,一看代理池马上欠费了。

在这里插入图片描述

最终采集的数据字段包括经纬度、签到地点、微博链接、博主链接、内容、图片链接、发布时间、转评赞数等数十个字段,基本满足分析要求。

经纬度坐标应该不是 WGS84,验证应该是 GCJ-02 坐标系,GCJ-02 整体相对于 GPS 坐标系应该有非常小的非线性偏移。 GCJ-02 可以转化成 WGS84 坐标系(相关转化的算法网上有很多了,这里就不再赘述了,可自行搜索)。

这里插一句,如果要使用地理编码相关的 API,最好使用高德地图,因为其实微博(以前是)和高德地图都是阿里系的公司,高德地图偏爱 GCJ02,微博就使用的高德地图相关的。

微博签到数据的采集,时间越久越难采集,看到网上有很多分享 2014 年全国微博签到数据的,我看了下其实那个只是 poi 数据,而且绝大部分的 poi 被重置了,poi 链接打不开,查无此微博。

这里插播一句,借用了朋友的服务器集群,可以采集大量历史微博签到数据,时间段可以是 2016、2017、2018、2019、2020、2021、2022等,最好是 2018 年以后的,因为历史微博签到数据回溯采集非常困难,爬大量数据(对于 2018 2019 年左右,几千条每月就是大量了)需要大量账号和大量代理 ip,固定成本和时间都消耗不少,所以按需采集,可以采集最近 10 年北京、上海、广州、深圳、苏州、杭州等全国任意城市,或者新加坡、巴黎等海外任意城市的签到微博数据,或者任意景点(景点可能是一个或者多个 poi)的微博签到数据,如果有需求,可以带上具体任务+时间段来戳,有空(比较大的任务最好是假期)就做,非咸鱼非倒卖,一手实时采集,有一定成本,相互理解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3224868.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Java面试八股之MySQL中的MVCC是什么,作用是什么?

MySQL中的MVCC是什么,作用是什么? MySQL中的MVCC(Multiversion Concurrency Control,多版本并发控制)是一种并发控制机制,用于提高数据库的并发性能并确保数据的一致性,特别是在高并发读写场景…

学习笔记——动态路由——OSPF(特殊区域)

十、OSPF特殊区域 1、技术背景 早期路由器靠CPU计算转发,由于硬件技术限制问题,因此资源不是特别充足,因此是要节省资源使用,规划是非常必要的。 OSPF路由器需要同时维护域内路由、域间路由、外部路由信息数据库。当网络规模不…

Collection 和 Collections 的区别与用法

Collection 和 Collections 的区别与用法 1、Collection 接口1.1 主要特点1.2 常见方法 2、 Collections 工具类2.1 主要特点2.2 常见方法 3、示例代码3.1 使用 Collection 接口3.2 使用 Collections 工具类 4、总结 💖The Begin💖点点关注,收…

Labview_压缩文件

调用顺序 源文件 生成后的文件 1.新建ZIP文件 生成ZIP文件的路径:为最终生成ZIP文件的路径,需要提供ZIP文件的名称和类型 2.添加文件到压缩文件 源文件路径:为需要压缩的文件路径,非文件夹路径 生成ZIP文件时的路径&#x…

Rust: 高性能序列化库Fury PK bincode

在序列化库中,传统的有Json,XML,性能好的有thrift,protobuf等。 对于二进制库来讲,据Fury官网的介绍,Fury性能要远远好于protobuf,且不象protobuf还需要定义IDL(即写.proto文件),非常轻便&#…

HTML语言常见标签

语法 HEAD部分的HTML标签 1 标题标签 <title>标题内容</title> 2 段落标签 <meta charset"utf-8"/> BODY部分的HTML标签 1标题标签&#xff08;独占一行&#xff09;<h1>标题内容</h1> 2段落标签&#xff08;独占一行&#xff09;…

禁用华为小米?微软中国免费送iPhone15

微软中国将禁用华为和小米手机&#xff0c;要求员工必须使用iPhone。如果还没有iPhone&#xff0c;公司直接免费送你全新的iPhone 15&#xff01; 、 这几天在微软热度最高的话题就是这个免费发iPhone&#xff0c;很多员工&#xff0c;收到公司的通知。因为&#xff0c;登录公司…

使用Layui实现表格数据的分页功能

最近在用Layui做表格数据的展示时想把所有的数据进行分页展示&#xff0c;于是在网上找了一个模板 <script type"text/javascript" > layui.use([table,layer,form,laypage], function(){var table layui.table,layer layui.layer,form layui.form,laypage…

【ROS2】中级-编写动作服务器和客户端(C++)

目标&#xff1a;用 C实现一个动作服务器和客户端。 教程级别&#xff1a;中级 时间&#xff1a;15 分钟 目录 背景 先决条件 任务 1. 创建 custom_action_cpp 包2. 编写动作服务器3. 编写动作客户端 摘要 相关内容 背景 动作是 ROS 中异步通信的一种形式。动作客户端向动作服务…

LeetCode 203.移除链表元素 C做法

LeetCode 203.移除链表元素 C做法 思路&#xff1a; ​ 由于是单链表&#xff0c;所以我们可以创建一个新的头结点newhead&#xff0c;把不是val的结点尾插在newhead中&#xff0c;而等于val的结点给释放&#xff0c;最后返回newhead。防止时间复杂度过高&#xff0c;我们再创…

数据仓库哈哈

数据仓库 基本概念数据库&#xff08;database&#xff09;和数据仓库&#xff08;Data Warehouse&#xff09;的异同 整体架构分层架构方法论ER模型&#xff08;建模理论&#xff09;维度模型 何为分层第一层&#xff1a;数据源&#xff08;ODS ER模型&#xff09;设计要点日志…

代理详解之静态代理、动态代理、SpringAOP实现

1、代理介绍 代理是指一个对象A通过持有另一个对象B&#xff0c;可以具有B同样的行为的模式。为了对外开放协议&#xff0c;B往往实现了一个接口&#xff0c;A也会去实现接口。但是B是“真正”实现类&#xff0c;A则比较“虚”&#xff0c;他借用了B的方法去实现接口的方法。A…

大小端详解

引例 我们知道整形(int)是4个字节&#xff0c;例如随便举个例子&#xff1a;0x01020304&#xff0c;它一共占了四个地址位&#xff0c;01,02,03,04分别占了一个字节&#xff08;一个字节就对应了一个地址&#xff09;。 那么就会有个问题&#xff1a;我们的01到底是存储在高地…

es是如何处理索引数据的变动的?

1 概述 es是如何处理索引数据的变动的&#xff1f; 或者说索引数据变动时&#xff0c;es会执行哪些操作&#xff1f; refresh、fsync、merge 和 flush 操作有何作用&#xff1f; es是如何确保即使es发生宕机数据也不丢失的&#xff1f; 在回答上述问题前&#xff0c;可以先…

在vue3中,手写父子关联,勾选子级父级关联,取消只取消当前子级,父节点不动

树形控件选择子级勾选父级&#xff0c;以及所有子级&#xff0c; 取消勾选仅取消子级 在项目中&#xff0c;可能会遇到这种场景&#xff0c;比如权限配置的时候&#xff0c;页面权限和菜单权限以tree的形式来配置&#xff0c;而且不用半选&#xff0c;菜单在页面的下面&#xf…

Mosh|初学者 SQL 教程

sql文件链接&#xff1a;链接: https://pan.baidu.com/s/1okjsgssdxMkfKf8FEos7DA?pwdf9a9 提取码: f9a9 在mysql workbench 导入 create_databases.sql 文件&#xff0c;下面是运行成功的界面 快捷方式&#xff1a;全部运行可以同时按下controlcommandenter &#xff0c;或者…

WindowsMac共享文件夹设置

共享文件夹设置 共享文件夹设置Windows系统设置步骤一&#xff1a;设置共享文件夹步骤二: 访问共享文件夹 Mac系统中设置共享文件夹步骤一&#xff1a;设置共享文件夹步骤二&#xff1a;访问共享文件夹 小贴士结论 共享文件夹设置 有时需要在多台电脑之间共享文件夹&#xff0…

如何切换手机的ip地址

在数字时代的浪潮中&#xff0c;智能手机已成为我们日常生活中不可或缺的一部分。然而&#xff0c;随着网络安全问题的日益凸显&#xff0c;保护个人隐私和数据安全变得尤为重要。其中&#xff0c;IP地址作为网络身份的重要标识&#xff0c;其安全性与隐私性备受关注。本文将详…

【深度学习(42)】通过vscode使用anaconda的python环境

按ctrlshiftp&#xff0c;选择Python:Select Interpreter 选择anaconda下的python虚拟环境

物联网实战:STM32+ESP8266温湿度数据采集上传Linux服务器与数据库可视化(附代码示例)

摘要: 本文将手把手教你搭建一个完整的物联网数据监控平台&#xff0c;使用STM32采集温湿度数据&#xff0c;通过ESP8266 WiFi模块上传至Linux服务器&#xff0c;并利用Python脚本将数据存储到MySQL数据库&#xff0c;最后实现每日平均值的计算和可视化展示。 关键词: STM32, …