SQL,python,knime将数据混合的文字数字拆出来,合并计算(学习笔记)

将下面将数据混合的文字数字拆出来,合并计算
在这里插入图片描述

一、SQL解决:

---创建表插入数据
CREATE TABLE original_data (id INT AUTO_INCREMENT PRIMARY KEY,city VARCHAR(255),value DECIMAL(10, 1)
);INSERT INTO original_data (city, value) VALUES
('上海0.5, 浙江0.5', NULL),
('北京0.5, 天津0.5', NULL),
('天津', 1.0),
('北京', 1.0),
('上海', 2.0),
('浙江', 3.0);
-- 使用WITH语句定义了一个名为split_values的公用表表达式(CTE)
WITH split_values AS (-- 选择city字段,使用SUBSTRING_INDEX函数分割字符串,获取第一个逗号前的值,并截取'0.5'之前的部分SELECTTRIM(SUBSTRING_INDEX(SUBSTRING_INDEX(city, ',', 1), '0.5', 1)) AS city, -- 去除可能的前后空白,并截取第一个城市名称0.5 AS value -- 硬编码分割后每个部分的值FROM original_dataWHERE city LIKE '%,%' -- 只选择city字段包含逗号的记录UNION ALL-- 选择city字段,使用SUBSTRING_INDEX函数分割字符串,获取最后一个逗号后的值,并截取'0.5'之前的部分SELECTTRIM(SUBSTRING_INDEX(SUBSTRING_INDEX(city, ',', -1), '0.5', 1)) AS city, -- 去除可能的前后空白,并截取最后一个城市名称0.5 AS valueFROM original_dataWHERE city LIKE '%,%'UNION ALL-- 选择不包含逗号的city字段,即没有被分割的完整值SELECTcity,valueFROM original_dataWHERE city NOT LIKE '%,%' -- 选择city字段不包含逗号的记录
),
-- 定义另一个名为filtered_values的CTE,用于过滤掉空或NULL的城市名称
filtered_values AS (SELECTcity,valueFROMsplit_valuesWHEREcity IS NOT NULL AND city != '' -- 确保城市名称不为空
),
-- 定义第三个CTE,aggregated_values,用于对过滤后的城市名称进行分组并求和
aggregated_values AS (SELECTcity,SUM(value) AS total_value -- 对每个城市的所有value值进行求和FROMfiltered_valuesGROUP BYcity
)
-- 最终选择语句,从aggregated_values CTE中选择城市和它们的总价值
SELECTcity,total_value
FROMaggregated_values
ORDER BYcity; -- 按城市名称排序结果

在这里插入图片描述

二、python解决:

1、确保你已经安装了Python和pip。打开命令行或终端,然后输入以下命令:

pip install pymysql

2、建立test.py,里面内容如下:

import pymysql
import pandas as pd# Connect to the MySQL database
connection = pymysql.connect(host='127.0.0.1',user='root',password='root',database='test'
)# 读取original_data表数据
query = 'SELECT * FROM original_data'
df = pd.read_sql(query, connection)
print("################展示数据库数据########################")
print(df)
# 关闭数据库连接
connection.close()# 初始化一个空的数据框来存储处理后的数据
result = pd.DataFrame(columns=['city', 'value'])# 处理每一行数据
for index, row in df.iterrows():if pd.isnull(row['value']):# 如果 value 列为空,用 str.extract 提取城市和对应的值parts = row['city'].split(', ')for part in parts:# 使用正则表达式提取城市和对应的值import rematch = re.match(r'(\D+)([0-9.]+)', part)if match:city, value = match.groups()result = result.append({'city': city.strip(), 'value': float(value)}, ignore_index=True)else:# 如果 value 列不为空,直接使用result = result.append({'city': row['city'], 'value': row['value']}, ignore_index=True)# 按城市分组并求和
result = result.groupby('city').sum().reset_index()# 重命名列
result.columns = ['city', 'total_value']
print("################最终显示结果########################")
print(result)

在这里插入图片描述
最后显示结果
在这里插入图片描述

三、knime解法:

#正在研究中…
后面更新

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3245996.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

十一、Java多线程(模块16-17)

十一、Java多线程 day08-线程安全,死锁,状态,通讯,线程池今日目标1 线程安全1.1 线程安全产生的原因注意 : 以上代码是有问题 , 接下来继续改进通过上述代码的执行结果 , 发现了出现了负号票 , 和相同的票 , 数据有问题 1.2 线程的同步1.3 同步代码块1.4 同步方法1.5 Lock锁 2 …

电脑QQ录屏,2个方法轻松搞定电脑录屏

“电脑QQ也有录屏功能吗?我使用电脑QQ多年居然不知道QQ还有录屏功能。电脑QQ录屏功能怎么使用啊?有没有会的小伙伴可以教教我?先谢谢大家啦!” QQ作为陪伴我们多年的“老朋友”,它不仅是我们与朋友家人沟通的重要桥梁…

揭秘OpenCV:探寻视觉世界的轮廓之谜

揭秘OpenCV:探寻视觉世界的轮廓之谜 1. 介绍1.1 什么是轮廓检测?1.2 OpenCV 中的轮廓检测应用 2. 准备工作2.1 安装 OpenCVWindows 用户:macOS 用户:Linux 用户: 2.2 加载图像2.3 图像处理(转换图像颜色空间)2.4 表格描述 3. 轮廓…

对某根域的一次渗透测试

前言 两个月之前的一个渗透测试项目是基于某网站根域进行渗透测试,发现该项目其实挺好搞的,就纯粹的没有任何防御措施与安全意识所以该项目完成的挺快,但是并没有完成的很好,因为有好几处文件上传没有绕过(虽然从一个…

前端基础之Flex布局

【图书推荐】《HTML5CSS3 Web前端开发与实例教程(微课视频版)》-CSDN博客 Flex布局概述 Flex布局全称为Flexible Box布局模式,是CSS3规范中一项革命性的强大布局技术。它以“弹性”为核心理念,旨在提供一种更为灵活且功能丰富的…

论文复现丨物流中心选址问题:蜘蛛猴算法求解

路径优化系列文章: 1、路径优化历史文章2、物流中心选址问题论文复现丨改进蜘蛛猴算法求解 物流中心选址问题 一般物流中心选址问题是指:在有限的用户(即需求点)中找出一定数量的地点建立配送中心,实现从物流中心到用户之间的配送&#xf…

如何追查一个packet在linux 系统哪里丢失

要想追一个包在系统哪里丢失了, 就要了解 一个应用层的包在送出时 要经历那些 检查点 和被丢掉的点。 1. 在传输层,如果是 tcp 包 会有contrack 的 buf 的限制 可能会导致 packets 的丢失。 > 检查办法:查看dmesg日志有报错:k…

类和对象——对象的初始化和清理

本文为观看 C黑马程序员 的学习笔记。 构造函数和析构函数 构造函数:进行初始化操作 析构函数:进行清理操作 构造函数 语法:类名(){} 构造函数,没有返回值,也不写void函数名称与类名相同构造…

Python 实验五 高级数据结构

一、实验目的 (1)掌握序列的基本操作 (2)掌握集合、字典的基本操作 二、实验环境 联网计算机一台/每人,内装Windows 7以上操作系统和安装Python 3.7集成开发环境IDLE。 三、实验内容 Sy5-1 列表实现。编写一个…

CentOS 7 网络配置

如想了解请查看 虚拟机安装CentOS7 第一步:查看虚拟机网络编辑器、查看NAT设置 (子网ID,网关IP) 第二步:配置VMnet8 IP与DNS 注意事项:子网掩码与默认网关与 第一步 保持一致 第三步:网络配置…

解决一下git clone失败的问题

1).不开梯子,我们用https克隆 git clone https://github.com 报错: Failed to connect to github.com port 443 after 2091 ms: Couldnt connect to server 解决办法: 开梯子,然后# 注意修改成自己的IP和端口号 gi…

中伟视界:矿山智能化——未戴自救器检测AI算法实时检测井下作业人员自救器佩戴情况

矿山作业环境复杂且危险,确保作业人员佩戴必要的安全设备是保障安全生产的重要措施之一。自救器是井下作业人员必须佩戴的重要防护设备,用于在突发危险时保护生命安全。未戴自救器检测AI算法通过先进的图像识别和人工智能技术,实时监控井下人…

STM32第二十一课:FreeRTOS事件组软件定时器

目录 一、事件组1.事件组创建2.事件组置位3.事件组等待 二、软件定时器1.软件定时器创建2.软件定时器执行3.例程代码 一、事件组 本质上是任务同步,但比二值信号量优秀的是可以一对多。 我的理解:事件组就是标志位的集合,将多个标志位放到一个…

昇思25天学习打卡营第23天|DCGAN生成漫画头像

今天是参加昇思25天学习打卡营的第23天,今天打卡的课程是“DCGAN生成漫画头像”,这里做一个简单的分享。 1.简介 DCGAN(深度卷积对抗生成网络,Deep Convolutional Generative Adversarial Networks)是GAN的直接扩展。…

ArkUI状态管理

State装饰器 在声明式UI中,是以状态驱动试图更新 状态 (State) 指驱动视图更新的数据(被装饰器标记的变量) 试图(View) 基于UI描述渲染得到用户界面 说明 1.State装饰器标记的变量必须初始化,不能为空 2.State支持Object、classstring、number、b…

kettle从入门到精通 第七十六课 ETL之kettle kettle连接hive教程

1、群里有小伙伴询问kettle连接hive的demo,今天抽点时间整理下。其实kettle连接hive和连接mysql数据库也是一样的。 1)kettle中的lib目录下放hive驱动jar,这里我使用的是kyuubi-hive-jdbc-shaded-1.9.0.jar。 2)设置hive连接参数…

Ubuntu部署K8S集群-图文并茂(超详细)

Ubuntu部署K8S集群 1. 模版机系统环境准备1.1 安装Ubuntu1.2 设置静态IP地址 2. 主机准备2.1 使用模板机创建主机2.2 主机配置2.2.1 修改静态IP2.2.2 修改主机名2.2.3 主机名-IP地址解析2.2.4 时间同步2.2.5 内核转发、网桥过滤配置2.2.6 安装ipset和ipvsadm2.2.7 关闭SWAP分区…

pnpm install安装失败

ERR_PNPM_META_FETCH_FAIL GET https://registry.npmjs.org/commitlint%2Fcli: request to https://registry.npmjs.org/commitlint%2Fcli failed, reason: connect ETIMEDOUT 2606:4700::6810:123:443 1. 检查网络连接 确保你的网络连接正常并且没有被防火墙或代理服务器阻止…

【docker 部署springboot项目】

一、docker安装 1.检查Linux内核版本高于3.10才可安装 uname -r 2. 卸载旧版本 sudo yum remove docker docker-client docker-client-latest docker-common docker-latest docker-latest-logrotate docker-logrotate docker-engine 3. 使用docker仓库进行安装 安装所需的软…

java代理模式之JDK动态代理

目录 什么是动态代理? 动态代理的两种方式? jdk动态代理; cglib静态代理 为什么需要代理? 1、原有功能增强 2、降低耦合 JDK动态代理代码实例: 实体类: 持久层接口实现类(使用jdbc进行…