一个小而实用的 Python 包 pangu,实现在中文和半宽字符(字母、数字和符号)之间自动插入空格

🍉 CSDN 叶庭云https://yetingyun.blog.csdn.net/


一个小巧的库,可以避免自己重新开发功能。利用 Python 包 pangu,可以轻松实现在 CJK(中文、日文、韩文)和半宽字符(字母、数字和符号)之间自动插入空格。

在撰写中文技术博客时,我经常遇到一个问题:在中英文混排时,需要在英文字母、数字和符号两侧添加空格,以使排版更加美观。为了提高效率,让自己摆脱枯燥且容易出错的任务,我希望编写一个脚本来自动化完成这项工作。然而,在 GitHub 检索时,我发现 pangu 已经是一个构建良好的包,可以满足我的需求。

Github 地址:https://github.com/vinta/pangu.py

在这里插入图片描述

介绍 Python 包 pangu:

  • pangu 是一个专为中文文本处理设计的 Python 库,旨在自动化地在中文文本和半宽字符(如字母、数字和符号)之间添加适当的空格,确保文本的排版美观且易读。
  • pangu 不仅能够提高中文内容创作者的工作效率,还能节省大量手工处理排版的时间,特别是在涉及大量文章编辑的场合,效果尤为显著。
  • 这个小巧的库支持大部分 Python3 版本,并且拥有灵活的接口,可以轻松集成到现有的 Python 项目中。
  • 这个库取名为 pangu 的原因:可能寓意用来分隔混合的中英文字符?

在开始使用 pangu 之前,你需要先通过 pip 安装它。打开终端或命令提示符,输入以下命令:

pip install -U pangu

安装完成后,你就可以在 Python 代码中导入 pangu 并使用它。一个示例如下所示:

import panguoriginal_text = f"""Datawhale是一个专注于Data Science与AI领域的开源组织,汇集了众多领域院校和知名企业的优秀学习者,\
聚合了一群有开源精神和探索精神的团队成员。
双语字幕视频:吴恩达x OpenAI的Prompt Engineering课程专业翻译版"""
print(original_text)# 使用 pangu 处理文本
print("-" * 100)
processed_text = pangu.spacing(original_text)
print(processed_text)

在这里插入图片描述

最常见的使用场景是对混合的中英文文本添加合适的空格。pangu 提供了一个非常简单的函数 pangu.spacing 来实现这一点。执行上述代码,你会立刻得到带有正确空格的文本。pangu 自动在中文字符和英文字符之间加上了空格,从而改善了文本的可读性。

(PS. 三引号是 Python 中的一个强大工具,可以用于多种用途。无论是创建多行字符串、注释、模板字符串还是文档模板,它都能让我们的代码更加灵活和易读。👍)

处理文件

如果你需要处理整个文件,pangu 也有相应的函数 pangu.spacing_file。你可以这样使用它:

import panguprocessed_text = pangu.spacing_file('input.md')with open('output.md', 'w') as f:f.write(processed_text)

假设 input.md 文件中的内容是没有正确添加空格的中英文混排文本。spacing_file 函数将处理该文件,并将格式化后的文本保存到 output.md 中。

CLI 使用说明

pangu 也可以作为命令行(command-line)工具使用。在安装了 pangu 之后,你可以直接在终端中运行以下命令来处理文件:

pangu -f input.mdpangu -t "Datawhale是一个专注于Data Science与AI领域的开源组织。。。"

PS. 传入文本文件时,注意文件路径得设置正确。

总结:在中英混排的文本编辑过程中,pangu 库的作用不可小觑。它通过自动在中文字符和英文字符之间添加空格的简单操作,大大提升了文档的整体可读性和美观度。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2780254.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

【开源】SpringBoot框架开发个人健康管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 健康档案模块2.2 体检档案模块2.3 健康咨询模块 三、系统展示四、核心代码4.1 查询健康档案4.2 新增健康档案4.3 查询体检档案4.4 新增体检档案4.5 新增健康咨询 五、免责说明 一、摘要 1.1 项目介绍 基于JAVAVueSpri…

RestFul的认识

前言 RESTful 是 Representational State Transfer 的缩写,是一种软件架构风格,用于在网络上构建和整合应用程序。它基于 HTTP 协议,并定义了一组约束和规范,用于规范客户端和服务器之间的通信。 RESTful API 是遵循 REST 架构规…

Java实现河南软件客服系统 JAVA+Vue+SpringBoot+MySQL

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 系统管理人员2.2 业务操作人员 三、系统展示四、核心代码4.1 查询客户4.2 新增客户跟进情况4.3 查询客户历史4.4 新增服务派单4.5 新增客户服务费 五、免责说明 一、摘要 1.1 项目介绍 基于JAVAVueSpringBootMySQL的河…

JavaScript 遍历文档生成目录结构

JavaScript 遍历文档生成目录结构 要遍历 HTML 文档并生成目录结构&#xff0c;你可以使用 JavaScript 来进行 DOM 操作和遍历。以下是一个简单的示例代码&#xff0c;演示了如何遍历文档中的标题元素&#xff08;例如 <h1>、<h2>、<h3> 等&#xff09;&…

ChatGPT高效提问—prompt常见用法(续篇十二)

ChatGPT高效提问—prompt常见用法&#xff08;续篇十二&#xff09; 1.1 prompt生成器 ​ 假如想让ChatGPT完成一个相对复杂的任务&#xff0c;但是没想好从哪个方面入手&#xff0c;需求不明确&#xff0c;或者对任务涉及的专业知识不够了解&#xff0c;不能写出专业、准确的…

C#使用重载方法实现不同类型数据的计算

目录 一、涉及到的相关知识 1.重载的方法 2.Convert.ToInt32(String)方法 3.判断字符串是否带有小数点 二、实例 1.示例 2.生成成果 一、涉及到的相关知识 1.重载的方法 重载方法就是方法名称相同&#xff0c;但是每个方法中参数的数据类型、个数或顺序不同的方法。如果…

2024年湖南省考报名时间及流程,选岗很重要!

注册时间&#xff1a;2024年2月18日9:00-25日17:00 报名时间&#xff1a;2024年2月19日9:00-25日17:00 网上确认时间&#xff1a;2024年2月28日9:00-3月2日24:00 缴费时间&#xff1a;2024年2月28日9:00-3月2日24:00 打印准考证时间&#xff1a;2024年3月11日9:00-15日17:00 考…

Python 中的互斥锁:保护共享资源的利器

Python 作为一门流行的编程语言&#xff0c;广泛应用于各种领域&#xff0c;特别是在多线程编程中。多线程编程可以让程序同时执行多个任务&#xff0c;但也会引发一些问题&#xff0c;比如多个线程同时访问共享资源可能导致数据错误或不一致。为了解决这个问题&#xff0c;Pyt…

2016-2022年哨兵影像的在线底图

有一个欧洲初创公司对哨兵影像进行了去云处理&#xff0c;制作了一个2016年-2022年的全球哨兵底图。目前底图通过wmts发布&#xff0c;可免费使用&#xff0c;无需搭梯子。 该数据的特点是&#xff1a; 很少的云覆盖&#xff0c;较少的条纹&#xff0c;色彩平衡 底图切片的网…

酷开科技荣获“消费者服务之星”称号后的未来展望

恭喜酷开科技荣获2023年第四季度黑猫平台“消费者服务之星”称号&#xff01;这是对酷开科技长期以来坚持用户至上、用心服务的肯定和认可。作为OTT行业的佼佼者&#xff0c;酷开科技一直秉承着“以用户为中心”的服务理念&#xff0c;不断追求卓越品质&#xff0c;为用户提供更…

Jumpserver教程01:部署jumpserver

Jumpserver教程 注&#xff1a; 本教程由羞涩梦整理同步发布&#xff0c;本人技术分享站点&#xff1a;blog.hukanfa.com 转发本文请备注原文链接&#xff0c;本文内容整理日期&#xff1a;2024-02-11 csdn 博客名称&#xff1a;五维空间-影子&#xff0c;欢迎关注 简要说明…

【EAI 019】Eureka: Human-Level Reward Design via Coding LLM

论文标题&#xff1a;Eureka: Human-Level Reward Design via Coding Large Language Models 论文作者&#xff1a;Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar 作者单位&#xff…

视频直播系统架构的设计与实现

视频直播系统作为一种实时性强、用户互动性高的应用&#xff0c;其架构设计至关重要。本文将介绍如何设计和实现一个稳定、高性能的直播系统架构&#xff0c;以提供良好的用户体验和可靠的服务。 1. 系统架构概述 - 介绍视频直播系统的整体架构&#xff0c;包括客户端、服务…

【java】12:封装

面向对象编程三大特征 1.基本介绍 面向对象编程有三大特征&#xff1a;封装、继承和多态。 2.封装介绍 封装(encapsulation)就是把抽象出的数据[属性]和对数据的操作[方法]封装在一起&#xff0c;数据被保护在内部&#xff0c;程序的其它部分只有通过被授权的操作[方法]&am…

MySQL-----DCL基础操作

▶ DCL简介 DCL英文全称是Data ControlLanguage(数据控制语言)&#xff0c;用来管理数据库用户、控制数据库的访问权限。 DCL--管理用户 ▶ 查询用户 use mysql; select * from user; ▶ 创建用户 ▶ 语法 create user 用户名主机名 identified by 密码 设置为在任意主机上访问…

数据库管理-第149期 Oracle Vector DB AI-01(20240210)

数据库管理149期 2024-02-10 数据库管理-第149期 Oracle Vector DB & AI-01&#xff08;20240210&#xff09;1 机器学习2 向量3 向量嵌入4 向量检索5 向量数据库5 专用向量数据库的问题总结 数据库管理-第149期 Oracle Vector DB & AI-01&#xff08;20240210&#xf…

BKP寄存器与RTC实时时钟

BKP寄存器 BKP寄存器简介 BKP&#xff08;Backup Registers&#xff09;备份寄存器 BKP可用于存储用户应用程序数据。当VDD&#xff08;2.03.6V&#xff09;电源被切断&#xff0c;他们仍然由VBAT&#xff08;1.83.6V&#xff09;维持供电。当系统在待机模式下被唤醒&#xf…

烹饪第一个U-Net进行图像分割

今天我们将学习如何准备计算机视觉中最重要的网络之一&#xff1a;U-Net。如果你没有代码和数据集也没关系&#xff0c;可以分别通过下面两个链接进行访问&#xff1a; 代码&#xff1a; https://www.kaggle.com/datasets/mateuszbuda/lgg-mri-segmentation?sourcepost_page--…

知识价值2-什么是IDE?新手用哪个IDE比较好?

IDE是集成开发环境&#xff08;Integrated Development Environment&#xff09;的缩写&#xff0c;是一种软件应用程序&#xff0c;旨在提供集成的工具集&#xff0c;以方便开发人员进行软件开发。IDE通常包括代码编辑器、编译器、调试器和其他工具&#xff0c;以支持软件开发…

使用R语言fifer包进行分层采样

使用R语言fifer包中的stratified()函数用来进行分层采样非常方便&#xff0c;但fifer包已经从CRAN存储库中删除&#xff0c;需要从存档中下载可用的历史版本&#xff0c;下载链接&#xff1a;Index of /src/contrib/Archive/fifer (r-project.org)https://cran.r-project.org/s…