Python爬虫可视化第2季-舌尖上的“小龙虾”

640?wx_fmt=gif

前言:

上期内容与大家分享了一些旅游的内容,从本期开始,会陆续分享一些为吃货们量身定制的文章。世界杯激战正酣,大家在欣赏精彩比赛的同时,怎能少了美食的陪伴,我们今天就来聊聊世界杯的好丽友-小龙虾

640?wx_fmt=jpeg

PART1:获得数据

本次数据我们爬取了大众点评中所有打上小龙虾标签的餐厅

640?wx_fmt=png

从上图中可以看出,我们可以获得餐厅的人均消费、点评数量、推荐菜、评分(口味、环境、服务)等信息,用于我们之后的分析。我们此次总共爬取到了225个城市,6758个餐厅,121.3万条评论。

我们截取其中的部分核心代码:

def find_city_page(path):	data = pd.read_excel(path)	city_lobster_page = pd.DataFrame()	driver = webdriver.Chrome()    	for i in range(0,len(data)):	try:	js='window.open("'+data['city_lobster_url'][i]+'")'	driver.execute_script(js)	bsObj = BeautifulSoup(driver.page_source,'html.parser')	bs = bsObj.find_all('a',attrs={'class':'PageLink'})	this_city_lobster={'city_name':data['city_name'][i],	'page_num':max([int(l.text ) for l in bs])}	city_lobster_page = city_lobster_page.append(this_city_lobster,ignore_index=True)except:	continue	return city_lobster_page

PART2: 城市对比

我们首先要进行分析的是各个城市的小龙虾热度,我们以带有“小龙虾”标签的餐厅评论总和作为最终的对比依据,得到的TOP20城市如下:

640?wx_fmt=png

可以看出上海市的点评数遥遥领先,可能存在以下两个因素:a.上海市的小龙虾餐厅数量较多,本身存在较大的消费群体 b.大众点评总部在上海,上海的商户入驻数量较多。有兴趣的朋友可以进行更深一步的研究。

圈定了TOP20城市后,我们首先看一下TOP20城市小龙虾的人均消费

640?wx_fmt=png该项统计中,包邮区占据了靠前的位置,体现出来包邮区对小龙虾的热情和自身的消费水平。同时可以看到株洲的人均消费接近于上海的一半,有机会到湖南旅游的朋友可以考虑到株洲品尝物美价廉的小龙虾。

紧接着要看的是TOP20城市味道、环境、服务三部分的分数情况:

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

我们发现服务分与环境分排序相同,二者具有极强的相关性,符合通常认知。同时可以看到在三项分数中,北方的四个城市天津、西安、北京、青岛各项指标均处于靠前的位置,其中天津的服务和环境均处于首位。

结合下图全国小龙虾热力图,似乎有些有悖于大家的认知。

640?wx_fmt=png

由此我们可以得出在小龙虾整体热度比较强的区域,人们对于小龙虾各方面的要求会相应提高,相反在整体热度偏低区域,人们评价时会相对宽容。同时我们看到海口的各项指标均处于最后一位,需要进行相应的调整。

PART3: 探索龙虾

我们看过了各个城市的情况后,进一步看一下小龙虾本身的一些有趣的内容,首先看一下龙虾的口味,我们选取了各个餐厅中带有龙虾的推荐菜,分词后获得TOP20的口味

640?wx_fmt=png

十三香、蒜蓉、麻辣高居前三位,根据作者的经验,这基本上是符合大家整体口味的选择。TOP20中的蛋黄,白灼对于作者而言相对陌生,有品尝过的朋友可以分享一些这些口味的体验。

看完了口味,再看一下龙虾的好丽友

640?wx_fmt=png

螺丝、花甲、毛豆位高居TOP3,看来大家吃龙虾的时候,会希望同时选择一些不用摘手套就可以享用的食物,毕竟吃的过程中频繁摘手套会比较费劲。

PART4: 龙虾画像

目前互联网公司中非常普遍地会进行一些人群画像的分析,我们在这里借用一下这个概念,也为小龙虾绘制一副专属的画像,下面展示的两幅图分别是词云图和模板原图

640?wx_fmt=png

640?wx_fmt=jpeg

部分词云绘制代码如下:

# 解析小龙虾图片	
back_color = imread('小龙虾.jpg')  # 解析该图片	
# 参数配置	
wc = WordCloud(background_color='white',  # 背景颜色	max_words=300,  # 最大词数	mask=back_color,  # 以该参数值作图绘制词云,这个参数不为空时,width和height会被忽略	max_font_size=100,  # 显示字体的最大值	font_path="C:/Windows/Fonts/simhei.ttf",  # 解决显示口字型乱码问题,可进入C:/Windows/Fonts/目录更换字体	random_state=4,  # 为每个词返回一个PIL颜色	#width=2000,  # 图片的宽	#height=1860  #图片的长	)	
# 通过encounter计数器生成词云	
wc.generate_from_frequencies(word_counts)	
# 基于彩色图像生成相应彩色	
image_colors = ImageColorGenerator(back_color)	
# 绘制词云	
plt.figure()	
plt.imshow(wc.recolor(color_func=image_colors))	
plt.axis('off')

PART5: 特(hei)色(an)龙虾

文章最后我们放上几个之前分词发现的特色口味龙虾,或许下一个网红龙虾就在其中

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

---------------------------------

如果大家周围有对数据分析&数据挖掘感兴趣的朋友,麻烦在朋友圈帮忙转发一下,让更多的朋友加入我们。有好的文章也可以联系我与大家分享,需要获取代码及相关资料,可以直接在公众号或者文章下方留言

往期文章:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/353834.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

华为的汽车“攻势”

数字化转型,对于传统汽车的从业者而言,看起来还是一个陌生的词汇。\n 然而,现实是,把汽车产品数字化,把企业运营数字化,把一切实体的东西数字化、虚拟化,将成为传统车企不得不直面的事关生死的…

三级pc技术_第十九周PC、笔电、数码周边新品汇总:AMD英特尔激战正酣

【dogkeji-科技犬】 各位网友周末好,又到了2020年第十九周的PC、笔电、数码周边新品发布汇总时刻(2020年5月4日至2020年5月9日),那么本周有那些PC、笔电、数码周边新品发布呢?通过科技犬的汇总我们来一起回顾一下吧。 …

安全——网络安全协议的引入

TCP/IP安全缺陷 信息泄露 概述 网络中投递的报文往往包含账号、口令等敏感信息,若这些信息泄露则是灾难性的后果。其中嗅探是一种常见而隐蔽的网络攻击手段。 嗅探 概述 问题:在共享式网络架构下,所有的数据都是以广播方式进行发送&…

618价格激战下的苏宁悟空榜 映射零售进阶史

今年的电商价格战,给我的感觉是猛的一批。百亿补贴、J-10%、24期免息、直播低价促销、自有品牌产品降价不降质等等,一套价格组合拳打下来,让原本萎靡不振的消费市场又恢复到了以往的热闹烟火气息氛围中。 联想到8年之前的京东刘强东向苏宁发起…

汽车控制芯片赛道“激战”,高性能车规MCU全球首发

中国芯片厂商正在加速进入高端车载MCU(微控制单元)市场。 4月12日,芯驰科技重磅发布了ISO 26262 ASIL D级的高性能、高可靠、高安全、广覆盖的车规MCU产品——“控之芯”E3系列,该系列产品采用台积电22nm车规工艺,集成…

monkeyrunner2

最近,做android项目测试,测试一个应用程序在多个设备中分辨率是否合适,麻烦得要命,不停的截图比较,前一段时间,研究了一下monkeyrunner ,决定通宵写一个实用性强的monkeyrunner来方便测试使用 前一段时间写的monkeyrunner资料 http://youxilua.blog.51cto.com/3357586/772666 功…

梦三国解析服务器spl文件头失败,流沙恐遭降级?《梦三国2》MPL夏季赛第二轮激战全面开启...

逐梦巅峰,为荣耀而战!2020《梦三国2》职业联赛(简称:MPL)夏季常规赛第一轮较量于上周正式结束,风月战队后来居上,通过6小局连胜将战队积分累积至14分,积分排名连跳3级成功登顶第四周积分榜首之位。常规赛半…

2017计算机最高配置,快来升级你的电脑:2017年单机大作配置要求一览

2017年,众多新游戏都蓄势待发,你的PC是否还能经受得住接连而来的游戏性能挑战呢?当然每个玩家所爱的游戏都是不一样的,所谓众口难调,并且各家厂商对游戏的优化程度也不尽相同,而且网游和单机对于硬件的要求…

对安装Linux的服务器进行缓存清除

安装Linux的服务器缓存过高导致服务器运行速度慢 第一步,查看当前服务器中Linux系统的状态。 命令:free -h 第二步:备份内存缓冲区中的数据到磁盘中。 命令:sync 在大多数情况下,不需要手动使用sync命令&#xff0…

英文的美好。。。

If You Could Choose If you had the power to decide what types of opportunities would come your way, what opportunities would you select? If you knew that your experiences would match your expectations, what would your expectations be?In fact, you do have…

中国独特词的英文表达(转)

发表文章 中国独特词的英文表达(转) 2006-10-06 16:54:57 大中小 1、中国意念词(Chinesenesses) 八卦 trigram 阴、阳 yin, yang 道 Dao(cf. logo) 江湖(世界) the jianghu World &…

文学-谚语-英文谚语:英文谚语

ylbtech-文学-谚语-英文谚语:英文谚语 英语谚语指流传于英国和美国的比较简练而且言简意赅的话语。英语谚语有一部分来自书面文献,主要出自希腊罗马神话、寓言故事、莎士比亚戏剧以及一些名家作品中。 1.返回顶部 1、 中文名:英语谚语 外文名…

Redis面试核心技术点和缓存相关问题

目录 Redis的数据结构和原理 Redis持久化:RDB和AOF Redis的集群设计 缓存雪崩、击穿、穿透 高并发场景下缓存和数据库更新策略 Redis的大key和热key和大value 本地缓存 磁盘IO和网络开销 相比于 请求内存IO 要高上千倍,如果某个数据从数据库磁盘读…

es elasticsearch 十四 各种机制 评分机制 正序索引 解决跳跃结果问题 解决耗时过长问题 解决相同属性值都到一个地方

目录 评分机制 机制 查看评分实现如何算出来的explaintrue 分析能否被搜索到 Doc value 正排序索引 Query phase Fetch phase Preference 问题 解决跳跃结果问题 Timeout 到达时间直接返回,解决耗时过长问题 Routing 数据准确分配到某地,解决相…

ChatGPT会取代低代码开发平台吗?

编程作为一种高端技能,向来是高收入高科技的代名词。近期,伴随着ChatGPT在全球的爆火,过去通过窗口“拖拉拽”的所见即所得方式的低代码开发模式,在更加智能和更低成本的AI搅局之下,又面临了更深层次的影响。 低代码平…

高性能至强融核服务器,剖析两大至强融核产品规格_Intel服务器CPU_服务器评测与技术-中关村在线...

英特尔至强融核协处理器基于英特尔集成众核(英特尔MIC)架构,可作为现有英特尔至强处理器E5-2600/4600产品家族的补充,为高度并行化的应用提供无与伦比的性能。 此次推出的至强融核协处理器3100系列和5110p两大家族,基于其最先进的22纳米3-D三…

处理器最新排行_鲁大师Q2季度PC硬件排行:Intel十代酷睿初入战局,最受欢迎CPU是它...

点击右上角关注我们,每天给您带来最新最潮的科技资讯,让您足不出户也知道科技圈大事! 鲁大师2020年Q2季度消费级PC硬件排行数据来源于2020.04.01-06.30日,为减少小众产品(服务器)冲击榜单,使得榜单更具备参考价值&…

CPU避坑指南——1、CPU基础知识-型号

目录 前言 AMD与intel基础知识 选CPU共同问题剖析 什么是CPU CPU标识的说明 CPU后面的字母 AMD说明 前言 插槽类型:要选择与主板兼容的CPU插槽类型,例如Intel主板需要选用Intel CPU,AMD主板需要选用AMD CPU。 型号:要根据…

Android 开发常用性能优化工具总结

目录 systraceSystrace是什么?可以分析哪些问题?启动 perfetto什么是Perfetto?Perfetto和Systrace的关系? ProfileCPUMemory WinScope--跟踪窗口转换Layout InspectorUiAutomatorViewerhierarchyviewerLintTencent/matrix开发者选项显示面(surface)更新…

2021年5月国产数据库排行榜:“华为高斯模式”取得成功,阿里OPA持续攀升

2021年5月国产数据库排行榜已经出炉,前十中TiDB依然以612分稳坐榜首,分数较上月降低8分;阿里系OceanBase上涨34分位列第二,为本月最大涨幅,阿里云PolarDB上涨28分,排在第三,阿里云AnalyticDB排在…