您好,欢迎来到上海分类信息网
免费发信息

Python数据分析系列——品味葡萄酒

2024-4-20 19:15:43发布3次查看ip:发布人:
前言
数据分析学习了挺久,pandas也用了比较多,自从上次写了篇
python数据采集和分析告诉你为何上海的二手房你都买不起!
之后就没写过数据分析相关的了
之前那篇主要偏向数据清洗(因为数据是自己爬的,所以不太规整)
这次突出一下数据探索和可视化
之前一直听问某某某参加了kaggle大数据竞赛之类
我就去kaggle上瞄了一眼
打开了新世界的大门!
kaggle上有世界各国网友提供的数据集
https://kaggle/datasets
我这次选了个葡萄酒评分的数据
下载下来之后
内容是这样的
一共有150929条记录
数据集的描述是这样的:
在观看somm(侍酒师纪录片)之后,数据及提供者想知道如何创建一个预测模型,通过像侍酒师那样的盲品来鉴别葡萄酒。 第一步是收集一些数据来训练一个模型。 他打算根据品酒的描述/评论中使用的单词利用深度学习来预测葡萄酒品种。 该模型虽然不能品尝葡萄酒,但理论上可以基于侍酒师可以给出的描述来识别葡萄酒。
小编百度了一下somm的影片信息如下:
我们看看各字段含义:
评分(points):评分为1-100
品种(variety):用来制作葡萄酒的葡萄品种
描述(description):侍酒师的几句话描述酒的味道,气味,外观,感觉等。
国家(country):葡萄酒来自的国家
省(province):葡萄酒来自的省份或州
区域1(region 1):一个省或州的葡萄酒产区
区域2(region 2):有时在葡萄酒产区内有更具体的区域,但是这个值有时可能是空白的
酒庄(winery):酿酒的酿酒厂
名称(designation):葡萄酒酿造厂所在的葡萄园
价格(price):一瓶葡萄酒的价格
数据探索
我们使用pandas读取这个文件:
我们查看一下前五行数据:
删除掉本次分析用不到的字段后再次看看情况:
看一下每个字段的类型:
发现评分和价格是数值型的,我们计算时候就不用转换类型了~
我们看一下各字段的数据缺失情况:
本想把有缺失值的记录去掉,去掉后发现只有us的葡萄酒信息,所以没去除存在缺失值的记录
葡萄酒的评分情况
我们通过绘制直方图查看评分分布情况:
发现基本符合高斯分布情况,评分大多集中在85~90分
葡萄酒的价格情况
接着我们看看葡萄酒的价格情况:
发现价格集中在图示的最左端,因为有特殊离群值的影响,所以区间给的特别宽
通过筛选发现确实是有特别昂贵的葡萄酒(这里暂且不管这个价格数据是采集异常还是真的这么贵)
为了可视化到主要的部分,我们选中大部分的价格重新做可视化
这样就可以看到,大部分的价格是在0-100(好像数据集提供者没告诉我价格的单位)
为了买到满意的葡萄酒,我们看看葡萄酒的性价比
简单定义为 性价比 = 评分/价格
结果发现计算出的价格低的明显性价比高
我们看看总体上葡萄酒价格和评分的关系:
发现评分相同的葡萄酒,价格还是差异挺大,特别是评分较高的葡萄酒价格的差异
从图中也可以看出,有几个离群值,他们大多价格很高!
葡萄酒基本来自哪些国家
我们看到,生产葡萄酒的五个大国是吗,美国、意大利、发过、西班牙、智利共和国。
为了更直观凸显他们的比例,我们绘制饼图:
发现美国真是占据了葡萄酒的半壁江山啊
应该是这个数据收集者没收集到中国的数据,我们也是葡萄酒大国之一啊!
看看这些国家在全球的分布(点的大小代表葡萄酒品种多):
除去美国最多,我们看看其次的几个:
(以上两个图是用tableau画的)
酿造葡萄酒的葡萄品种
我这个不懂酒的程序猿马上查了一下前三的葡萄!
为了看一下这些葡萄使用的比重,做个饼图:
发现前三种占据了1/4
后面还有使用较少的名称堆叠在了一起
酒庄信息
我们接下来看看酒庄信息:
前五的葡萄酒品种最多
分别是:
1.威廉斯莱酒庄
来源:
http://.baidu/s?id=1559415099145034&wfr=spider&for=pc
2.特斯坦罗萨酒厂
3.dfj vinhos
来源:http://cache.baiducontent/c?m=9d78d513d99515f74fede53a564a8d3b584381132ba7a7020ed0843e967328355321a3e52878564291d27d141cb20c19afe736056f5e7bebdd9bc9118efec97478c93034074ddb1e0f8245b29d127d857bcc00b4ee0ee7cdb268d1&p=9c769a47ca9a02ff57efcd3159&newp=8457c54ad48b0be00be296264a53d8304a02c70e3ac3864e1290c408d23f061d4862e5b125251003d3c6776705a44a56e9f6307123454df6cc8a871d81edda6260&user=baidu&fm=sc&query=dfj+vinhos%be%c6%d7%af&qid=d5be9796000028be&p1=2
4.圣密夕酒庄
来源:http://wine-world/winery/chateau-ste-michelle-winery
5.哥伦比亚山峰酒庄
看看哪个酒庄的葡萄酒均价最高:
1.巴布莱尔酒庄
苏格兰最古老的酒庄之一,巴布莱尔酒庄是全球唯一专注生产单一年份威士忌(single vintage whisky)的酒庄。
2.拉图城堡酒庄
享有“全球最昂贵的酒庄”声誉,是当之无愧的法国国宝级酒庄。
3.花思蝶酒庄
700年的历史,意大利托斯卡纳最古老的葡萄酒世家之一,曾成为罗马教皇和英王亨利八世的御用佳酿。
4.奥比昂酒庄
法国五大酒庄之一
5.美讯庄园
地处法国波尔多(bordeaux)格拉夫(graves)产区的最北端,与奥比昂酒庄(chateau haut-brion)同属于克兰斯帝龙酒业集团(domaine clarence dillon)旗下酒庄,两个酒庄之间仅有一路之隔。美讯酒庄出产的葡萄酒是整个波尔多地区首屈一指的顶级佳酿。
我们看看这五个酒庄的葡萄酒平均价格变化趋势:
前两个的价格遥遥领先~
买不起,买不起!
end.
运行人员:中国统计网小编
中国统计网,是国内最早的大数据学习网站
//itongji
该用户其它信息

VIP推荐

上海分类信息网-上海免费发布信息-上海新闻网