R 语言红葡萄酒与白葡萄酒的对比分析

编程入门 行业动态 更新时间:2024-10-24 06:25:05

R 语言红葡萄酒与<a href=https://www.elefans.com/category/jswz/34/1720489.html style=白葡萄酒的对比分析"/>

R 语言红葡萄酒与白葡萄酒的对比分析

library(tidyverse)
library(readxl)
theme_set(theme_bw())
set.seed(123)

酒精饮料中含有一定的营养成分,不仅能补充人体所需的热量,还能补充人体所需要的营养成分。酿造红葡萄酒和白葡萄酒的方式是不同的。白酒是中国文化,而红酒是西方文化。红酒是用葡萄酿制的。白葡萄酒是由谷物制成的,味道比红葡萄酒更浓。我们将探讨红葡萄酒和白葡萄酒在物理和化学财产以及质量评级方面的差异。

df <- read_excel("winequality.xlsx")
colnames(df) <- gsub(" ", ".", colnames(df))
white = df %>% filter(Type == "White Wine")
red = df %>% filter(Type == "Red Wine")

红酒数据以紫红色显示,白葡萄酒数据以浅绿色显示。

ggplot(aes(x = fixed.acidity, fill = Type), data = df) +geom_histogram(binwidth = 0.5) +scale_x_continuous(breaks = seq(0, 16, by = 1)) +facet_grid(Type~.) +scale_fill_manual(guide=FALSE, values = c("hotpink4", "darkolivegreen3")) +labs(x = "Tartaric Acid (g/L)", y = "Count")

白葡萄酒的固定酸度分布更加对称,只有少数数据点位于10以上。数据质量介于6和7.5之间。很明显,红葡萄酒的固定酸度比白葡萄酒更分散,而且通常较低。

ggplot(aes(x = volatile.acidity), data = df) +geom_histogram(data = red, fill = "hotpink4", binwidth = 0.05, alpha = 0.6) +geom_histogram(data = white, fill = "darkolivegreen3", binwidth = 0.05,alpha = 0.6) +scale_x_continuous(breaks = seq(0, 1.6, by = 0.2)) +labs(x = 'Acetic Acid (g/L)', y = 'Count')

总的来说,红葡萄酒比白葡萄酒具有更多的挥发性酸;这种差异比固定酸水平的差异更显著。

ggplot(aes(x = citric.acid), data = df) +geom_histogram(data = white, fill = "darkolivegreen3", binwidth = 0.025,alpha = 0.5) +geom_histogram(data = red, fill = "hotpink4", binwidth = 0.025,alpha = 0.5) +xlim(c(0, 0.8)) +labs(x = 'Citric Acid (g/L)', y = 'Count')

白葡萄酒的数据是相当对称的,右侧的尾部略长。大多数数据都在一个小范围内(约0.25-0.4)。

ggplot(aes(x = residual.sugar, fill = Type), data = df) +geom_histogram(binwidth = 0.5) +geom_histogram(binwidth = 0.5) +xlim(c(0, 20)) +facet_grid(Type~.) +scale_fill_manual(guide=FALSE, values = c("hotpink4", "darkolivegreen3")) +labs(x = 'Residual Sugar (g/L)', y = 'Count')

红葡萄酒和白葡萄酒的峰值都在2-2.5左右。在这一峰值之后,红葡萄酒迅速减少,酒尾很长,白葡萄酒减少,但甜度较高。

ggplot(aes(x = chlorides, fill = Type), data = df) +geom_histogram(binwidth = 0.01) +facet_grid(Type~.) +scale_fill_manual(guide=FALSE, values = c("hotpink4", "darkolivegreen3")) +labs(x = 'Chlorides (g/L)', y = 'Count')

白葡萄酒的氯化物含量一般较低;大多数白葡萄酒每升氯化物含量低于0.07克,而75%的红葡萄酒氯化物含量高于此。

ggplot(aes(x = free.sulfur.dioxide, fill = Type), data = df) +geom_histogram(binwidth = 7.5) +facet_grid(Type~.) +scale_fill_manual(guide=FALSE, values = c("hotpink4", "darkolivegreen3")) +labs(x = "Free Sulfur Dioxide (g/L)", y = "Count")

红酒中的二氧化硫要少得多;超过75%的红葡萄酒的酒精含量低于23g/L,而白葡萄酒的酒精浓度只有25%低于此值。

ggplot(aes(x = Type, y = total.sulfur.dioxide), data = df) +geom_boxplot() +coord_flip() +labs(x = "", y = "Total Sulfur Dioxide (g/L)")

白葡萄酒的分布看起来很正常,有些异常值很高。红酒的分布向右倾斜,也有一些异常值。总体而言,白葡萄酒的二氧化硫含量要高得多,几乎所有红葡萄酒的二氧化硫都比白葡萄酒的50%少。

ggplot(aes(x = pH, fill = Type), data = df) +geom_histogram() +facet_grid(Type~.) +scale_fill_manual(guide=FALSE, values = c("hotpink4", "darkolivegreen3")) +labs(x = "pH", y = "Count")

白葡萄酒和红葡萄酒pH值的分布形状看起来非常相似,但红葡萄酒的pH值略有升高。这表明红葡萄酒稍微偏碱性,白葡萄酒稍微偏酸性。

ggplot(aes(x = sulphates, fill = Type), data = df) +geom_histogram() +facet_grid(Type~.) +scale_fill_manual(guide=FALSE, values = c("hotpink4", "darkolivegreen3")) +labs(x = "Sulphates", y = "Count")

白葡萄酒的硫酸盐含量也比红葡萄酒少,75%的白葡萄酒硫酸盐含量低于0.55g/L,只有25%的红葡萄酒硫酸盐含量少于0.55g/L。

ggplot(aes(x = quality, y = ..prop.., fill = Type), data = df) +geom_bar(width = 0.75, position = position_dodge(width=0.75)) +scale_x_continuous(breaks = seq(0, 10, by = 1)) +scale_fill_manual(values = c("darkolivegreen3", "hotpink4")) +guides(fill=FALSE) +labs(x = 'Quality Score', y = 'Proportion')

我们可以看到,红葡萄酒和白葡萄酒在质量分数为3和4的葡萄酒中的比例非常相似。该数据集中的红酒质量稍低;与白葡萄酒相比,他们的葡萄酒评分为5分的比例更高,评分为6、7和8分的比例更低。此外,白葡萄酒的最高质量分数为9分,而红葡萄酒的最高分数为8分。

白葡萄酒和红葡萄酒质量t检验的最初假设是白酒和红葡萄酒的平均质量相同,而另一种假设是白葡萄酒和红酒的平均质量不同,

t.test(red$quality,white$quality)
## 
##  Welch Two Sample t-test
## 
## data:  red$quality and white$quality
## t = -0.60526, df = 320.88, p-value = 0.5454
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.4578697  0.2424257
## sample estimates:
## mean of x mean of y 
##  5.635135  5.742857

双变量t检验的p值小于0.05,因此应拒绝原始假设,白酒和红酒的平均质量不同

结论

对于红酒和白葡萄酒之间的区别,重要的是要知道哪些变量可以根据类型最清楚地划分数据。我们可以看到,挥发性酸度、残余糖、氯化物和二氧化硫的值显示出类型之间最明显的差异。在假设分析中,我们得出结论,红酒和白葡萄酒的酸度和质量不同

更多推荐

R 语言红葡萄酒与白葡萄酒的对比分析

本文发布于:2024-02-26 08:16:24,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1701834.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:白葡萄酒   红葡萄酒   语言

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!