《中国酿造》:国家市场监督管理总局重点实验室(食品感官分析)史波林研究员等:基于网络评论的酱香型白酒消费体验描述词研究
酱香型白酒是中国十二香型白酒之一,复杂的生产工艺与独特的地理环境(如气候、微生物菌群等条件),赋予了酱香型白酒极高的风味属性、感官体验和品鉴价值。 质量决定价值,作为一种嗜好性饮品,风味与感官是白酒质量的重要部分。 感官描述词约定了食品颜色、外观、质地、气味、滋味、风味、口感等感官属性的有关描述,体现大部分人的感官体验和对所使用语言的认知。酱香型白酒的感官描述形成于全国五届评酒会,主要为专业品酒师所用,其典型描述词为:酱香突出、幽雅细腻、酒体醇厚、回味悠长、空杯留香持久。在当前白酒消费群体分流、白酒市场份额越来越多被啤酒和红酒挤占、产品同质化明显的背景下,白酒企业只有紧紧抓住消费者的需求方能在激烈的竞争中占据优势,而专业品酒师的感知水平与品评技能通常高于消费者,且品酒方式与消费者日常饮酒存在较大差异,从分析型角度描述白酒呈现出的感知特征与消费型角度传递饮酒的体验与感受亦存在较大差别,消费者适用的酱香型白酒感官描述词又鲜少研究。 因此,以消费者为主体构建酱香型白酒消费体验描述词并将其与专业品评描述词构建联系是十分必要的。

1
研究设计与方法
1.1 网络评论数据采集
采集流程包括商品URL的获取、商品评论URL的获取及通过评论URL获取评论内容。 以“酱香型白酒”为关键词进行搜索,将搜索结果按照销量进行排序,采集搜索结果前10页共300个商品的链接(截至2023年7月)。通过Python爬虫程序进入每个商品的详情网页,采用selenium方式分析网页源代码,定位评论位置,在评论列表中获取评论内容。商品评论页面的跳转通过ID和Page两个参数进行确定。其中,ID参数是平台上商品的ID,该参数具有唯一属性,用于确定是哪个商品的评论;Page参数是评论页面的数值,代表了当前评论页面中的页码。通过上述参数,可以得到该Ajax评论页面中的JSON元数据,采用正则表达式提取评论内容,再通过open方法,将评论导出为csv文件,并将其保存在数据库中。
1.2 文本预处理
文本挖掘前,对语料库文本进行预处理是一个必要的步骤,包括中文分词和停用词去除。 词作为构成语篇的基本单位,在文本分析前需要进行分割。 由独立单词组成的英语文本的分词相对简单,而中文语篇的结构更为复杂,词与词之间没有明确的分隔符,同一词在不同文本语境中具有不同的含义。目前,中文分词方法主要是基于词典的分词方法、基于统计的分词方法、基于理解的分词方法等。本研究分词处理流程如下文所示。
1.2.1 读取评论内容
使用pandas库中read_csv()读取评论语料库中的文件。读取到文件之后,使用pandas中的drop_duplicates()进行评论的去重。 将去重后的结果保存到列表中,以待关键词提取和词频统计。
1.2.2 评论分词
利用jieba(一个广泛使用的Python开源中文词语分割工具)对语料库文本进行预处理。这个过程包括4个主要步骤:预处理词语数据文件,根据前缀扫描词语图生成句子中所有可能的汉字成词情况的有向无环图(DAG),利用动态编程(DP)算法找到基于词频的最大切割组合,以及利用隐马尔可夫模型(HMM)预测评论中未登记的词语,具体过程见图1。

预实验证明,单纯使用jieba的分词功能难以获取目标描述词,因此,采用逆文档频率法(TF-IDF)提取网络评论中的关键词。TF-IDF是一种用于信息检索与文本挖掘的常用加权技术,用于评估单一字词对于某个文件集或某个语料库中的其中一份文件的重要程度。 字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着其在语料库中出现的频率成反比下降。
1.2.3 存储分词
将1.2.2得到的结果,通过open()方法和csv模块的writer()、writerow()方法,将长度<2的词剔除。 将最终结果以每词一行格式存入csv表格中,统计词频并筛除出现频率较少的词语。
1.2.4 去除低相关词
分词任务完成后,需剔除对理解文本意义作用较小的标点符号、语气词和介词等,即停用词。去除停用词可以有效减少其造成的噪音,节省存储空间,提高文本理解度,并提升文本处理效率。 本研究首先结合常用停用词构建停用词表,结合低频词对分词结果进行初次剔除,再进行人工剔除,去除与消费体验描述无关的词语,如:“物流”、“不错”、“速度”、“设计”、“服务”、“价格”等词汇。
1.3 文本挖掘
以往研究通常采用各类自然语言处理模型进行文本匹配与挖掘,但由于匹配源于专业感官描述词,容易导致与其相似度高的网络评论并非消费者真实描述,实际效果不佳。本研究采用专家语义分析方式处理所获得的高频词及与每个高频词相似度高的10个相关评论,进行文本挖掘。包括删除完全不涉及感官描述的高频词及相关评论,拆分相关评论为感官无关词汇与感官描述词汇,前者剔除、后者保留,并将所有感官描述词汇进行分类。
2
数据处理
最终从网络平台共抓取了6 435条关于酱香型白酒的评论,通过停用词去除和低频词筛除后得到1 230个高频词,再经人工剔除处理后剩余349个高频词。 这些高频词频次范围为40~5 444次之间,其高频词词云图见图2,高频词统计结果见图3。由图2和图3可知,频次前十位的高频词依次是 “香型”、“好喝”、“入口”、“味道”、“酱香型”、“上头”、“香味”、“浓郁”、“酒香”、“回味”。


从获得的349个高频词及与每个高频词相似度高的10个相关评论中,采用专家语义分析方式挖掘得到1 175个感官描述词。 经过合并构词完全相同并分类含义不同的处理后的描述词(共849个)见图4和表1(表中为代表性词汇,未将所有词汇全部列出)。
![]() |
![]() |
![]() |

感受意为接触外界事物得到的影响、体会,感知意为客观事物通过感觉器官在人脑中的反映。心理学中的感受(feeling)常特指对情绪过程的主观体验和感受。感知响应主要回答“是什么”,即人依据一定的认知准则对通过感觉器官传来的食物刺激进行分辨确认。情绪响应主要回答“怎么样”,即人对感知到的食物刺激进行需求评估,做出情绪上的和喜好感受上的反应。由图4和表1可知,前3部分是与酱香型白酒专业品评描述词区别较大的感受类描述词,体现“视整体、较宽泛、喜对比、重体验”特点,后4部分是专业品评描述词相似的感知类描述词,但其数量和范畴显著减小,从中可以洞察消费者对酱香型白酒感官品质的感知侧重。

![]() ![]() |
![]() ![]() |
![]() ![]() ![]() |
2.1 感受类描述词
由图4A和B可知,41%的消费体验描述词为感受类描述词。 其中51.59%为酒体整体感受,13.83%为酒体对比感受,34.58%为人的整体感受。
2.1.1 酒体整体感受
酒体整体感受分为7小类,描述主体是酒体。消费者注重酒体“香气、口感是否正宗”,一般会用纯、正、典等词汇形容;关注“香气扩散快慢”,一般用扑鼻、四溢等词汇描述;关注“香气浓度大小”,一般用浓、淡、爆等词汇描述;注重“香气本身”,褒义一般用芬芳、佳、美、好等,贬义一般用无、没味、难闻等;注重“口味和酒质本身”,褒义一般用美、好、可口等,贬义一般用欠佳、不好、难喝、差等;关注“劲头”,主要用带劲、有劲、太高等。另有一些较为抽象的描述词,出发点应是对美酒的赞许之情,香气上有醇香久远、秀雅等描述,口味和酒质上有酒体活泼、酒质均衡等描述,以及美酒佳酿、清雅怡悦等描述。由图4B可知,描述词种类数量前三的小类是“香气本身”、“口味、酒质本身”和“香气、口感是否正宗”,占比分别为12.97%、12.1%和7.78%。
2.1.2 酒体对比感受
酒体对比感受分为4小类,描述不同酒体之间差别感受。首先,消费者关注酒体“是否勾兑、粮食酿造”,有假酒、酒精勾兑、粮食酒味道等描述。 其次,关注“是否酱香”,即是否是酱香型白酒,有大曲酱香、北派酱香、不是酱香味、偏浓香、小曲清香、米香等描述。第三,关注“酱酒之间对比感受”,主要是与茅台相比或与其他酱香型白酒品牌相比,如味道和茅台很像,比普王更加顺,酒质介于普郎与红十之间等。最后,消费者关注这次饮酒与其“以往饮酒对比感受”,如熟悉的味道、酒质提高、口味变了等。
2.1.3 人的整体感受
人的整体感受分为4小类,描述主体是消费者。首先,消费者关注“香气刺激、冲、呛与否”,一般用刺鼻、冲鼻、呛等词汇描述。其次,关注“酒体燥辣、顺吞与否”,一般用辣、烧、顺口、难以下咽等词汇描述。 第三,考虑“饮中口干、舒适与否”,即饮中舒适度,关注点为口干不干、上不上头、舒不舒服、爽不爽口。最后,“饮后头疼、舒适与否”,关注点为半夜口干不干、第二天头疼不疼、醒酒速度等。 由图4B可知,描述词种类数量靠前的是“酒体燥辣、顺吞与否”和“饮中口干、舒适与否”,占比分别为14.7%和9.22%。
2.2 感知类描述词
由图4A和C可知,59%的消费体验描述词为感知类描述词。其中,45.62%为香气描述词,42.03%为口味、口感和余味描述词,11.35%为色泽与外观描述词,1.00%为风格描述词。
2.2.1 香气
香气,分为香气特征、香气类型和空杯香3小类。 香气特征有层次感、持久度、丰富度、谐调度、浓郁度、柔和度、清新和幽雅共8类,与专业品酒师评酒时关注的属性相近。香气类型有酱香、陈香、粮香、曲香、花香、果香、甜香、酸香、焦香、清香、窖香、异杂味等。 其中酱香、陈香、粮香、花果香词频更多,且专业品酒师评酒时使用的醛香、生木香、青草香、坚果香等未出现。 空杯香维度,消费者主要关注持久度,而不注重感受专业品酒师评酒时所用的空杯酱香、曲香、酸香、窖香、陈香等空杯香气特征描述。由图4C可知,描述词种类数量靠前的小类是香气类型和持久度,占比依次为21.71%和6.77%。
2.2.2 口味、口感和余味
消费者关于口味有酸、甜、苦、涩等词汇描述,甜味还有甘冽、甘润等描述词。口感有丰满度、谐调度、柔和度、干净度、层次感相关的若干描述词。 回味关注回甜、苦、干净度和持久度等。该部分消费体验描述词与专业品评描述词最为接近,但消费者描述通常更为具体,如“诸味还算协调”、“中段瞬间带苦”、“让你情不自禁的回味无穷”、“淡淡的甘苦回味于口腔”、“如丝绸般顺滑的感觉”等,凝练抽象为“丰满度”、“谐调度”、“干净度”等专业品评描述词的能力仍待提高。由图4C可知,描述词种类数量前三的小类是回味、口味和柔和度,占比分别为12.35%,10.96%和7.77%。
2.2.3 色泽与外观
色泽与外观分为3小类,分别是“颜色”、“是否有杂质、透明和光泽程度”和“挂杯效果”。颜色有黄、无色等描述词。外观关注是否有杂质,是否透明纯净,是否有光泽,另有“无油感”的描述方式。挂杯效果有粘稠、挂杯等描述词,这是酱香型白酒专业品评描述词中都很少见的一类描述。
2.2.4 风格
描述酒体整体风格的仅有5个词汇:风格协调、净的风格特征、风味独特、有自己独特的风格、风格优美。由此可知,消费者很少使用风格维度的描述,表明他们较难感知与理解不同酱香型白酒风格特征并将其准确区分。
3
结论
采取Python爬虫的方式抓取消费者于互联网中关于酱香型白酒的6 435条评论,经文本预处理与文本挖掘,得到数量充足、内涵丰富的酱香型白酒感官描述,包括感受类描述词和感知类描述词。前者表现出“视整体、较宽泛、喜对比、重体验”的特点,后者在数量与范畴上的减少表明消费者与品酒师对酱香型白酒感官品质的关注、感知与表述差异,验证了构建酱香型白酒消费体验描述词的合理性与基于网络评论分析消费者感知侧重的可行性。在此基础上,应结合调查问卷、消费者深度访谈与消费者测试等数据收集方法,完善酱香型白酒消费体验描述词,以酒样为媒介,与品酒师专业品评描述词进行映射,搭建消费者与酒企关于酱香型白酒感官品质交流的桥梁,以期更好指导酱香型白酒新品开发、酒体风味设计及感官营销等研究工作。
杨玉波, 牛俊桀, 汪厚银, 等. 基于网络评论的酱香型白酒消费体验描述词研究[J]. 中国酿造, 2026, 45(1): 328-333. DOI:10.11882/j.issn.0254-5071.2026.01.045
实习编辑:甘冬娜 ;编辑:阎一鸣;责任编辑:张睿梅。点击下方阅读原文即可查看全文。图片来源于文章原文及摄图网。



长按或微信扫码进行注册
为系统提升我国食品营养与安全的科技创新策源能力,加速科技成果向现实生产力转化,推动食品产业向绿色化、智能化、高端化转型升级,由北京食品科学研究院、中国食品杂志社《食品科学》杂志(EI收录)、中国食品杂志社《Food Science and Human Wellness》杂志(SCI收录)、中国食品杂志社《Journal of Future Foods》杂志(ESCI收录)主办,合肥工业大学、安徽农业大学、安徽省食品行业协会、安徽大学、合肥大学、合肥师范学院、北京工商大学、中国科技大学附属第一医院临床营养科、安徽粮食工程职业学院、安徽省农科院农产品加工研究所、安徽科技学院、皖西学院、黄山学院、滁州学院、蚌埠学院共同主办的“第六届食品科学与人类健康国际研讨会”,将于 2026年8月15-16日(8月14日全天报到)在中国 安徽 合肥召开。

长按或微信扫码进行注册
会议招商招展
联系人:杨红;电话:010-83152138;手机:13522179918(微信同号)














评论