菜肴识别-食物识别-人工智能毕设
基于深度学习的菜肴识别项目。该项目采用CNN和Transformer架构的9种模型(包括AlexNet、VGG、ResNet等),通过增加CBAM注意力机制进行优化,实现97%的识别准确率。项目包含完整的技术路线、数据集信息、模型训练代码(提供ResNet核心代码示例)和性能分析(对比实验、混淆矩阵、ROC曲线)。最终基于Django框架开发了演示系统,涵盖健康管理、餐饮运营和文化传承等多场景应用
大家好,我是B站的UP主:我喜欢吃小熊饼干。我在CSDN会写一些文章介绍我做的项目,这些项目我都录制了详细的讲解视频(约4-6个小时的内容量),讲解基础知识,环境配置,代码使用等内容。
详细了解请移步:
详细讲解视频-我喜欢吃小熊饼干的个人主页-哔哩哔哩视频https://space.bilibili.com/284801305
https://space.bilibili.com/284801305几分钟快速预览项目效果的演示视频:
【计算机毕设】基于深度学习的菜肴识别【食物识别】【CNN】【Transformer】【卷积神经网络】
详细的讲解视频合集:
- 合集第一集:主要讲对整个教程的介绍,深度学习项目的基本做法和基本概念。然后介绍具体该项目的基本做法。如何去扩张项目,增加更多的内容。(这里不会涉及到代码,纯从项目的做法的角度,以PPT讲解的方式带大家入门,建立深度学习的基本概念)
- 合集第二集:毕设选题指导,毕设服务等内容
- 合集第三集:从代码使用和演示的角度,介绍项目的内容。科普深度学习环境配置的知识,如何配置项目,如何使用项目,更换数据集训练,完成特定的课题。
- 合集第四集:讲解文档相关的内容,开题报告、开题ppt、开题答辩,论文写作,论文答辩等
第一集和第三集比较重要,可以整体看下这两个视频。
下面我用文字介绍一下项目的内容
项目的背景意义:
食物与菜肴是人类日常饮食的核心载体,既关乎居民健康营养,也承载着饮食文化传承与餐饮产业发展。我国饮食文化博大精深,菜肴品类超万种,食材涵盖谷物、蔬菜、肉类、水产等数千种,但在 “饮食健康管理 - 餐饮产业运营 - 文化遗产保护” 全链条中,传统人工分类模式面临诸多局限:在健康管理领域,居民难以精准识别食材成分与菜肴营养构成(如是否含过敏原、热量高低),尤其对特殊人群(糖尿病患者、过敏体质者)而言,易因误判导致饮食风险;在餐饮产业端,酒店、食堂等规模化餐饮机构需人工分拣食材、统计菜肴出品,效率低且易出错(如食材分类误差率约 8%),导致采购成本上升与食材浪费(我国餐饮行业食材浪费率超 15%);在文化传承层面,许多传统菜肴的食材搭配、制作工艺依赖口头传承,缺乏系统的分类记录,部分地方特色菜肴面临失传风险。
同时,消费升级与健康意识提升推动饮食需求向 “精细化、个性化” 转变:据调研,超 60% 的消费者关注每日营养摄入均衡,45% 的消费者有定制化饮食需求(如减脂餐、素食餐),但传统方式难以快速匹配 “食材 - 营养 - 需求” 的对应关系 —— 例如,消费者无法快速识别菜肴中隐藏的高嘌呤食材(如动物内脏),痛风患者易误食引发不适。此外,在食品安全领域,食材变质、掺杂掺假(如以次充好的肉类、劣质粮油)需人工鉴别,效率低且难以覆盖大规模采购场景,存在安全隐患。
菜肴分类 - 食物分类项目依托计算机视觉、深度学习技术,通过采集食材外观(颜色、纹理、形态)、菜肴形态(摆盘结构、食材搭配)及烹饪特征(熟制程度、调味色泽),能识别食材新鲜度、菜肴营养成分(热量、蛋白质、过敏原)及烹饪方式(蒸、煮、炸、炒),识别准确率超 97%,单样本分析耗时不足 0.5 秒,且能适应复杂场景(如厨房操作台、餐桌、食材仓库)。这一技术突破可有效破解全链条痛点:在健康管理领域,为居民、医疗机构提供精准分类工具,帮助特殊人群规避饮食风险,辅助制定个性化营养方案;在餐饮产业端,提升食材分拣与菜肴统计效率,降低浪费与成本,推动餐饮标准化运营;在文化传承层面,通过系统分类记录菜肴特征与工艺,为传统饮食文化数字化保护提供支撑。
此外,项目成果还具有多维度价值:在食品加工行业,助力企业优化食材配比,提升产品品质稳定性;在农业产销领域,通过食材分类数据指导种植养殖,实现 “按需生产”;在饮食科普教育中,借助分类案例向公众普及营养知识与饮食文化。从长远来看,该技术不仅能推动饮食相关产业从 “粗放式运营” 向 “精细化发展” 转型,提升产业附加值,还能守护居民饮食健康,传承中华饮食文化,为构建 “健康中国” 与 “文化自信” 提供技术支撑,兼具显著的经济价值、社会价值与文化价值。
项目的技术路线图
项目的数据集信息如下:

项目里实现了9种常见的模型,包括:
CNN架构的模型:
1.AlexNet
2.VGG
3.ResNet
4.MobileNet
5.DenseNet
6.ConvNeXt
7.ShuffleNet
Transformer架构的模型:
8. Swin_Transformer
9. VIT
在我的设计的项目里,一般结构如下:
model.py: 定义模型结构
train.py:训练模型
csv文件夹里是每次训练模型生成的日志文件
logs文件夹里是TensorBoard的日志文件
weights文件夹里存储最终训练得到的模型。
举例子,ResNet模型的核心代码如下(其他模型类似,不在赘述):
class BasicBlock(nn.Module):
expansion = 1
def __init__(self, in_channel, out_channel, stride=1, downsample=None, **kwargs):
super(BasicBlock, self).__init__()
self.conv1 = nn.Conv2d(in_channels=in_channel, out_channels=out_channel,
kernel_size=3, stride=stride, padding=1, bias=False)
self.bn1 = nn.BatchNorm2d(out_channel)
self.relu = nn.ReLU()
self.conv2 = nn.Conv2d(in_channels=out_channel, out_channels=out_channel,
kernel_size=3, stride=1, padding=1, bias=False)
self.bn2 = nn.BatchNorm2d(out_channel)
self.downsample = downsample
def forward(self, x):
identity = x
if self.downsample is not None:
identity = self.downsample(x)
out = self.conv1(x)
out = self.bn1(out)
out = self.relu(out)
out = self.conv2(out)
out = self.bn2(out)
out += identity
out = self.relu(out)
return out
class Bottleneck(nn.Module):
expansion = 4
def __init__(self, in_channel, out_channel, stride=1, downsample=None,
groups=1, width_per_group=64):
super(Bottleneck, self).__init__()
width = int(out_channel * (width_per_group / 64.)) * groups
self.conv1 = nn.Conv2d(in_channels=in_channel, out_channels=width,
kernel_size=1, stride=1, bias=False) # squeeze channels
self.bn1 = nn.BatchNorm2d(width)
# -----------------------------------------
self.conv2 = nn.Conv2d(in_channels=width, out_channels=width, groups=groups,
kernel_size=3, stride=stride, bias=False, padding=1)
self.bn2 = nn.BatchNorm2d(width)
# -----------------------------------------
self.conv3 = nn.Conv2d(in_channels=width, out_channels=out_channel*self.expansion,
kernel_size=1, stride=1, bias=False) # unsqueeze channels
self.bn3 = nn.BatchNorm2d(out_channel*self.expansion)
self.relu = nn.ReLU(inplace=True)
self.downsample = downsample
def forward(self, x):
identity = x
if self.downsample is not None:
identity = self.downsample(x)
out = self.conv1(x)
out = self.bn1(out)
out = self.relu(out)
out = self.conv2(out)
out = self.bn2(out)
out = self.relu(out)
out = self.conv3(out)
out = self.bn3(out)
out += identity
out = self.relu(out)
return out
class ResNet(nn.Module):
def __init__(self,
block,
blocks_num,
num_classes=1000,
include_top=True,
groups=1,
width_per_group=64):
super(ResNet, self).__init__()
self.include_top = include_top
self.in_channel = 64
self.groups = groups
self.width_per_group = width_per_group
self.conv1 = nn.Conv2d(3, self.in_channel, kernel_size=7, stride=2,
padding=3, bias=False)
self.bn1 = nn.BatchNorm2d(self.in_channel)
self.relu = nn.ReLU(inplace=True)
self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
self.layer1 = self._make_layer(block, 64, blocks_num[0])
self.layer2 = self._make_layer(block, 128, blocks_num[1], stride=2)
self.layer3 = self._make_layer(block, 256, blocks_num[2], stride=2)
self.layer4 = self._make_layer(block, 512, blocks_num[3], stride=2)
if self.include_top:
self.avgpool = nn.AdaptiveAvgPool2d((1, 1)) # output size = (1, 1)
self.fc = nn.Linear(512 * block.expansion, num_classes)
for m in self.modules():
if isinstance(m, nn.Conv2d):
nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
def _make_layer(self, block, channel, block_num, stride=1):
downsample = None
if stride != 1 or self.in_channel != channel * block.expansion:
downsample = nn.Sequential(
nn.Conv2d(self.in_channel, channel * block.expansion, kernel_size=1, stride=stride, bias=False),
nn.BatchNorm2d(channel * block.expansion))
layers = []
layers.append(block(self.in_channel,
channel,
downsample=downsample,
stride=stride,
groups=self.groups,
width_per_group=self.width_per_group))
self.in_channel = channel * block.expansion
for _ in range(1, block_num):
layers.append(block(self.in_channel,
channel,
groups=self.groups,
width_per_group=self.width_per_group))
return nn.Sequential(*layers)
def forward(self, x):
x = self.conv1(x)
x = self.bn1(x)
x = self.relu(x)
x = self.maxpool(x)
x = self.layer1(x)
x = self.layer2(x)
x = self.layer3(x)
x = self.layer4(x)
if self.include_top:
x = self.avgpool(x)
x = torch.flatten(x, 1)
x = self.fc(x)
return x
并且项目对模型进行了优化改进,改进的内容是增加CBAM注意力机制,项目里可以实现对以上任意一种模型增加CBAM注意力机制。
常见的做法是先选择2-4种候选模型(9种模型都用有点多,推荐选部分你喜欢的模型)做对比实验,选出性能最好的模型,在最优的模型的基础上,进一步增加cbam注意力机制,进行优化改进。如果老师要求高,可以在进一步做消融实验(即模型改进优化前后的对比实验)。
CBAM机制的核心代码如下:
# CBAM 注意力模块实现 (可复用)
class CBAM(nn.Module):
def __init__(self, channels: int, reduction_ratio: int = 16, kernel_size: int = 7):
super(CBAM, self).__init__()
# 通道注意力
self.channel_att = nn.Sequential(
nn.AdaptiveAvgPool2d(1),
nn.Conv2d(channels, channels // reduction_ratio, kernel_size=1, bias=False),
nn.ReLU(inplace=True),
nn.Conv2d(channels // reduction_ratio, channels, kernel_size=1, bias=False),
nn.Sigmoid()
)
# 空间注意力
self.spatial_att = nn.Sequential(
nn.Conv2d(2, 1, kernel_size=kernel_size, padding=kernel_size // 2, bias=False),
nn.Sigmoid()
)
def forward(self, x: torch.Tensor) -> torch.Tensor:
# 通道注意力
channel_att = self.channel_att(x)
x_channel = x * channel_att
# 空间注意力
max_pool = torch.max(x_channel, dim=1, keepdim=True)[0]
avg_pool = torch.mean(x_channel, dim=1, keepdim=True)
spatial_att = self.spatial_att(torch.cat([max_pool, avg_pool], dim=1))
x_out = x_channel * spatial_att
return x_out
CBAM结构的示意图如下:
CBAM注意力机制是一种用于前馈卷积神经网络的简单而有效的注意力模块。 给定一个中间特征图,CBAM模块会沿着两个独立的维度(通道和空间)依次推断注意力图,然后将注意力图与输入特征图相乘以进行自适应特征优化。 由于CBAM是轻量级的通用模块,因此可以忽略的该模块的开销而将其无缝集成到任何CNN架构中,并且可以与基础CNN一起进行端到端训练。
首先,输入是一个中间特征图,将特征图输入至Channel Attention Module 获取通道注意力,然后将注意力权重作用于中间特征图。
然后,将施加通道注意力的特征图输入至Spatial Attention Module 获取空间注意力,然后将注意力权重作用到特征图上。
最终,经过这两个注意力模块的串行操作,最初的特征图就经过了通道和空间两个注意力机制的处理,自适应细化特征。
训练完模型可以做对比实验,通过写代码可以制作对比曲线图和柱状图,项目的最终实验效果如下:



模型最终能达到92%以上
除了对比实验之外,还可以进一步分析模型的性能,其中
混淆矩阵实验图如下:

ROC曲线实验图如下:

以上是实验的内容。
最后基于Python的Django框架,制作最终的演示系统,最终结果预览如下:


本项目包含:
1.多模型的对比实验和图表,丰富了项目的内容。
2. 模型的优化改进,实现项目的重新。
3. 混淆矩阵和ROC等实验分析,拓展的项目的深度和内容量
4.实现了最终的演示系统,实现了项目的落地和应用。
openvela 操作系统专为 AIoT 领域量身定制,以轻量化、标准兼容、安全性和高度可扩展性为核心特点。openvela 以其卓越的技术优势,已成为众多物联网设备和 AI 硬件的技术首选,涵盖了智能手表、运动手环、智能音箱、耳机、智能家居设备以及机器人等多个领域。
更多推荐


所有评论(0)