B题优秀论文-2数学建模竞赛.pdfVIP

B题优秀论文-2数学建模竞赛.pdf

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

队伍编号dsa2300171

题号()

B

基于大数据分析的电影数据探究

摘要

电影被称为第七艺术,发展至今已成为包含多种艺术形式和现代科技的艺术综合体,

其质量和口碑的好坏对于电影票房的成绩具有非常重要的影响,更影响着剧组工作人员

等制作者和投资公司的经济效益收入。本文将通过数据统计与分析相结合,建立全面的

电影评估模型,对电影各个要素的关系进行更为深入的探讨。

针对问题一,我们首先对附件一中的电影类型进行处理,将斜杆替换成逗号,去除

多个连续空格,然后进行拆分和转换。接着统计电影类型出现次数和概率分布,并使用

饼图和直方图展示最受欢迎的电影类型。然后处理导演信息,统计每个导演在数据集中

的出现次数,并使用直方图展示排名前250名电影中出现次数最多的导演前10名。最

后,读取国家生成词云图的文本文件,处理好国家中的分隔符,生成词云图对象并使用

matplotlib库来显示,展示出现次数最多的国家前5名。

针对问题二,对于第一小问电影上映的集中年份,我们首先单独提取上映年份一列,

使用value_counts()函数对每年的电影上映数进行计数,然后使用barplot和

distplot()函数绘制核密度图与条形图,通过观察核密度图的峰值和条形图的高峰,可

以确定电影上映数的主要集中时间。我们通过分析,可以发现电影上映数的主要集中时

间2010年前后5年左右。最后,我们根据问题二电影的评分与评论人数、国家、导演、

和电影类型的关系,采用热力图的绘制来观测电影评分与其他变量的关系。首先单独取

评分和评论人数两列值做数据准备,然后来计算两者之间的皮尔逊相关系数和判别函数

系数。接着对国家、导演以及电影类型数据进行处理,分别将其不同的国家和电影按评

分进行分组,统计对应前20个国家、20位导演及每种电影类型电影上映数量。同时对

每个独立的电影类型创建一个新列,并根据原始数据填充0或1,做数据准备工作。最

后采用Seaborn库中的heatmap分别对电影评分和其余三个变量进行热力图形的绘制,

并对图形的颜色和标签等参数进行设置。

针对问题三,我们首先将附件二的数据转化为DataFrame并对数据进行清洗,包括

修正异常值、处理缺失值和删除重复值。接着,我们读取清洗后的电影数据集,并对电

影类型进行拆分,统计不同类型电影出现的频率并转换为概率。为了更好地展示不同类

型电影出现的频率,我们绘制了电影类型出现的频率直方图和圆环图。其中,直方图用

于展示不同类型电影出现的频率,圆环图则更加直观地展示不同类型电影出现的比例。

此外,我们对电影总票房、平均场次、平均票价、上映时间等指标进行了分析,统计数

据的频数并确定数据范围和间隔,并绘制了直方图。对于上映时间,我们需要将其转换

为整数类型。最后,我们对绘制的图表进行了美化,包括添加标签和标题、调整颜色和

字体大小等,并保存图片。

针对问题四,对于2024年春节的电影推荐方案,我们对数据集进行划分选取三个

模型来训练数据集,以总票房做为预测标准。经过r2,均方误差,平均绝对误差等指标

的比对最终选取随机森林回归模型来预测票房较高的电影,不断对模型进行调参获取最

后的结果并据此提出相关方案。

关键词:特征挖掘;热力图分析;交叉验证随机森林模型;文本分析

141

第页共页

目录

一、问题的重述4

1.1问题的背景4

1.2问题的提出4

二、问题的分析4

2.1问题一的分析4

2.1.1对电影类型进行处理4

2.1.2统计电影类型出现次数和概率分布4

2.1.3统计导演信息4

2.1.4绘制国家出现次数词云图4

2.2问题二的分析5

2.2.1电影集中年份筛选5

文档评论(0)

数学建模-赛道做 + 关注
实名认证
服务提供商

各类数学建模竞赛-文档,及优秀论文分享

1亿VIP精品文档

相关文档