Maxdiff系列（六）MaxDiff的数据分析（用Excel进行logit分析）.PDFVIP

下载本文档

432
0
约7.56千字
约 10页
2018-09-21 发布于天津
举报
版权申诉

Maxdiff系列（六）MaxDiff的数据分析（用Excel进行logit分析）.PDF

1、本文档共10页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Maxdiff系列（六）MaxDiff的数据分析（用Excel进行logit分析）.PDF

Maxdiff 系列（六）MaxDiff 的数据分析（用Excel 进行logit 分析）最近 10 年来，Maxdiff 在解决多个对象的偏好测量上被应用到越来越多的领域里，但是国内关于 Maxdiff 数据具体应该如何分析的介绍很少。尽管本系列曾经就 Maxdiff 的分析做了一些简单的介绍(参见《Maxdiff 系列(五) Maxdiff 的数据分析》)，但主要是从频数分析角度出发简单介绍其分析思想。目前 Maxdiff 的主流分析模型是逻辑模型(Logit model)的以及基于此模型的分层贝叶斯估算（Hierarchical Bayesian Estimation）方法。其中Logit model 是核心模型。我们就先从Logit model 的分析开始，看看它是如何用来估算Maxdiff 中各个对象的偏好效用值。至于分层贝叶斯算法，我们会在以后的系列文章中进行介绍。为什么要使用logit model，这是因为Maxdiff 记录的是消费者在面对不同对象集合时的选择（Choice ）。从模型的角度看，消费者的选择是因变量Y ，他所面对的对象集合是自变量X 。而消费者的选择（Y ）是一个离散型变量（要么选中，要么不选中），而非连续型数据（偏好打分）。这时，我们的因变量实际上具有一种概率意义，只不过我们收集到的样本数据并不是如同概率那样可以在0-1 的区间里任意取值，而是只能为0 或1。更准确地说，对于Maxdiff，我们通常采用的是条件逻辑模型（conditional logit model）。之所以使用条件逻辑模型，是因为MaxDiff 本身的特性：通过观察消费者在给定不同备选对象时的权衡取舍（trade-off ），进而估算对象之间的相对偏好程度。我们还是从一个简单的例子出发来看看具体应该怎样一步步的建模和分析。假设我们要评测8 个对象，每个受访者要做6 道MaxDiff 的题目（任务），每个题目中出现4 个对象，每个任务里出现的对象如下图所示。现在假设这个受访者在任务1 的4 个对象中最喜欢3 号对象，最不喜欢8 号对象。那么我们收集到的回答数据就是这样。如果我们把这个受访者在所有6 个任务的回答都排列在一起，那么数据就是下面这种形式。当然，上面这种数据还不能直接进行分析，必须进行进一步的编码。这里插一句，在数据分析中，编码（coding ）是相当重要的环节。大家通常对各种酷炫的统计和数学模型感兴趣，但是却往往忽视了编码的重要性，以至于真实数据到手后不知道如何整理成软件或程序可以处理的样子。条件逻辑模型的编码方式针对Maxdiff 数据，我们通常采用dummy coding 的方式（详见《联合分析中不同的编码方式》），因为这种编码方式最接近模型的原始含义，也最便于读者理解。首先，我们需要记录受访者的编号ID，例如我们取第1个受访者的数据（ID=1），然后分别是任务（Task ）、概念(Concept)、对象(Item1-Item8)。以这个受访者的任务 1 为例。其第1 个概念(concept)中出现是8 号对象，于是我们将其他7 个对象编码为0 ，将8 编码为1：我们可以依次将任务1 中的4 个概念均按照这种方式进行编码。那么我们得到的任务1 的完整的自变量数据就是下面的格式，可以看到，这种编码相当于把原始数据“竖”着摆放起来，并且把每个对象出现与否编码为若干个 0-1 变量：接下来，我们需要把因变量数据(response)也加上。考虑到这个受访者在第一个任务中最喜欢3 号对象(Item3)，因此，我们在上面的数据中增加一列，如果受访者最喜欢第几个概念，那么在相对应行上就是1，否则就是0 。需要注意的是，MaxDiff 不仅仅要受访者选择 “最喜欢”的对象，还要选择 “最不喜欢”的对象。这时的数据格式如下，可以看到，这里只是简单地把自变量编码中的1 变为-1，而因变量的编码格式不变。我们把这两部分编码数据合并起来，就得到了第一个任务完整的数据：通过这样的编码方式，我们看到在任务1 中，最喜欢的对象3 的回答被编码成了1，其余没被选中的都留作0 ，同样地最不喜欢的对象8 ，在“最不喜欢”编码中被编码成了1，其余没被选中的都留作0 。我们每个任务都被编码了两次，用于分析的实际任务总数也就由6 个变成了12 个。把所有任务按照以上编码方式编码，会得到下图的数据（这种编码也是大多数软件进行条件逻辑分析时可以直接调用的数据格式）：