为了方便表示,以二维表为例。
记为第i行j列的观测值, 为对应的期望频率,且
那么第i行第j列取的概率服从泊松分布:
据此,构建似然函数进行拟合。
饱和模型中,拟合没有误差,模型自由度为0。非饱和模型可以采用似然比检验:
似然比统计量为:
自由度是两个模型的参数之差。
最优模型选择
从拟合的角度来看,最优的模型就是用最少的变量来解释数据,效果更好,即模型中的变量尽可能少,并且拟合度足够好。 ExcelStat 采用以下原则来筛选最优对数线性模型:
从饱和模型开始,将模型中的最高阶相互作用一一消除,得到多个子模型。 对于这些子模型,计算饱和模型的似然比卡方统计量并进行卡方检验。 如果子模型的P值小于0.05(即拒绝这些子模型并接受饱和模型),则停止,之前的模型是最优模型; 否则,决定排除最大P值对应的交互作用,形成新的模型。 下一次迭代。 ExcelStat在过滤时遵循lineage(分层模型)规则:即如果模型中出现高阶效应,则构成该高阶效应的所有低阶效应,包括主效应,也必须出现在模型中。型号.示例
下面的示例数据是一项关于乳腺癌的研究,是一个 3 维列联表。
该模型表明诊断中心与核异型性之间以及核异型性与生存状态之间可能存在相关性。
ExcelStat筛选结果如下:
标签: 线性模型
评论列表