Python使用VIF实现检测多重共线性

多重共线性是指多元回归模型中有两个或两个以上的自变量，它们之间具有高度的相关性。当某些特征高度相关时，我们可能很难区分它们对因变量的个体影响。多重共线性可以使用各种技术来检测，其中一种技术是方差膨胀因子（VIF）。

在VIF方法中，我们选择每个特征并将其与所有其他特征进行回归。对于每个回归，因子计算如下：

其中，R平方是线性回归中的决定系数。它的值介于0和1之间。

正如我们从公式中看到的，R平方的值越大，VIF越大。因此，VIF越大，相关性越强。这与较高的R平方值表示较强的共线性的事实一致。通常，VIF高于5表示高多重共线性。

使用statmodels实现VIF

statsmodels提供了一个名为variance_inflation_factor()的函数来计算VIF。

语法：statmodels.stats.outliers_influence.variance_inflation_factor（exog，exog_idx）

主要参数：

exog：一个数组，包含对其执行线性回归的特征。

exog_idx：要测量其对其他特征的影响的附加特征的索引。

示例

下例中使用的数据集包含500人的身高、体重、性别和体重指数。这里的因变量是指数。

import pandas as pd # the dataset data = pd.read_csv('BMI.csv') # printing first few rows print(data.head())

输出

Gender Height Weight Index
0 Male 174 96 4
1 Male 189 87 2
2 Female 185 110 4
3 Female 195 104 3
4 Male 149 61 3

方法

每个特征索引都被传递给variance_inflation_factor()以找到相应的VIF。

这些值以Pandas DataFrame的形式存储。

from statsmodels.stats.outliers_influence import variance_inflation_factor # creating dummies for gender data['Gender'] = data['Gender'].map({'Male':0, 'Female':1}) # the independent variables set X = data[['Gender', 'Height', 'Weight']] # VIF dataframe vif_data = pd.DataFrame() vif_data["feature"] = X.columns # calculating VIF for each feature vif_data["VIF"] = [variance_inflation_factor(X.values, i) for i in range(len(X.columns))] print(vif_data)

输出

feature VIF
0 Gender 2.028864
1 Height 11.
2 Weight 10.

正如我们所看到的，身高和体重具有非常高的VIF值，表明这两个变量高度相关。这是预料之中的，因为一个人的身高确实会影响他们的体重。因此，将这两个特征一起考虑会导致具有高多重共线性的模型。

到此这篇关于Python使用VIF实现检测多重共线性的文章就介绍到这了,更多相关Python检测多重共线性内容请搜索本网站以前的文章或继续浏览下面的相关文章希望大家以后多多支持本网站！

您可能感兴趣的文章:

python数据预处理 :数据共线性处理详解

Python使用VIF实现检测多重共线性

目录

使用statmodels实现VIF

示例

方法

2023年最新react面试题总结大全(附详细答案)

python实现自动更换ip的方法

Python中的for循环示例详解

可爱松鼠微信头像图片

Ghost安装器怎么安装Win10-Ghost安装器下安装Win10专业版系统详细图文教程

VUE3使用JSON编辑器的详细图文教程

iphone X如何关闭后台？苹果iphone X关闭软件后台方法介绍

Uint 和 int 的区别解析

Headshot插件如何使用-Headshot插件使用教程

Filecoin(FIL)是什么币？如何挖掘Filecoin

SpringCloud之Config配置中心与Redis分布式锁详解

Windows下jdk安装与卸载超详细步骤

ai怎么手绘神秘的山洞场景插画-

电脑的集显和独显哪个好独显和集显有什么区别

WPS提示"启用宏功能需要安装VB支持库"怎么办-

wps怎么制作考试答题卡- wps答题卡模板的制作方法

mysql中删除数据的几种方法(最新推荐)

Oracle终极彻底卸载的完整步骤

MySQL迁移到PostgreSQL操作指南

vivoz5智慧识屏怎么用-vivoz5智慧识屏使用方法教程

Python使用VIF实现检测多重共线性

目录

使用statmodels实现VIF

示例

方法

2023年最新react面试题总结大全(附详细答案)

python实现自动更换ip的方法

Python中的for循环示例详解

可爱松鼠微信头像图片

Ghost安装器怎么安装Win10-Ghost安装器下安装Win10专业版系统详细图文教程

VUE3使用JSON编辑器的详细图文教程

iphone X如何关闭后台？苹果iphone X关闭软件后台方法介绍

Uint 和 int 的区别解析

Headshot插件如何使用-Headshot插件使用教程

Filecoin(FIL)是什么币？如何挖掘Filecoin

SpringCloud之Config配置中心与Redis分布式锁详解

Windows下jdk安装与卸载超详细步骤

ai怎么手绘神秘的山洞场景插画-

电脑的集显和独显哪个好 独显和集显有什么区别

WPS提示"启用宏功能需要安装VB支持库"怎么办-

wps怎么制作考试答题卡- wps答题卡模板的制作方法

mysql中删除数据的几种方法(最新推荐)

Oracle终极彻底卸载的完整步骤

MySQL迁移到PostgreSQL操作指南

vivoz5智慧识屏怎么用-vivoz5智慧识屏使用方法教程

电脑的集显和独显哪个好独显和集显有什么区别