همخطی، شناسایی و درمان
مفهوم همخطی
درعلم آمار و اقتصادسنجی، همخطی به پدیده ای اطلاق میشود که در آن یک متغیر توضیحی در یک مدل رگرسیونی چندگانه را میتوان با دقت بالایی توسط سایر متغیرهای توضیحی پیشبینی کرد. همخطی قدرت پیشبینی کل مدل رگرسیونی را تحت تاثیر قرار نمیدهد؛ چرا که دردر رگرسیون چندگانه اثرات همپوشانی متغیرها لحاظ میشود . با این حال میتواند بر میزان اثرات فردی هر یک از متغیرهای توضیحی اثر بگذارد؛ بنابراین چنانچه هدف شما پیشبینی متغیر وابسته است نگرانی از مساله همخطی بیمورد است.
در بیان مفروضات مربوط به تحلیل رگرسیون حداقل مربعات معمولی، عبارت «عدم وجود همخطی» معمولاً به فقدان رابطه خطی کامل اشاره دارد که یک رابطه خطی دقیق (غیر تصادفی) بین متغیرهای توضیحی است(با ضریب همبستگی نزدیک به 1 یا منفی 1). بنابراین یکی از دلایل اصلی رخداد همخطی می توان به تصریح غلط مدل رگرسیونی مرتبط باشد. برای مثال فرض کنید تولید ناخالص داخلی را بر اجزای آن (مصرف بخش خصوصی، مخارج دولت، سرمایهگذاری، صادرات و واردات) رگرس کنیم؛ در این صورت به طور قطع مساله همخطی وجود خواهد داشت. در واقع ما در تحلیل رگرسیونی نمی توانیم روابط اتحادی و معادلات را تخمین بزنیم و حتما باید رابطه متغیرهای توضیحی و وابسته به صورت استوکاستیک (تصادفی) باشد.
کشف همخطی
معیارهای مختلفی برای تشخیص مساله همخطی در رگرسیون وجود دارد:
چنانچه با اضافه کردن یا کم کردن یک متغیر توضیحی، تغییرات زیادی در ضرایب رگرسیونی ایجاد شود، ممکن است همخطی شدیدی در مدل وجود داشته باشد.
اگر مدل آماری بر آساس آزمون F به صورت کلی معنادار باشد، اما اکثر ضرایب رگرسیونی، معنادار نباشد، احتمال وجود همخطی وجود دارد.
برخی از محققان همخطی را بر اساس شاخص تلورانس یا عامل تورم واریانس (VIF) تشخیص میدهند. چنانچه تلورانس در مدل رگرسیونی کمتر از 0.2 یا 0.1 باشد یا VIF بیشتر از 5 یا 10 باشد، مساله همخطی رایج خواهد بود.
آزمون فارار- گلاوبر: اگر متغیرها متعامد باشند، همخطی وجود ندارد. اگر متغیرها متعامد نباشند، حداقل درجه ای از همخطی وجود دارد. رابرت ویچرز استدلال کرده است که آزمون همبستگی نسبی فارار-گلاوبر از این جهت که یک همبستگی جزئی معین ممکن است با برخی از الگوهای مختلف همخطی سازگار باشد، اثربخش نیست. آزمون فارار-گلاوبر توسط دیگر محققان نیز مورد انتقاد قرار گرفته است.
عواقب همخطی
یکی از نتایج اصلی وجود همخطی بالا در مدل رگرسیونی این است که ممکن است با وجود مشتقپذیر بودن ماتریس متغیرهای توضیحی، نرم افزارهای کامپیوتری نتوانند وارون ماتریس را محاسبه کنند. با توجه به اینکه پارامترهای رگرسیون برآوردی اثرات هر یک از متغیرهای توضیحی را با فرض ثبات سایر متغیرهای مدل برآورد میکنند، در صورت وجود همخطی، اثرات سایر متغیرها کنترل نشده و برآورد پارامترهای رگرسیون، دقت بالایی نخواهند داشت. از آنجا که در شرایط همخطی شدید، دو یا چند متغیر روند حرکتی مشابه دارند، در نتیجه این متغیرها حاوی اطلاعات مشابهی برای پیشبینی متغیر وابسته هستند؛ بنابراین در این حالت امکان وجود متغیرهای زائد در رگرسیون وجود دارد. بنابراین در صورت وجود همخطی، قبل از هر اقدامی باید تصریح مدل به دقت بررسی شود؛ چرا که ممکن است در رگرسیون متغیرهایی با مقیاس مختلف وجود داشته باشند که ماهیتا یک پدیده را توضیح میدهند. برای مثال لحاظ کردن متغیرهای تولید ناخالص داخلی، تولید ناخالص داخلی سرانه و جمعیت در مدل شاهدی بر خطای تصریح در مدل است. در چنین شرایطی باید تصریح مدل اصلاح شود. در مثال مذبور امکان وجود همزمان سه متغیر در الگوی رگرسیونی وجود ندارد. بهترین مدلهای رگرسیون مدلهایی هستند که متغیرهای توضیحی به صورت انفرادی با متغیر وابسته ارتباط زیادی داشته باشند اما همبستگی متغیرهای توضیحی با یکدیگر در کمترین میزان خود باشد.
تا زمانی که تصریح الگو صحیح باشد، همخطی در واقع تورش زیادی را به همراه ندارد. این مساله تنها منجر به افزایش انحراف استاندارد متغیرهای مستقل میشود. مهمتر از این مساله، استفاده از پارامترهای مدل رگرسیونی برای سایر دادههای خارج از نمونه و پیشبینی برون نمونهای است. از آنجا که همخطی دقت برآورد ضرایب را کاهش میدهد، پیش بینیهای خارج از نمونه نیز غیردقیق خواهد بود و اگر الگوی همخطی در داده های خارج از نمونه با داده هایی مدل رگرسیون متفاوت باشد، خطاهای بزرگی در پیش بینی ها ایجاد کند. با این حال چنانچه الگوی همخطی در مشاهدات مدل رگرسیونی با الگوی همخطی در مشاهدات برون نمونه یکسان باشد، نباید از وجود مساله همخطی نگران باشید.
درمان همخطی
1. اطمینان حاصل کنید که در دام متغیر مجازی گرفتار نشده باشید. زمانی که با وجود عرض از مبدا در مدل رگرسیون، برای هر گروه (به عنوان مثال، تابستان، پاییز، زمستان و بهار) یک متغیر مجازی تعریف میکنید، بدون شک همخطی کامل بین متغیرهای مجازی و عرض از مبدا وجود خواهد داشت؛ چرا که در ساختار ماتریسی برای در نظر گرفتن عرض از مبدا، یک ستون با مقادیر یک تعریف شده است و چنانچه برای یک متغیر فرضا 4 حالتی 4 متغیر مجازی تعریف کنید ترکیب این 4 متغیر با متغیر عرض از مبدا همبستگی کامل خواهد داشت. به همین دلیل همواره باید در تعریف متغیرهای مجازی یک حالت را به صورت پایه درنظر گرفت و تعداد متغیرهای مجازی برای متغیر مذبور باید یک واحد کمتر از طبقات آن متغیر باشد.
2. با وجود همخطی ، هیچ کاری انجام ندهید. اگر الگوی رابطه بین متغیرهای مستقل در مشاهدات برون نمونهای نیز دچار تغییر زیادی نشود، همخطی مساله مهمی در تبیین رفتار متغیر وابسته ایجاد نمیکند.
3. ایجاد تبدیلاتی در الگوی رگرسیون(استفاده از نسبت متغیرها، لگاریتم و ...)
4.حذف متغیر عامل همخطی: برای رسیدن به مدلی که درآن ضرایب رگرسیونی معنادار باشند، ممکن است یک متغیر توضیحی حذف شود. با این حال، این موضوع سبب از دست رفتن اطلاعات میشود(به دلیل حذف متغیر). حذف یک متغیر مربوطه منجر به برآورد ضریب تورشدار برای متغیرهای توضیحی باقیمانده می شود که با متغیر حذف شده مرتبط هستند
5. در صورت امکان حجم نمونه را افزایش دهید. داده های بیشتر می توانند برآورد دقیقتری از پارامترها (با خطاهای استاندارد پایین تر) تولید کنند.
6.استفاده از رگرسیون ریج یا رگرسیون مولفههای اصلی
7. اگردلیل همخطی استفاده از وقفه متغیرها در الگوی رگرسیون باشد میتوان از روش ARDL برای برآورد استفاده کرد.