Sunday, 24 December 2017

تشغيل كيف ل - تسجيل الخطية الانحدار في و الحسابية - الفوركس


تحليل الانحدار الخطي باستخدام ستاتا مقدمة الانحدار الخطي، المعروف أيضا باسم الانحدار الخطي البسيط أو الانحدار الخطي ثنائي المتغير، يستخدم عندما نريد التنبؤ بقيمة المتغير التابع استنادا إلى قيمة متغير مستقل. على سبيل المثال، يمكنك استخدام الانحدار الخطي لفهم ما إذا كان يمكن توقع أداء الامتحان بناء على وقت المراجعة (أي أن المتغير التابع الخاص بك سيكون أداء الامتحان، ويقاس من 0-100 علامة، والمتغير المستقل الخاص بك سيكون وقت المراجعة، ويقاس بالساعات) . بدلا من ذلك، يمكن أن تستخدم الانحدار الخطي لفهم ما إذا كان يمكن التنبؤ استهلاك السجائر على أساس مدة التدخين (أي المتغير التابع الخاص بك سيكون استهلاك السجائر، ويقاس من حيث عدد السجائر المستهلكة يوميا، والمتغير المستقل الخاص بك سيكون مدة التدخين، قياس في الايام). إذا كان لديك متغيرين مستقلين أو أكثر، بدلا من متغير واحد فقط، تحتاج إلى استخدام الانحدار المتعدد. بدلا من ذلك، إذا كنت ترغب فقط في تحديد ما إذا كانت هناك علاقة خطية، يمكنك استخدام بيرسونس الارتباط. ملاحظة: ويشار إلى المتغير التابع أيضا باسم متغير النتيجة أو الهدف أو المعيار، في حين أن المتغير المستقل يشار إليه أيضا باسم المتنبأ، متغير تفسيرية أو رجعية. في نهاية المطاف، أيهما المصطلح الذي تستخدمه، فمن الأفضل أن تكون متسقة. وسوف نشیر إلی ھذه المتغیرات المستقلة والمستقلة في ھذا الدلیل. في هذا الدليل، نعرض لك كيفية تنفيذ الانحدار الخطي باستخدام ستاتا، وكذلك تفسير والإبلاغ عن نتائج هذا الاختبار. ومع ذلك، قبل أن نقدم لكم لهذا الإجراء، تحتاج إلى فهم الافتراضات المختلفة التي يجب أن تلبي البيانات الخاصة بك من أجل الانحدار الخطي لتعطيك نتيجة صالحة. نناقش هذه الافتراضات بعد ذلك. الافتراضات هناك سبعة افتراضات تدعم الانحدار الخطي. إذا لم يتم استيفاء أي من هذه الافتراضات السبعة، فلا يمكنك تحليل بياناتك باستخدام خطية لأنك لن تحصل على نتيجة صالحة. وبما أن الافتراضين 1 و 2 يتعلقان باختيار المتغيرات، فلا يمكن اختبارهما لاستخدام ستاتا. ومع ذلك، يجب عليك أن تقرر ما إذا كانت دراستك تلبي هذه الافتراضات قبل الانتقال. الافتراض 1: يجب قياس المتغير التابع الخاص بك على المستوى المستمر. ومن أمثلة هذه المتغيرات المستمرة الارتفاع (مقيس بالأقدام والبوصة)، ودرجة الحرارة (المقاسة بالساعة C)، والراتب (مقيس بالدولار الأمريكي)، ووقت المراجعة (مقيس بالساعات)، والذكاء (المقيس باستخدام درجة الذكاء)، ووقت التفاعل ( مقاسة بالميلي ثانية)، وأداء الاختبار (يقاس من 0 إلى 100)، والمبيعات (مقاسة بعدد المعاملات في الشهر)، وهكذا دواليك. إذا لم تكن متأكدا مما إذا كان متغيرك التابع متواصلا (بمعنى أنه يتم قياسه على مستوى الفاصل الزمني أو مستوى النسبة)، فاطلع على أنواع دليل المتغيرات. الافتراض 2: يجب قياس متغيرك المستقل على المستوى المستمر أو الفئوي. ومع ذلك، إذا كان لديك متغير مستقل قاطع، فمن الأكثر شيوعا لاستخدام اختبار تي مستقل (لمجموعتين) أو في اتجاه واحد أنوفا (ل 3 مجموعات أو أكثر). في حال لم تكن متأكدا، تشمل أمثلة المتغيرات الفئوية نوع الجنس (على سبيل المثال مجموعتين: ذكور وإناث)، والعرق (على سبيل المثال 3 مجموعات: قوقازي، أمريكان أفريكان، وإسبانيون)، ومستوى النشاط البدني (على سبيل المثال 4 مجموعات: مستقرة، منخفضة، معتدلة و عالية)، والمهنة (على سبيل المثال 5 مجموعات: الجراح، الطبيب، ممرضة، طبيب الأسنان، المعالج). في هذا الدليل، نعرض لك إجراء الانحدار الخطي والإخراج ستاتا عندما تم قياس كل من المتغيرات التابعة والمستقلة على مستوى مستمر. لحسن الحظ، يمكنك التحقق من الافتراضات 3 و 4 و 5 و 6 و 7 باستخدام ستاتا. عند الانتقال إلى الافتراضات 3 و 4 و 5 و 6 و 7، نقترح اختبارها بهذا الترتيب لأنها تمثل أمرا إذا لم يعد من الممكن استخدام الانتهاك الخطي إذا لم يكن هناك انتهاك للافتراض. في الواقع، لا تفاجأ إذا فشلت البيانات الخاصة بك واحد أو أكثر من هذه الافتراضات لأن هذا هو نموذجي إلى حد ما عند العمل مع البيانات في العالم الحقيقي بدلا من الأمثلة كتاب، والتي غالبا ما تظهر فقط لك كيفية تنفيذ الانحدار الخطي عندما يسير كل شيء على ما يرام. ومع ذلك، لا داعي للقلق لأنه حتى عندما تفشل البيانات الخاصة بك بعض الافتراضات، غالبا ما يكون هناك حل للتغلب على هذا (على سبيل المثال تحويل البيانات الخاصة بك أو باستخدام اختبار إحصائي آخر بدلا من ذلك). تذكر فقط أنه إذا لم تتحقق من أن البيانات تستوفي هذه الافتراضات أو تختبرها بشكل غير صحيح، فقد لا تكون النتائج التي تحصل عليها عند تشغيل الانحدار الخطي صالحة. الافتراض 3: يجب أن تكون هناك علاقة خطية بين المتغيرات التابعة والمستقلة. في حين أن هناك عددا من الطرق للتحقق مما إذا كانت هناك علاقة خطية بين المتغيرين، نقترح إنشاء سكاتيربلوت باستخدام ستاتا، حيث يمكنك رسم المتغير التابع ضد متغير مستقل. يمكنك ثم فحص بصريا سكاتيربلوت للتحقق من الخطية. قد يبدو سكاتيربلوت الخاص بك شيئا مثل واحد مما يلي: إذا كانت العلاقة المعروضة في سكاتيربلوت الخاص بك ليست خطية، سيكون لديك إما تشغيل تحليل الانحدار غير الخطية أو تحويل البيانات الخاصة بك، والتي يمكنك القيام به باستخدام ستاتا. الافتراض 4: لا ينبغي أن تكون هناك قيم متطرفة كبيرة. القيم المتطرفة هي ببساطة نقاط بيانات واحدة ضمن بياناتك التي لا تتبع النمط المعتاد (على سبيل المثال في دراسة 100 طالب درجات الذكاء، حيث كانت النتيجة المتوسطة 108 مع اختلاف بسيط فقط بين الطلاب، وكان طالب واحد على درجة 156، والتي هو غير عادي جدا، وربما حتى وضعها في أعلى 1 من درجات الذكاء على الصعيد العالمي). تسلط النقاط العشوائية التالية الضوء على التأثير المحتمل للقيم المتطرفة: المشكلة مع القيم المتطرفة هي أنها يمكن أن يكون لها تأثير سلبي على معادلة الانحدار المستخدمة للتنبؤ بقيمة المتغير التابع استنادا إلى المتغير المستقل. سيؤدي ذلك إلى تغيير الناتج الذي ينتجه ستاتا ويقلل من الدقة التنبؤية لنتائجك. لحسن الحظ، يمكنك استخدام ستاتا لإجراء تشخيصات كاسويس لمساعدتك في الكشف عن القيم المتطرفة المحتملة. الافتراض 5: يجب أن يكون لديك استقلالية الملاحظات. والتي يمكنك التحقق بسهولة باستخدام إحصائية دوربين واتسون. وهو اختبار بسيط لتشغيل باستخدام ستاتا. افتراض 6: البيانات الخاصة بك تحتاج إلى إظهار هوموسداستيسيتي. والتي هي حيث تظل الفروق على طول خط من أفضل تناسب مماثلة كما يمكنك التحرك على طول الخط. يقدم النموذجان التاليان أمثلة بسيطة للبيانات التي تتوافق مع هذا الافتراض وتلك التي تفشل في الافتراض: عند تحليل البيانات الخاصة بك، سوف تكون محظوظا إذا كان سكاتيربلوت الخاص بك يشبه أي من الاثنين أعلاه. في حين أن هذه تساعد على توضيح الاختلافات في البيانات التي تفي أو تنتهك افتراض التماثل، والبيانات في العالم الحقيقي غالبا ما تكون أكثر فوضى. يمكنك التحقق ما إذا كانت البيانات الخاصة بك أظهرت هوموسداستيسيتي من خلال التآمر المخلفات موحدة الانحدار ضد الانحدار موحدة القيمة المتوقعة. الافتراض 7: وأخيرا، تحتاج إلى التحقق من أن المخلفات (أخطاء) من خط الانحدار يتم توزيعها بشكل طبيعي تقريبا. هناك طريقتان شائعتان للتحقق من هذا الافتراض تشمل استخدام رسم بياني (مع منحنى عادي مركب) أو مؤامرة P-P عادية. في الممارسة العملية، فإن التحقق من الافتراضات 3 و 4 و 5 و 6 و 7 ربما يستغرق معظم وقتك عند تنفيذ الانحدار الخطي. ومع ذلك، فإنه ليس مهمة صعبة، و ستاتا يوفر كل الأدوات التي تحتاج إلى القيام بذلك. في القسم، الإجراء. نوضح إجراء ستاتا المطلوب لتنفيذ الانحدار الخطي بافتراض عدم وجود افتراضات قد انتهكت. أولا، وضعنا المثال الذي نستخدمه لشرح إجراءات الانحدار الخطي في ستاتا. وتظهر الدراسات أن ممارسة يمكن أن تساعد في منع أمراض القلب. في حدود معقولة، وكلما كنت تمارس، وأقل خطر لديك من يعانون من أمراض القلب. إحدى الطرق التي تقلل من التمارين الرياضية من خطر الإصابة بأمراض القلب هي تقليل الدهون في الدم، وتسمى الكوليسترول. وكلما كنت تمارس، وانخفاض تركيز الكولسترول. وعلاوة على ذلك، فقد تبين مؤخرا أن مقدار الوقت الذي تقضيه في مشاهدة التلفزيون ندش مؤشرا على نمط الحياة المستقرة ندش قد يكون مؤشرا جيدا لأمراض القلب (أي أن أكثر تف تشاهد، وزيادة خطر الإصابة بأمراض القلب ). ولذلك، قرر باحث لتحديد ما إذا كان تركيز الكولسترول يرتبط الوقت الذي يقضيه مشاهدة التلفزيون في صحة جيدة الرجال 45-65 سنة (فئة المعرضة للخطر من الناس). على سبيل المثال، كما قضى الناس المزيد من الوقت في مشاهدة التلفزيون، هل تركيز الكولسترول أيضا زيادة (علاقة إيجابية) أو حدث العكس كما أراد الباحث أن يعرف نسبة تركيز الكولسترول أن الوقت الذي يقضيه مشاهدة التلفزيون يمكن أن يفسر، وكذلك يجري قادرة على التنبؤ تركيز الكولسترول. ويمكن للباحث بعد ذلك تحديد ما إذا كان الأشخاص الذين أمضوا ثماني ساعات يقضون مشاهدة التلفزيون في اليوم، على سبيل المثال، لديهم مستويات عالية بشكل خطير من تركيز الكوليسترول مقارنة بالأشخاص الذين يشاهدون ساعتين فقط من التلفزيون. ولتحقيق هذا التحليل، قام الباحث بتجنيد 100 مشارك من الذكور الأصحاء تتراوح أعمارهم بين 45 و 65 سنة. تم تسجيل مقدار الوقت الذي يقضيه مشاهدة التلفزيون (أي المتغير المستقل، الجدول الزمني) وتركيز الكوليسترول (أي المتغير التابع، الكولسترول) لكل 100 مشارك. وأعرب الباحث بعبارات متفاوتة عن رغبته في تراجع الكوليسترول على تيمتف. ملاحظة: المثال والبيانات المستخدمة لهذا الدليل وهمية. لقد أنشأناها للتو لأغراض هذا الدليل. الإعداد في ستاتا في ستاتا، أنشأنا متغيرين: (1) تيميتف. وهو متوسط ​​الوقت اليومي الذي يقضيه مشاهدة التلفزيون في دقائق (أي المتغير المستقل) و (2) الكولسترول. وهو تركيز الكولسترول في ممول (أي المتغير التابع). ملاحظة: لا يهم ما إذا كنت تقوم بإنشاء المتغير التابع أو المستقل أولا. بعد إنشاء هذين المتغيرين نداش تيميتف والكولسترول ندش دخلنا عشرات لكل في عمودين من محرر البيانات (تحرير) جدول البيانات (أي الوقت في ساعات أن المشاركين مشاهدة التلفزيون في العمود الأيسر (أي تيمتف. متغير مستقل)، وتركيز الكولسترول المشاركين في ممول في العمود الأيمن (أي الكوليسترول، المتغير التابع)، كما هو موضح أدناه: نشرت بإذن كتابي من ستاتاكورب ل. ب إجراء الاختبار في ستاتا في هذا القسم، نعرض لك كيفية تحليل البيانات الخاصة بك باستخدام الانحدار الخطي في ستاتا عندما لم تنتهك الافتراضات الستة في القسم السابق، افتراضات. يمكنك تنفيذ الانحدار الخطي باستخدام كود أو ستاتاس واجهة المستخدم الرسومية (غوي) بعد أن قمت بتحليل الخاص بك، ونحن تظهر لك كيفية تفسير النتائج الخاصة بك: أولا، اختر ما إذا كنت ترغب في استخدام التعليمات البرمجية أو ستاتاس واجهة المستخدم الرسومية (غوي) رمز لتنفيذ الانحدار الخطي على البيانات الخاصة بك يأخذ شكل: ريجرس ديبندنتفاريابل إنديبندنتفاريابل نشرت بإذن كتابي من ستاتاكورب لب. باستخدام مثالنا حيث المتغير التابع هو الكولسترول والمتغير المستقل هو تيميتف. فإن الرمز المطلوب سيكون: تراجعت الكولسترول تيميتف ملاحظة 1: تحتاج إلى أن تكون دقيقة عند إدخال رمز في المربع. الرمز حساس لحالة الأحرف. على سبيل المثال، إذا قمت بإدخال الكولسترول حيث C هو أحرف كبيرة بدلا من صغيرة (أي صغيرة c)، والتي ينبغي أن تكون، سوف تحصل على رسالة خطأ مثل ما يلي: ملاحظة 2: إذا كنت لا تزال تحصل على رسالة خطأ في ملاحظة 2 : أعلاه، يجدر التحقق من الاسم الذي قدمته لمتغيرين في محرر البيانات عند إعداد الملف (أي الاطلاع على شاشة محرر البيانات أعلاه). في المربع الموجود على الجانب الأيسر من شاشة محرر البيانات، هي الطريقة التي تكتب بها المتغيرات في القسم، وليس القسم الذي تحتاج إلى إدخاله في الشفرة (انظر أدناه للمتغير التابع لدينا). قد يبدو هذا واضحا، ولكنه خطأ يتم أحيانا، مما يؤدي إلى الخطأ في الملاحظة 2 أعلاه. لذلك، أدخل رمز، تراجعت الكولسترول تيميتف. واضغط على زر ريتورننتر على لوحة المفاتيح. نشرت بإذن خطي من ستاتاكورب لب. يمكنك أن ترى الإخراج ستاتا التي سيتم إنتاجها هنا. واجهة المستخدم الرسومية (غوي) الخطوات الثلاث المطلوبة لتنفيذ الانحدار الخطي في ستاتا 12 و 13 موضحة أدناه: انقر فوق S تاتيستيكش غ النماذج الخطية وما يتصل بها من الانحدار الخطي غ في القائمة الرئيسية، كما هو موضح أدناه: نشرت بإذن خطي من ستاتاكورب LP. سيتم تقديمك مع نداش نرجس الخطي مربع الحوار الانحدار: نشرت مع إذن خطي من ستاتاكورب لب. حدد الكوليسترول من داخل المتغير التابع: المربع المنسدل، و تيميتف من داخل المربع المتغير المستقل: المتغير. سوف ينتهي بك الأمر مع الشاشة التالية: نشرت بإذن كتابي من ستاتاكورب لب. نتائج تحليل الانحدار الخطي في ستاتا إذا كانت بياناتك قد اجتازت الافتراض 3 (أي أن هناك علاقة خطية بين المتغيرين)، 4 (أي لم تكن هناك قيم متطرفة كبيرة)، الافتراض 5 (أي كان لديك استقلالية للملاحظات)، الافتراض 6 ( أي أن البيانات الخاصة بك أظهرت هوموسداستيسيتي) والافتراض 7 (أي أن المخلفات (الأخطاء) كانت موزعة بشكل طبيعي تقريبا)، والتي شرحناها سابقا في قسم الافتراضات، سوف تحتاج فقط إلى تفسير الناتج الانحدار الخطي التالي في ستاتا: نشرت بإذن كتابي من ستاتاكورب لب. ويتكون الإخراج من أربع أجزاء هامة من المعلومات: (أ) تمثل قيمة R 2 (صف R-سكارد) نسبة التباين في المتغير التابع الذي يمكن تفسيره بواسطة متغيرنا المستقل (فنيا تمثل نسبة التغير بواسطة نموذج الانحدار فوق النموذج المتوسط). غير أن R 2 يستند إلى العينة وهو تقدير متحيز إيجابيا لنسبة التباين للمتغير التابع الذي يمثله نموذج الانحدار (أي أنه كبير جدا) (ب) قيمة R 2 المعدلة (أدج R - (F) (1، 98))، والأهمية الإحصائية لنموذج الانحدار (بروب غ F الصف)، والذي يصحح التحيز الإيجابي لتوفير قيمة من المتوقع أن تكون في السكان (ج) قيمة F، و (د) معاملات المتغير الثابت والمستقل (عمود كويف)، وهي المعلومات التي تحتاجها للتنبؤ بالمتغير التابع، الكوليسترول. باستخدام المتغير المستقل، تيمتف. في هذا المثال، R 2 0.151. تعديل R 2 0.143 (إلى 3 d. p.)، وهو ما يعني أن المتغير المستقل، تيمتف. يفسر 14.3 من تباين المتغير التابع، الكولسترول. في السكان. R2 المعدل هو أيضا تقدير لحجم التأثير، والتي في 0.143 (14.3)، يدل على حجم التأثير المتوسط، وفقا لتصنيف كوهينز (1988). ومع ذلك، عادة ما يكون R 2 ليس R2 المعدل الذي يتم الإبلاغ عنه في النتائج. في هذا المثال، يكون نموذج الانحدار ذو دلالة إحصائية، F (1، 98) 17.47، p .0001. وهذا يشير إلى أن النموذج المطبق يمكن أن يتنبأ إحصائيا بشكل كبير بالمتغير التابع، الكوليسترول. ملاحظة: نقدم الإخراج من تحليل الانحدار الخطي أعلاه. ومع ذلك، بما أنك يجب أن تختبر بياناتك للافتراضات التي شرحناها سابقا في قسم الافتراضات، ستحتاج أيضا إلى تفسير ناتج ستاتا الذي تم إنتاجه عند اختبار هذه الافتراضات. وهذا يشمل ما يلي: (أ) سكاتيربلوتس التي استخدمتها للتحقق مما إذا كانت هناك علاقة خطية بين المتغيرين الخاصين بك (أي الافتراض 3) (ب) التشخيص الكاسويس للتحقق من عدم وجود قيم متطرفة كبيرة (أي افتراض 4) (ج) (د) مبعثر الانحدار المعياري المتبقي ضد الانحدار الموحد قيمة متوقعة لتحديد ما إذا كانت البيانات الخاصة بك أظهرت هوموسداستيسيتي (أي الافتراض 6) ورسم بياني (مع فرضه منحنى عادي) و ب العادي قطعة للتحقق ما إذا كانت المخلفات (أخطاء) وزعت بشكل طبيعي تقريبا (أي افتراض 7). أيضا، تذكر أنه إذا فشلت البيانات الخاصة بك أي من هذه الافتراضات، فإن الإخراج الذي تحصل عليه من إجراء الانحدار الخطي (أي الناتج نناقش أعلاه) لن تكون ذات صلة، وربما يكون لديك لإجراء اختبار إحصائي مختلف لتحليل معلوماتك. الإبلاغ عن مخرجات تحليل الانحدار الخطي عند الإبلاغ عن مخرجات الانحدار الخطي، فمن الممارسة السليمة أن تشمل: (أ) مقدمة للتحليل الذي أجريته (ب) معلومات عن عينتك، بما في ذلك أي قيم مفقودة (ج) (د) النسبة المئوية للتغير في المتغير التابع الذي يفسره المتغير المستقل (أي R 2 المعدل الخاص بك) و (ه) معادلة الانحدار لنموذجك. واستنادا إلى النتائج المذكورة أعلاه، يمكننا أن نبلغ عن نتائج هذه الدراسة على النحو التالي: إن الانحدار الخطي أثبت أن الوقت اليومي الذي يقضيه مشاهدة التلفزيون يمكن أن يتنبأ إحصائيا بدرجة كبيرة تركيز الكوليسترول، F (1، 98) 17.47، p .0001 والوقت الذي يقضيه مشاهدة التلفزيون تمثل 14.3 من التباين أوضح في تركيز الكوليسترول. كانت معادلة الانحدار: توقع تركيز الكوليسترول -2.135 0.044 × (الوقت الذي يقضيه مشاهدة التلفزيون). بالإضافة إلى الإبلاغ عن النتائج على النحو الوارد أعلاه، يمكن استخدام رسم بياني لعرض النتائج بصريا. على سبيل المثال، يمكنك القيام بذلك باستخدام سكاتيربلوت مع فترات الثقة والتنبؤ (على الرغم من أنه ليس من الشائع جدا لإضافة الماضي). وهذا يمكن أن يسهل على الآخرين فهم نتائجك. وعلاوة على ذلك، يمكنك استخدام معادلة الانحدار الخطي الخاص بك لجعل التنبؤات حول قيمة المتغير التابع استنادا إلى قيم مختلفة للمتغير المستقل. في حين أن ستاتا لا تنتج هذه القيم كجزء من إجراء الانحدار الخطي أعلاه، هناك إجراء في ستاتا يمكنك استخدامه للقيام بذلك. ملاحظة: سوف إدر المجموعة الاستشارية الإحصائية ترحيل الموقع إلى وردبريس كمس في فبراير لتسهيل صيانة وإنشاء محتوى جديد. ستتم إزالة بعض صفحاتنا القديمة أو وضعها في الأرشيف بحيث لا يتم الاحتفاظ بها بعد الآن. سنحاول الحفاظ على عمليات إعادة التوجيه بحيث تستمر عناوين ورل القديمة في العمل بأفضل ما في وسعنا. مرحبا بكم في معهد البحوث والتعليم الرقمي مساعدة مجموعة الاستشارات الاستشارية من خلال إعطاء هدية أسئلة وأجوبة كيف يمكنني تفسير نموذج الانحدار عندما يتم تحويل بعض المتغيرات سجل مقدمة في هذه الصفحة، سوف نناقش كيفية تفسير نموذج الانحدار عندما بعض المتغيرات في وقد تم تحويل السجل سجل. يمكن تنزيل بيانات المثال هنا (الملف بتنسيق كسف.). المتغيرات في مجموعة البيانات هي الكتابة، القراءة، والرياضيات درجات (الكتابة القراءة والرياضيات). سجل تحويل الكتابة (لغريت) وتسجيل عشرات الرياضيات تحويلها (لغماث) والإناث. لهذه الأمثلة، اتخذنا السجل الطبيعي (لن). يتم كل الأمثلة في ستاتا، ولكن يمكن إنشاؤها بسهولة في أي حزمة إحصائية. في الأمثلة أدناه، سيتم استخدام الكتابة المتغيرة أو النسخة المحولة السجل كمتغير النتيجة. وتستخدم الأمثلة لأغراض التوضيح ولا يقصد بها أن تكون منطقية. هنا جدول أنواع مختلفة من الوسائل للكتابة المتغيرة. متغير النتيجة هو تحويل لوغ في كثير من الأحيان، يتم افتراض العلاقة الخطية بين متغير النتيجة سجل تحويلها ومجموعة من المتغيرات التنبؤ. مكتوبة رياضيا، والعلاقة تتبع المعادلة حيث y هو متغير النتيجة و x1. هك هي متغيرات التنبؤ. وبعبارة أخرى، نفترض أن لوغ (y) - x 946 يتم توزيعه عادة، (أو y هو لوغ-نورمال شرطي على جميع المتغيرات المشتركة). وبما أن هذا هو مجرد العاديين المربعات أقل المربعات، يمكننا بسهولة تفسير معامل الانحدار، (946 1)، حيث أن التغير المتوقع في سجل y بالنسبة إلى زيادة وحدة واحدة في x1 يحمل جميع المتغيرات الأخرى بأي قيمة ثابتة، على افتراض أن X1 يدخل النموذج فقط كأثر رئيسي. ولكن ماذا لو كنا نريد أن نعرف ما يحدث لمتغير النتيجة ذ نفسه لزيادة وحدة واحدة في X1 والطريقة الطبيعية للقيام بذلك هو تفسير معاملات الانحدار الأسية، إكس (946). لأن الأسية هي معكوس لوغاريتم الدالة. دعونا نبدأ مع نموذج اعتراض فقط، سجل (الكتابة) 946 0. يمكننا القول أن 3.95 هو المتوسط ​​المتوقع غير المشروط من سجل الكتابة. وبالتالي فإن قيمة الأس هي إكس (3.948347) 51.85. هذا هو المتوسط ​​الهندسي للكتابة. التركيز هنا هو أنه هو المتوسط ​​الهندسي بدلا من الوسط الحسابي. ويستخدم انحدار عملية شريان الحياة للسودان المتغير الأصلي لتقدير المتوسط ​​الحسابي المتوقع وانحدار عملية شريان الحياة للسجل المتغير الناتج المتحول من السجل إلى تقدير المتوسط ​​الهندسي المتوقع للمتغير الأصلي. الآن يتيح الانتقال إلى نموذج مع متغير متغير ثنائي واحد. قبل الغوص في تفسير هذه المعلمات، يتيح الحصول على وسائل المتغير التابع لدينا، والكتابة. حسب الجنس. الآن يمكننا تعيين تقديرات المعلمة إلى الوسائل الهندسية للمجموعتين. اعتراض 3.89 هو سجل الوسط الهندسي للكتابة عند الإناث 0، أي للذكور. لذلك، فإن القيمة الأسية لها هي المتوسط ​​الهندسي للمجموعة الذكور: إكس (3.892) 49.01. ماذا يمكننا أن نقول عن معامل للإناث. في مقياس السجل، هو الفرق في الوسائل الهندسية المتوقعة لسجل الكتابة بين الطالبات والطالبات. في النطاق الأصلي للكتابة المتغيرة. وهي نسبة المتوسط ​​الهندسي للكتابة للطالبات على المتوسط ​​الهندسي للكتابة للطلاب الذكور، إكس (.1032614) 54.3438349.01222 1.11. من حيث نسبة التغيير، يمكننا القول بأن التحول من الطلاب الذكور إلى الطالبات، ونحن نتوقع أن نرى حوالي 11 زيادة في المتوسط ​​الهندسي من عشرات الكتابة. وأخيرا، دعونا ننظر إلى نموذج مع متغيرات متعددة التنبؤ. أما معامل المعادلة الأسية (946 1) للإناث فهو نسبة المتوسط ​​الهندسي المتوقع لمجموعة الطالبات مقارنة بالمتوسط ​​الهندسي المتوقع لمجموعة الطلاب الذكور، عند القراءة والرياضيات في بعض القيم الثابتة. وبطبيعة الحال، فإن الوسائل الهندسية المتوقعة لمجموعة الطلاب والطالبات ستكون مختلفة لقيم مختلفة من القراءة والرياضيات. ومع ذلك، فإن نسبة ثابتة: إكس (946 1). في مثالنا، إكس (946 1) إكس (.114718) 1.12. نستطيع القول أن درجات الكتابة ستكون أعلى بنسبة 12 في المائة للطالبات مقارنة بالطلبة الذكور. لقراءة المتغير. يمكننا القول أن لزيادة وحدة واحدة في القراءة. ونحن نتوقع أن نرى حوالي 0.7 زيادة في النتيجة الكتابة، منذ إكس (.0066305) 1.006653. لزيادة عشرة وحدات في القراءة. ونحن نتوقع أن نرى عن زيادة 6.9 في كتابة النتيجة، منذ إكس (.006630510) 1.0685526. يصبح الاعتراض أقل إثارة للاهتمام عندما لا تكون متغيرات التنبؤ مركزة ومستمرة. في هذا النموذج بالذات، اعتراض هو المتوسط ​​المتوقع لوغ (الكتابة) للذكور (الإناث 0) عند القراءة والرياضيات تساوي الصفر. باختصار، عندما يكون متغير النتيجة هو تحويل السجل، فمن الطبيعي أن تفسر معاملات الانحدار الأسية. وتتوافق هذه القيم مع التغيرات في نسبة الوسائل الهندسية المتوقعة لمتغير النتيجة الأصلي. بعض المتغيرات (ليس كل) متنبأ هي تحويل سجل في بعض الأحيان، لدينا أيضا بعض متغيرات التنبؤ يجري تسجيل تحويلها. في هذا القسم، سوف نلقي نظرة على مثال حيث يتم تحويل بعض المتغيرات التنبؤ السجل، ولكن متغير النتيجة هو في نطاقه الأصلي. مكتوبة في المعادلة، لدينا وبما أن هذا هو انحدار عملية شريان الحياة للسودان، فإن تفسير معاملات الانحدار للمتغيرات غير المتحولة لم يتغير من انحدار عملية شريان الحياة للسودان دون أي متغيرات محولة. على سبيل المثال، فإن متوسط ​​الفرق المتوقع في درجات الكتابة بين الطلاب الإناث والذكور هو حوالي 5.4 نقطة، مع الحفاظ على متغيرات التنبؤ الأخرى ثابتة. من ناحية أخرى، بسبب التحول السجل، والآثار المقدرة من الرياضيات والقراءة لم تعد خطية، على الرغم من أن تأثير لغماث و لغريد خطية. ويبين المخطط أدناه منحنى القيم المتوقعة ضد درجات القراءة لمجموعة الطلاب الإناث الحاصل على درجة الرياضيات ثابتة. كيف يمكننا تفسير معامل 16.85218 لمتغير سجل النتيجة القراءة دعونا تأخذ قيمتين من القراءة النتيجة، r1 و r2. إن متوسط ​​الفرق المتوقع في درجة الكتابة عند r1 و r2 مع الاحتفاظ بمتغيرات المتنبأ الأخرى ثابتة هو الكتابة (r2) - الكتابة (r1) 946 3 (لوغ (r2) - لوغ (r1)) 946 3 لوغ (r2r1). وهذا يعني أنه طالما أن نسبة الزيادة في القراءة (متغير التنبؤ) ثابتة، فسوف نرى نفس الفارق في درجة الكتابة، بغض النظر عن نقاط القراءة الأساسية. على سبيل المثال، يمكننا أن نقول أنه للحصول على 10 زيادة في درجة القراءة، فإن الفرق في متوسط ​​درجات الكتابة المتوقعة يكون دائما 946 3 سجل (1.10) 16.85218log (1.1) 1.61. كل من متغير النتيجة وبعض متغيرات التنبؤ هي تحويل سجل ما يحدث عندما يكون كل من متغير النتيجة ومتغيرات التنبؤ هي تحويل السجل يمكننا الجمع بين اثنين من الحالات الموصوفة سابقا في واحد. هنا مثال على هذا النموذج. كتبنا كمعادلة، يمكننا وصف النموذج: بالنسبة للمتغيرات التي لم تتحول، مثل الإناث. معامله الأسي هو نسبة المتوسط ​​الهندسي للإناث إلى المتوسط ​​الهندسي لمجموعة الطلاب الذكور. على سبيل المثال، في مثالنا، يمكننا أن نقول إن الزيادة المتوقعة في المتوسط ​​الهندسي من مجموعة الطلاب الذكور إلى مجموعة الطالبات هي حوالي 12 عقد متغيرات أخرى ثابتة، منذ إكس (.1142399) 1.12. للحصول على درجة القراءة، يمكننا أن نقول أنه من أجل زيادة وحدة واحدة في درجة القراءة، كنا نتوقع أن نرى حوالي 0.7 من الزيادة في المتوسط ​​الهندسي للكتابة النتيجة، منذ إكس (.0066086) 1.007. الآن، يتيح التركيز على تأثير الرياضيات. تأخذ قيمتين من الرياضيات. m1 و m2، مع الاحتفاظ متغيرات التنبؤ الأخرى في أي قيمة ثابتة. المعادلة فوق الغلة ويمكن تبسيطها لتسجيل (الكتابة (m2) الكتابة (m1)) 946 2 (لوغ (m2m1)). مما يؤدي إلى هذا يخبرنا أنه طالما أن نسبة اثنين من عشرات الرياضيات، m2m1 يبقى نفسه، فإن النسبة المتوقعة للمتغير النتيجة، الكتابة. يبقى على حاله. على سبيل المثال، يمكننا أن نقول أنه لأي زيادة 10 في درجة الرياضيات، فإن النسبة المتوقعة من اثنين من وسائل هندسية لكتابة النتيجة ستكون 1.10946 2 1.10.4085369 1.0397057. وبعبارة أخرى، فإننا نتوقع حوالي 4 زيادة في درجة الكتابة عندما تزيد النتيجة الرياضيات بنسبة 10. محتوى هذا الموقع لا ينبغي أن يفسر على أنه تأييد لأي موقع على شبكة الإنترنت، والكتاب، أو منتج البرمجيات معين من قبل جامعة كاليفورنيا. الخطي تحليل الانحدار باستخدام ستاتا مقدمة الانحدار الخطي، المعروف أيضا باسم الانحدار الخطي البسيط أو الانحدار الخطي ثنائي المتغير، يستخدم عندما نريد التنبؤ بقيمة المتغير التابع استنادا إلى قيمة متغير مستقل. على سبيل المثال، يمكنك استخدام الانحدار الخطي لفهم ما إذا كان يمكن توقع أداء الامتحان بناء على وقت المراجعة (أي أن المتغير التابع الخاص بك سيكون أداء الامتحان، ويقاس من 0-100 علامة، والمتغير المستقل الخاص بك سيكون وقت المراجعة، ويقاس بالساعات) . بدلا من ذلك، يمكن أن تستخدم الانحدار الخطي لفهم ما إذا كان يمكن التنبؤ استهلاك السجائر على أساس مدة التدخين (أي المتغير التابع الخاص بك سيكون استهلاك السجائر، ويقاس من حيث عدد السجائر المستهلكة يوميا، والمتغير المستقل الخاص بك سيكون مدة التدخين، قياس في الايام). إذا كان لديك متغيرين مستقلين أو أكثر، بدلا من متغير واحد فقط، تحتاج إلى استخدام الانحدار المتعدد. بدلا من ذلك، إذا كنت ترغب فقط في تحديد ما إذا كانت هناك علاقة خطية، يمكنك استخدام ارتباط بيرسونس. ملاحظة: ويشار إلى المتغير التابع أيضا باسم متغير النتيجة أو الهدف أو المعيار، في حين أن المتغير المستقل يشار إليه أيضا باسم المتنبأ، متغير تفسيرية أو رجعية. في نهاية المطاف، أيهما المصطلح الذي تستخدمه، فمن الأفضل أن تكون متسقة. وسوف نشیر إلی ھذه المتغیرات المستقلة والمستقلة في ھذا الدلیل. في هذا الدليل، نعرض لك كيفية تنفيذ الانحدار الخطي باستخدام ستاتا، وكذلك تفسير والإبلاغ عن نتائج هذا الاختبار. ومع ذلك، قبل أن نقدم لكم لهذا الإجراء، تحتاج إلى فهم الافتراضات المختلفة التي يجب أن تلبي البيانات الخاصة بك من أجل الانحدار الخطي لتعطيك نتيجة صالحة. نناقش هذه الافتراضات بعد ذلك. الافتراضات هناك سبعة افتراضات تدعم الانحدار الخطي. إذا لم يتم استيفاء أي من هذه الافتراضات السبعة، فلا يمكنك تحليل بياناتك باستخدام خطية لأنك لن تحصل على نتيجة صالحة. وبما أن الافتراضين 1 و 2 يتعلقان باختيار المتغيرات، فلا يمكن اختبارهما لاستخدام ستاتا. ومع ذلك، يجب عليك أن تقرر ما إذا كانت دراستك تلبي هذه الافتراضات قبل الانتقال. الافتراض 1: يجب قياس المتغير التابع الخاص بك على المستوى المستمر. ومن أمثلة هذه المتغيرات المستمرة الارتفاع (مقيس بالأقدام والبوصة)، ودرجة الحرارة (المقاسة بالساعة C)، والراتب (مقيس بالدولار الأمريكي)، ووقت المراجعة (مقيس بالساعات)، والذكاء (المقيس باستخدام درجة الذكاء)، ووقت التفاعل ( مقاسة بالميلي ثانية)، وأداء الاختبار (يقاس من 0 إلى 100)، والمبيعات (مقاسة بعدد المعاملات في الشهر)، وهكذا دواليك. إذا لم تكن متأكدا مما إذا كان متغيرك التابع متواصلا (بمعنى أنه يتم قياسه على مستوى الفاصل الزمني أو مستوى النسبة)، فاطلع على أنواع دليل المتغيرات. الافتراض 2: يجب قياس متغيرك المستقل على المستوى المستمر أو الفئوي. ومع ذلك، إذا كان لديك متغير مستقل قاطع، فمن الأكثر شيوعا لاستخدام اختبار تي مستقل (لمجموعتين) أو في اتجاه واحد أنوفا (ل 3 مجموعات أو أكثر). في حال لم تكن متأكدا، تشمل أمثلة المتغيرات الفئوية نوع الجنس (على سبيل المثال مجموعتين: ذكور وإناث)، والعرق (على سبيل المثال 3 مجموعات: قوقازي، أمريكان أفريكان، وإسبانيون)، ومستوى النشاط البدني (على سبيل المثال 4 مجموعات: مستقرة، منخفضة، معتدلة و عالية)، والمهنة (على سبيل المثال 5 مجموعات: الجراح، الطبيب، ممرضة، طبيب الأسنان، المعالج). في هذا الدليل، نعرض لك إجراء الانحدار الخطي والإخراج ستاتا عندما تم قياس كل من المتغيرات التابعة والمستقلة على مستوى مستمر. لحسن الحظ، يمكنك التحقق من الافتراضات 3 و 4 و 5 و 6 و 7 باستخدام ستاتا. عند الانتقال إلى الافتراضات 3 و 4 و 5 و 6 و 7، نقترح اختبارها بهذا الترتيب لأنها تمثل أمرا إذا لم يعد من الممكن استخدام الانتهاك الخطي إذا لم يكن هناك انتهاك للافتراض. في الواقع، لا تفاجأ إذا فشلت البيانات الخاصة بك واحد أو أكثر من هذه الافتراضات لأن هذا هو نموذجي إلى حد ما عند العمل مع البيانات في العالم الحقيقي بدلا من الأمثلة كتاب، والتي غالبا ما تظهر فقط لك كيفية تنفيذ الانحدار الخطي عندما يسير كل شيء على ما يرام. ومع ذلك، لا داعي للقلق لأنه حتى عندما تفشل البيانات الخاصة بك بعض الافتراضات، غالبا ما يكون هناك حل للتغلب على هذا (على سبيل المثال تحويل البيانات الخاصة بك أو باستخدام اختبار إحصائي آخر بدلا من ذلك). تذكر فقط أنه إذا لم تتحقق من أن البيانات تستوفي هذه الافتراضات أو تختبرها بشكل غير صحيح، فقد لا تكون النتائج التي تحصل عليها عند تشغيل الانحدار الخطي صالحة. الافتراض 3: يجب أن تكون هناك علاقة خطية بين المتغيرات التابعة والمستقلة. في حين أن هناك عددا من الطرق للتحقق مما إذا كانت هناك علاقة خطية بين المتغيرين، نقترح إنشاء سكاتيربلوت باستخدام ستاتا، حيث يمكنك رسم المتغير التابع ضد متغير مستقل. يمكنك ثم فحص بصريا سكاتيربلوت للتحقق من الخطية. قد يبدو سكاتيربلوت الخاص بك شيئا مثل واحد مما يلي: إذا كانت العلاقة المعروضة في سكاتيربلوت الخاص بك ليست خطية، سيكون لديك إما تشغيل تحليل الانحدار غير الخطية أو تحويل البيانات الخاصة بك، والتي يمكنك القيام به باستخدام ستاتا. الافتراض 4: لا ينبغي أن تكون هناك قيم متطرفة كبيرة. القيم المتطرفة هي ببساطة نقاط بيانات واحدة ضمن بياناتك التي لا تتبع النمط المعتاد (على سبيل المثال في دراسة 100 طالب درجات الذكاء، حيث كانت النتيجة المتوسطة 108 مع اختلاف بسيط فقط بين الطلاب، وكان طالب واحد على درجة 156، والتي هو غير عادي جدا، وربما حتى وضعها في أعلى 1 من درجات الذكاء على الصعيد العالمي). تسلط النقاط العشوائية التالية الضوء على التأثير المحتمل للقيم المتطرفة: المشكلة مع القيم المتطرفة هي أنها يمكن أن يكون لها تأثير سلبي على معادلة الانحدار المستخدمة للتنبؤ بقيمة المتغير التابع استنادا إلى المتغير المستقل. سيؤدي ذلك إلى تغيير الناتج الذي ينتجه ستاتا ويقلل من الدقة التنبؤية لنتائجك. لحسن الحظ، يمكنك استخدام ستاتا لإجراء تشخيصات كاسويس لمساعدتك في الكشف عن القيم المتطرفة المحتملة. Assumption 5: You should have independence of observations . which you can easily check using the Durbin-Watson statistic . which is a simple test to run using Stata. Assumption 6: Your data needs to show homoscedasticity . which is where the variances along the line of best fit remain similar as you move along the line. The two scatterplots below provide simple examples of data that meets this assumption and one that fails the assumption:When you analyse your own data, you will be lucky if your scatterplot looks like either of the two above. Whilst these help to illustrate the differences in data that meets or violates the assumption of homoscedasticity, real-world data is often a lot more messy. You can check whether your data showed homoscedasticity by plotting the regression standardized residuals against the regression standardized predicted value . Assumption 7: Finally, you need to check that the residuals (errors) of the regression line are approximately normally distributed . Two common methods to check this assumption include using either a histogram (with a superimposed normal curve) or a Normal P-P Plot . In practice, checking for assumptions 3, 4, 5, 6 and 7 will probably take up most of your time when carrying out linear regression. ومع ذلك، فإنه ليس مهمة صعبة، و ستاتا يوفر كل الأدوات التي تحتاج إلى القيام بذلك. In the section, Procedure. we illustrate the Stata procedure required to perform linear regression assuming that no assumptions have been violated. First, we set out the example we use to explain the linear regression procedure in Stata. Studies show that exercising can help prevent heart disease. Within reasonable limits, the more you exercise, the less risk you have of suffering from heart disease. One way in which exercise reduces your risk of suffering from heart disease is by reducing a fat in your blood, called cholesterol. The more you exercise, the lower your cholesterol concentration. Furthermore, it has recently been shown that the amount of time you spend watching TV ndash an indicator of a sedentary lifestyle ndash might be a good predictor of heart disease (i. e. that is, the more TV you watch, the greater your risk of heart disease). Therefore, a researcher decided to determine if cholesterol concentration was related to time spent watching TV in otherwise healthy 45 to 65 year old men (an at-risk category of people). For example, as people spent more time watching TV, did their cholesterol concentration also increase (a positive relationship) or did the opposite happen The researcher also wanted to know the proportion of cholesterol concentration that time spent watching TV could explain, as well as being able to predict cholesterol concentration. The researcher could then determine whether, for example, people that spent eight hours spent watching TV per day had dangerously high levels of cholesterol concentration compared to people watching just two hours of TV. To carry out the analysis, the researcher recruited 100 healthy male participants between the ages of 45 and 65 years old. The amount of time spent watching TV (i. e. the independent variable, timetv ) and cholesterol concentration (i. e. the dependent variable, cholesterol ) were recorded for all 100 participants. Expressed in variable terms, the researcher wanted to regress cholesterol on timetv . Note: The example and data used for this guide are fictitious. We have just created them for the purposes of this guide. Setup in Stata In Stata, we created two variables: (1) timetv. which is the average daily time spent watching TV in minutes (i. e. the independent variable) and (2) cholesterol. which is the cholesterol concentration in mmolL (i. e. the dependent variable). Note: It does not matter whether you create the dependent or independent variable first. After creating these two variables ndash timetv and cholesterol ndash we entered the scores for each into the two columns of the Data Editor (Edit) spreadsheet (i. e. the time in hours that the participants watched TV in the left-hand column (i. e. timetv. the independent variable), and participants cholesterol concentration in mmolL in the right-hand column (i. e. cholesterol. the dependent variable), as shown below: Published with written permission from StataCorp LP. Test Procedure in Stata In this section, we show you how to analyse your data using linear regression in Stata when the six assumptions in the previous section, Assumptions. have not been violated. You can carry out linear regression using code or Statas graphical user interface (GUI) . After you have carried out your analysis, we show you how to interpret your results. First, choose whether you want to use code or Statas graphical user interface (GUI) . The code to carry out linear regression on your data takes the form: regress DependentVariable IndependentVariable Published with written permission from StataCorp LP. Using our example where the dependent variable is cholesterol and the independent variable is timetv. the required code would be: regress cholesterol timetv Note 1: You need to be precise when entering the code into the box. The code is case sensitive. For example, if you entered Cholesterol where the C is uppercase rather than lowercase (i. e. a small c), which it should be, you will get an error message like the following: Note 2: If youre still getting the error message in Note 2: above, it is worth checking the name you gave your two variables in the Data Editor when you set up your file (i. e. see the Data Editor screen above ). In the box on the right-hand side of the Data Editor screen, it is the way that you spelt your variables in the section, not the section that you need to enter into the code (see below for our dependent variable). This may seem obvious, but it is an error that is sometimes made, resulting in the error in Note 2 above. Therefore, enter the code, regress cholesterol timetv . and press the ReturnEnter button on your keyboard. نشرت بإذن خطي من ستاتاكورب لب. You can see the Stata output that will be produced here . Graphical User Interface (GUI) The three steps required to carry out linear regression in Stata 12 and 13 are shown below: Click S tatistics gt Linear models and related gt Linear regression on the main menu, as shown below: Published with written permission from StataCorp LP. You will be presented with the Regress ndash Linear regression dialogue box: Published with written permission from StataCorp LP. Select cholesterol from within the Dependent variable: drop-down box, and timetv from within the Independent variables: drop-down box. You will end up with the following screen: Published with written permission from StataCorp LP. Output of linear regression analysis in Stata If your data passed assumption 3 (i. e. there was a linear relationship between your two variables), 4 (i. e. there were no significant outliers), assumption 5 (i. e. you had independence of observations), assumption 6 (i. e. your data showed homoscedasticity) and assumption 7 (i. e. the residuals (errors) were approximately normally distributed), which we explained earlier in the Assumptions section, you will only need to interpret the following linear regression output in Stata: Published with written permission from StataCorp LP. The output consists of four important pieces of information: (a) the R 2 value ( R-squared row) represents the proportion of variance in the dependent variable that can be explained by our independent variable (technically it is the proportion of variation accounted for by the regression model above and beyond the mean model). However, R 2 is based on the sample and is a positively biased estimate of the proportion of the variance of the dependent variable accounted for by the regression model (i. e. it is too large) (b) an adjusted R 2 value ( Adj R-squared row), which corrects positive bias to provide a value that would be expected in the population (c) the F value, degrees of freedom ( F( 1, 98) ) and statistical significance of the regression model ( Prob gt F row) and (d) the coefficients for the constant and independent variable ( Coef. column), which is the information you need to predict the dependent variable, cholesterol. using the independent variable, timetv . In this example, R 2 0.151. Adjusted R 2 0.143 (to 3 d. p.), which means that the independent variable, timetv. explains 14.3 of the variability of the dependent variable, cholesterol. in the population. Adjusted R 2 is also an estimate of the effect size, which at 0.143 (14.3), is indicative of a medium effect size, according to Cohens (1988) classification. However, normally it is R 2 not the adjusted R 2 that is reported in results. In this example, the regression model is statistically significant, F (1, 98) 17.47, p .0001. This indicates that, overall, the model applied can statistically significantly predict the dependent variable, cholesterol . Note: We present the output from the linear regression analysis above. However, since you should have tested your data for the assumptions we explained earlier in the Assumptions section, you will also need to interpret the Stata output that was produced when you tested for these assumptions. This includes: (a) the scatterplots you used to check if there was a linear relationship between your two variables (i. e. Assumption 3) (b) casewise diagnostics to check there were no significant outliers (i. e. Assumption 4) (c) the output from the Durbin-Watson statistic to check for independence of observations (i. e. Assumption 5) (d) a scatterplot of the regression standardized residuals against the regression standardized predicted value to determine whether your data showed homoscedasticity (i. e. Assumption 6) and a histogram (with superimposed normal curve) and Normal P-P Plot to check whether the residuals (errors) were approximately normally distributed (i. e. Assumption 7). Also, remember that if your data failed any of these assumptions, the output that you get from the linear regression procedure (i. e. the output we discuss above) will no longer be relevant, and you may have to carry out an different statistical test to analyse your data. Reporting the output of linear regression analysis When you report the output of your linear regression, it is good practice to include: (a) an introduction to the analysis you carried out (b) information about your sample, including any missing values (c) the observed F - value, degrees of freedom and significance level (i. e. the p - value) (d) the percentage of the variability in the dependent variable explained by the independent variable (i. e. your Adjusted R 2 ) and (e) the regression equation for your model. Based on the results above, we could report the results of this study as follows: A linear regression established that daily time spent watching TV could statistically significantly predict cholesterol concentration, F (1, 98) 17.47, p .0001 and time spent watching TV accounted for 14.3 of the explained variability in cholesterol concentration. The regression equation was: predicted cholesterol concentration -2.135 0.044 x (time spent watching tv). In addition to the reporting the results as above, a diagram can be used to visually present your results. For example, you could do this using a scatterplot with confidence and prediction intervals (although it is not very common to add the last). This can make it easier for others to understand your results. Furthermore, you can use your linear regression equation to make predictions about the value of the dependent variable based on different values of the independent variable. Whilst Stata does not produce these values as part of the linear regression procedure above, there is a procedure in Stata that you can use to do so. NOTICE: The IDRE Statistical consulting group will be migrating the website to the WordPress CMS in February to facilitate maintenance and creation of new content. ستتم إزالة بعض صفحاتنا القديمة أو وضعها في الأرشيف بحيث لا يتم الاحتفاظ بها بعد الآن. سنحاول الحفاظ على عمليات إعادة التوجيه بحيث تستمر عناوين ورل القديمة في العمل بأفضل ما في وسعنا. Welcome to the Institute for Digital Research and Education Help the Stat Consulting Group by giving a gift FAQ How do I interpret a regression model when some variables are log transformed Introduction In this page, we will discuss how to interpret a regression model when some variables in the model have been log transformed. The example data can be downloaded here (the file is in. csv format). The variables in the data set are writing, reading, and math scores ( write . read and math) . the log transformed writing ( lgwrite ) and log transformed math scores ( lgmath ) and female . For these examples, we have taken the natural log (ln). All the examples are done in Stata, but they can be easily generated in any statistical package. In the examples below, the variable write or its log transformed version will be used as the outcome variable. The examples are used for illustrative purposes and are not intended to make substantive sense. Here is a table of different types of means for variable write . Outcome variable is log transformed Very often, a linear relationship is hypothesized between a log transformed outcome variable and a group of predictor variables. Written mathematically, the relationship follows the equation where y is the outcome variable and x1. xk are the predictor variables. In other words, we assume that log(y) - x 946 is normally distributed, (or y is log-normal conditional on all the covariates.) Since this is just an ordinary least squares regression, we can easily interpret a regression coefficient, say 946 1 , as the expected change in log of y with respect to a one-unit increase in x1 holding all other variables at any fixed value, assuming that x1 enters the model only as a main effect. But what if we want to know what happens to the outcome variable y itself for a one-unit increase in x1 The natural way to do this is to interpret the exponentiated regression coefficients, exp( 946). since exponentiation is the inverse of logarithm function. Lets start with the intercept-only model, log( write ) 946 0 . We can say that 3.95 is the unconditional expected mean of log of write. Therefore the exponentiated value is exp(3.948347) 51.85. This is the geometric mean of write . The emphasis here is that it is the geometric mean instead of the arithmetic mean. OLS regression of the original variable y is used to to estimate the expected arithmetic mean and OLS regression of the log transformed outcome variable is to estimated the expected geometric mean of the original variable. Now lets move on to a model with a single binary predictor variable. Before diving into the interpretation of these parameters, lets get the means of our dependent variable, write . by gender. Now we can map the parameter estimates to the geometric means for the two groups. The intercept of 3.89 is the log of geometric mean of write when female 0, i. e. for males. Therefore, the exponentiated value of it is the geometric mean for the male group: exp(3.892) 49.01. What can we say about the coefficient for female . In the log scale, it is the difference in the expected geometric means of the log of write between the female students and male students. In the original scale of the variable write . it is the ratio of the geometric mean of write for female students over the geometric mean of write for male students, exp(.1032614) 54.3438349.01222 1.11. In terms of percent change, we can say that switching from male students to female students, we expect to see about 11 increase in the geometric mean of writing scores. Last, lets look at a model with multiple predictor variables. The exponentiated coefficient exp( 946 1 ) for female is the ratio of the expected geometric mean for the female students group over the expected geometric mean for the male students group, when read and math are held at some fixed value. Of course, the expected geometric means for the male and female students group will be different for different values of read and math . However, their ratio is a constant: exp( 946 1 ). In our example, exp( 946 1 ) exp( .114718) 1.12. We can say that writing scores will be 12 higher for the female students than for the male students. For the variable read . we can say that for a one-unit increase in read . we expect to see about a 0.7 increase in writing score, since exp(.0066305) 1.006653. For a ten-unit increase in read . we expect to see about a 6.9 increase in writing score, since exp(.006630510) 1.0685526. The intercept becomes less interesting when the predictor variables are not centered and are continuous. In this particular model, the intercept is the expected mean for log(write) for male ( female 0) when read and math are equal to zero. In summary, when the outcome variable is log transformed, it is natural to interpret the exponentiated regression coefficients. These values correspond to changes in the ratio of the expected geometric means of the original outcome variable. Some (not all) predictor variables are log transformed Occasionally, we also have some predictor variables being log transformed. In this section, we will take a look at an example where some predictor variables are log-transformed, but the outcome variable is in its original scale. Written in equation, we have Since this is an OLS regression, the interpretation of the regression coefficients for the non-transformed variables are unchanged from an OLS regression without any transformed variables. For example, the expected mean difference in writing scores between the female and male students is about 5.4 points, holding the other predictor variables constant. On the other hand, due to the log transformation, the estimated effects of math and read are no longer linear, even though the effect of lgmath and lgread are linear. The plot below shows the curve of predicted values against the reading scores for the female students group holding math score constant. How do we interpret the coefficient of 16.85218 for the variable of log of reading score Lets take two values of reading score, r1 and r2. The expected mean difference in writing score at r1 and r2, holding the other predictor variables constant, is write (r2) - write (r1) 946 3 (log(r2) - log(r1)) 946 3 log(r2r1). This means that as long as the percent increase in read (the predictor variable) is fixed, we will see the same difference in writing score, regardless where the baseline reading score is. For example, we can say that for a 10 increase in reading score, the difference in the expected mean writing scores will be always 946 3 log(1.10) 16.85218log(1.1) 1.61. Both the outcome variable and some predictor variables are log transformed What happens when both the outcome variable and predictor variables are log transformed We can combine the two previously described situations into one. Here is an example of such a model. Written as an equation, we can describe the model: For variables that are not transformed, such as female . its exponentiated coefficient is the ratio of the geometric mean for the female to the geometric mean for the male students group. For example, in our example, we can say that the expected percent increase in geometric mean from male student group to female student group is about 12 holding other variables constant, since exp(.1142399) 1.12. For reading score, we can say that for a one-unit increase in reading score, we expected to see about 0.7 of increase in the geometric mean of writing score, since exp(.0066086) 1.007. Now, lets focus on the effect of math . Take two values of math . m1 and m2, and hold the other predictor variables at any fixed value. The equation above yields It can be simplified to log( write (m2) write (m1)) 946 2 (log(m2m1)). leading to This tells us that as long as the ratio of the two math scores, m2m1 stays the same, the expected ratio of the outcome variable, write . stays the same. For example, we can say that for any 10 increase in math score, the expected ratio of the two geometric means for writing score will be 1.10946 2 1.10.4085369 1.0397057. In other words, we expect about 4 increase in writing score when math score increases by 10. The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California.

No comments:

Post a Comment