【计量】回归背后的微操作——论文自救记录(进行中)

【计量】回归背后的微操作

1. 变量的选择 与 模型的设定

https://zhuanlan.zhihu.com/p/50577508?yidian_s=mb

2. 变量的处理

2.1 常用的处理——中心化、标准化、归一化

目的:统一量纲(Scale)—— 可以理解成 100分制下,1 2分的扰动不算什么,但是这在5分制下会是很大的灾难,为了便于比较(或许是回归结果不太好呢,who knows,反正说是为了便于比较),所以需要统一量纲处理,核心目的就是为了保证系数可比性

  • 定义:
    • 中心化(Zero-centered or Mean-subtraction
      • 公式: c e t e r ( x ) = X − m e a n ( X ) ceter(x) = X-mean(X) ceter(x)=Xmean(X),也表示为 c _ x c\_x c_x
    • 标准化(Standardization
      • 公式: z s c o r e ( X ) = ( X − m e a n ( X ) ) / s t d ( X ) zscore(X) = (X-mean(X))/std(X) zscore(X)=(Xmean(X))/std(X)
      • 能够去除量纲(相对均值水平差了多少标准差),很多都有要求用到标准化 N(0,1) 分布特征(见 变量标准差为1即在计算距离时重要程度相同)
      • 适合现代嘈杂大数据场景:大部分 data-driven method都会考虑到标准化
    • 归一化(Normalization
      • 公式: m i n m a x ( X ) = ( X − m i n ( X ) ) / ( m a x ( X ) − m i n ( X ) ) minmax(X) = (X-min(X))/(max(X)-min(X)) minmax(X)=(Xmin(X))/(max(X)min(X))
      • 重点在于消除量纲的影响,使不同变量具有可比性(最适用于绩效开发)
      • 适合传统精确小数据场景:最大值与最小值非常容易受异常点影响,鲁棒性较差
  • Tips:
    • 虚拟变量一般不需要处理(0/1有独特内涵)
    • 各种处理一般不会影响相关性分析结果(指Pearson相关系数)
    • 中介效应过小时,使用SPSS中标准化中介值,或者先标准化再检验(这一条没有check过
    • 调节效应交互项系数过小但是显著,导致分解图斜率不明显时,可以考虑先标准化再调节效应检验
    • 多重共线性——不一定是x之间,平方项(U shape or inverted-U shape)甚至是交乘项(Motivative effect)都有可能
      • 对于平方项,通过变量的标准化/归一化/中心化处理,一般有可能缓解共线性的影响(仅是 x x x x 2 x^2 x2之间的)
        • 详情见经管之家讨论:处理平方项共线:y = x + ( x-c_x )^2;黄河泉老师认为不需要关心共线性;连玉君老师认为先做模型设定检验,并补充VIF检验(方差膨胀会导致不显著),判断二次项模型是否有必要
      • 对于交乘项,也有类似的处理 y = x + m + c _ x ∗ c _ m y = x + m + c\_x*c\_m y=x+m+c_xc_m,具体可见 连玉君老师专栏-交叉项的中心化问题
    • 补充,SPSSAU提供了一个12个量纲处理的方案,比较全面,简图如下:

2.2 偏态的纠正——对数化处理

目的:将不满足正态性假设的解释变量“纠正”到正态的位置上。有时候对数化也用来处理极端数据,即某些离群值格外大/小,需要把这个difference缩小。

  • 正偏/右偏(指长尾在右,峰顶偏左):众数<中位数<均值,skewness > 0
    • l o g ( c + x ) log(c+x) log(c+x)
  • 负偏/左偏(指长尾在左,峰顶偏右):均值<中位数<众数,skewness < 0
    • − l o g ( c − x ) -log(c-x) log(cx)
  • 偏度(skewness):描述非对称分布程度(偏斜方向和程度)
    • 概率分布密度曲线相对于平均值不对称程度的特征数,由三阶中心距计算。
    • 直观看就是密度函数曲线尾部的相对长度。

2.3 趋势的猜想——幂指处理

目的:一般不会乱加,考虑到 inverted-U 或 U 或 其它趋势才应用这个模型,一般需要理论支撑,具体的连玉君老师的专栏有很多介绍。To be honest,其实学术圈据说在卷三重幂的模型了hhh

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/4599.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Spring Security 6.0系列【2】认证篇之使用数据库存储用户

有道无术&#xff0c;术尚可求&#xff0c;有术无道&#xff0c;止于术。 本系列Spring Boot 版本 3.0.4 本系列Spring Security 版本 6.0.2 源码地址&#xff1a;https://gitee.com/pearl-organization/study-spring-security-demo 文章目录前言1. 环境搭建1.1 创建用户表1.…

Oracle用户密码过期,修改永不过期

修改密码有效过期时间&#xff0c;可以通过以下四步设置&#xff0c;如果再第一步发现本身的密码过期时间为无限期的&#xff0c;那就请各位小伙伴绕过&#xff0c;如果发现不是无期限的&#xff0c;那么必须设置第四步&#xff0c;才会生效。 目录 第一步&#xff1a;查询密码…

实验三 数据更新及视图

实验三 数据更新及视图 1.实验目的 1.加深对数据库相关性质的理解&#xff1b; 2.各种约束性理解&#xff1b; 3.学会数据库中数据的更新的方法&#xff1b; 4.学会视图的创建与查询。 2.实验内容 对已建好的各表输入适当的数据并练习数据的插入、删除和修改&#xff0c;注意…

瑞吉外卖项目Day2———完善登录问题、员工功能

创建过滤器类(filter) package com.study.filter;import com.alibaba.fastjson.JSON; import com.study.common.R; import lombok.extern.slf4j.Slf4j; import org.springframework.util.AntPathMatcher;import javax.servlet.*; import javax.servlet.annotation.WebFilter; …

华为OD机试题,用 Java 解【统计匹配的二元组个数】问题 | 含解题说明

华为Od必看系列 华为OD机试 全流程解析+经验分享,题型分享,防作弊指南华为od机试,独家整理 已参加机试人员的实战技巧华为od 2023 | 什么是华为od,od 薪资待遇,od机试题清单华为OD机试真题大全,用 Python 解华为机试题 | 机试宝典本篇题目:统计匹配的二元组个数 题目 给…

串口,IIC,SPI,USB等总线叙述

串口&#xff0c;IIC&#xff0c;SPI&#xff0c;USB等总线叙述 文章目录串口&#xff0c;IIC&#xff0c;SPI&#xff0c;USB等总线叙述1 串口2.I2C3.SPI4.USB控制&#xff08;Control&#xff09;传输方式同步&#xff08;Isochronous&#xff09;传输方式中断&#xff08;In…

在等GPT-5多模态?试试Genmo!Adobe AI首轮内测报告;ChatGPT三条使用哲学与实践;论文追更与阅读神器 | ShowMeAI日报

&#x1f440;日报&周刊合集 | &#x1f3a1;生产力工具与行业应用大全 | &#x1f9e1; 点赞关注评论拜托啦&#xff01; &#x1f916; 『微软 New Bing 引入广告』日活跃用户超1亿&#xff0c;探索广告投放的未来 微软正在尝试在 New Bing 的聊天回复中投放广告。虽然广…

【11】Activity的生命周期

其实Android是使用任务(task)来管理Activity的&#xff0c;一个任务就是一组存放在栈里的Activity 的集合&#xff0c;这个栈也被称作返回栈(back stack)。栈是一种后进先出的数据结构&#xff0c;在默认情况 下&#xff0c;每当我们启动了一个新的Activity&#xff0c;它就会在…

【机器学习】03-转换器和预估器、K-近邻算法、朴素贝叶斯算法、决策树等算法知识

分类算法 一、sklearn转换器和预估器 1 转换器 - 特征工程的父类 fit_transform()fit() 计算 每一列的平均值、标准差transform() (x - mean) / std进行最终的转换 2 估计器(sklearn机器学习算法的实现) 估计器(estimator)–一类实现算法的API 实例化一个estimatorestimat…

剑指offer JZ23 链表中环的入口结点

Java JZ23 链表中环的入口结点 文章目录Java JZ23 链表中环的入口结点一、题目描述二、hash法&#xff0c;记录第一次重复的结点三、快慢指针法使用hash法和快慢指针法解决剑指offer 第JZ23 链表中环的入口结点的问题。 一、题目描述 给一个长度为n链表&#xff0c;若其中包含环…

【新】(2023Q2模拟题JAVA)华为OD机试 - 寻找链表的中间结点

最近更新的博客 华为od 2023 | 什么是华为od,od 薪资待遇,od机试题清单华为OD机试真题大全,用 Python 解华为机试题 | 机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为od机试,独家整理 已参加机试人员的实战技巧本篇题解:寻找链表的中间结点 题目 给…

利用自动化平台可以做的那亿点事 |得物技术

前言 相信大家对接口自动化已经不陌生了&#xff0c;这是几乎我们每个迭代都会投入的事情&#xff0c;但耗费了这么多精力去编写和维护&#xff0c;实际的收益如何呢&#xff1f;如果收益不好&#xff0c;是不是说明我们自动化 case 的实现方式、使用方式还有改进的地方呢&…

第09章_子查询

第09章_子查询 &#x1f3e0;个人主页&#xff1a;shark-Gao &#x1f9d1;个人简介&#xff1a;大家好&#xff0c;我是shark-Gao&#xff0c;一个想要与大家共同进步的男人&#x1f609;&#x1f609; &#x1f389;目前状况&#xff1a;23届毕业生&#xff0c;目前在某公…

【ABAP】ME55双击跳转MD04增强

最近收到了一个需求&#xff0c;大致的要求是在标准报表ME55的ALV短文本列双击后跳转到MD04的详情。刚开始没有找到增强点想用间接的办法实现&#xff0c;在ME55上增加一列&#xff0c;展示想看到的内容&#xff0c;最后由于需要展示的内容太多&#xff0c;该方案被舍弃。 经过…

深度学习实战19(进阶版)-SpeakGPT的本地实现部署测试,基于ChatGPT在自己的平台实现SpeakGPT功能

大家好&#xff0c;我是微学AI&#xff0c;今天给大家带来SpeakGPT的本地实现&#xff0c;在自己的网页部署&#xff0c;可随时随地通过语音进行问答&#xff0c;本项目项目是基于ChatGPT的语音版&#xff0c;我称之为SpeakGPT。 ChatGPT最近大火&#xff0c;其实在去年12月份…

SpringBoot @Transactional事务详解

事务用处及作用 事务主要是保证数据统一、一致的一种操作。 详细的一些专用术语在此这里不会说太多&#xff0c;如需了解自行百度了&#xff08;还不是枯燥乏味&#xff09;&#xff0c;大致就是这意思。 事务用处 比如坤坤&#xff0c;坤坤拿着100元去买鸡&#xff0c;一个…

JAVA ---程序流程

&#xff08;一&#xff09;引言 在生活中&#xff0c;我们经常会发现在医院或者官方机构办事是要走流程的&#xff0c;同样的程序必须能操控自己的世界&#xff0c;在执行过程中作出判断与选择。在Java中&#xff0c;通过流程控制语句可实现程序执行流程的随意控制&#xff0…

C#中使用I/O文件流

流&#xff0c;即是二进制数值&#xff0c;文件和流 I/O&#xff08;输入/输出&#xff09;是指在存储媒介中传入或传出数据。 在 .NET 中&#xff0c;System.IO 命名空间包含允许以异步方式和同步方式对数据流和文件进行读取和写入操作的类型。 这些命名空间还包含对文件执行压…

Android开发 Intent

1. Intent 在组件之间传递信息&#xff0c;一般需要设置发送方&#xff0c;接收方和数据。 下图是Intent 的常用属性&#xff1a; 2. Intent分类 1&#xff09;显式Intent&#xff1a;精确匹配发送方和接收方 方法一&#xff1a; startActivity(new Intent(this,MainActiv…

USB抓包分析

1、USB传输协议基本概念 一个传输(控制、批量、中断、等时)&#xff1a;由多个事务transaction组成&#xff1b; 一个事务transaction (IN、OUT、SETUP)&#xff1a;由一多个包Packet组成。USB数据在主机与usb设备间被传输&#xff0c;之间的关联叫做管道pipe。一个USB设备可以…
最新文章