로지스틱 회귀분석 독립변수간 관계.

야매로 통계를 돌려보는 중입니다.
근데 회귀분석에서 이것 저것 때려놓고 돌려보는 중인데
변수1,변수2,변수3,변수4를 넣고 돌렸을 때 결과가 흥미로운데.
여기서 변수1과 변수2가 상관관계가 높은 관계라면 둘 중에 하나를 빼도 될까요?
예를 들어 변수1은 주택보유여부, 변수2는 자산규모 등급이라 치고.
변수1과 변수2는 깊은 관계가 있다고 나온 상태에서
둘 다 회귀분석에 넣는다는 건 비슷한 요소의 영향이 커지는 그런 결과를 초래하지 않나 싶어서요.

[[ 이 글의 반응 ]]

제 생각엔 상관관계가 크다고 봤는데 지금 대충 돌려보니 변수1과 변수2의 상관관계가 0.29정도로 그리 높지 않네요.
이상하네.. 벗어나는 케이스들을 다시 한번 살펴보는 중입니다.
교과서에서는 빼는게 맞다고 배우긴 합니다.
[뭔소린지 하나도 못알아듣겠는데 이분들 뭔가 머시씀]
답변들 고맙습니다.
퇴근하고 나서 변수간 상관관계보고 회귀식 따로 돌려보겠습니다.
변수간 상관관계가 어느정도 수준에서 나오죠? 패널자료의 경우 0.8이상이면 다중공선성으로 봐서 소거하는데.
사회과학쪽은 잘 모르는데, 변수 4개 넣고 다 섞어서 결정계수 뽑나요? 각각 한다면 1번을 기준으로 잡고 234번 하면 되는게 아닌가요? 그렇다면 1:2는 R^2 높음, 1:3 or 4 는 R^2는 낮음 아닌가요?
계량경제학에서는 말씀하신 건 다중공선성(multicollinearity) 문제라 하고, 말하신 이유로 인해 추정된 계수의 표준편차가 커지는 비효율적인(inefficient) 회귀가 발생합니다.

사회과학마다 통계 활용방식이 조금씩 달라서 조언하긴 묘한데, 다른 변수는 다 넣은 상태에서 회귀1에선 변수1만 넣고 회귀2에선 변수2만 넣는식으로 해보면 어떨까 생각이 듭니다.
아 저는 반대로 두개 중에 하나를 빼버리면 어떨까 싶어서요.
근데 애초에 설문조사 문항에 포함되어 있는 걸 통계를 안돌리고 빼버려도 될까? 싶기도 하고
변수간의 관계라는 걸 어떻게 고려할 수 있는지가 궁금해서요.
---
좀 더 검색해보니 이게 다중공선성인 것 같은데 변수간 상관관계가 높은 게 여러개 포함되면
나머지 변수의 설명력이 약해져서 대표적인 거 하나만 넣어도 된다던데.. 맞는 걸까요?
어떻게 나왔는지 명확하게 명시하면 크게 상관 없는 것으로 알고 있읍니다. 어짜피 통계라는게 이리저리 굴리다보면 자기한테 유리하게 할 수 있어서요.
자동등록방지 숫자를 순서대로 입력하세요.