People-Analytics201

AI 영상면접기술을 활용한 채용 방식의 타당성 검토 본문

People Insight

AI 영상면접기술을 활용한 채용 방식의 타당성 검토

embers 2023. 5. 20. 09:32

본 포스팅은 PA201 구성원 "DY"님에 의해 작성된 글입니다.


들어가며

채용 프로세스에서 여전히 가장 흔히 사용되는 선발전형 또는 선발도구는 서류전형(입사지원서에 대한 정량평가 및 자기소개서에 대한 정성평가 등)와 인적성검사 그리고 대면면접이다. 다만, 코로나19를 전후한 시점에 AI기술이 급격히 발전하면서 AI기술을 활용한 새로운 선발도구들이 활발히 적용되기 시작했다. 하지만 이 새로운 선발도구들에 대한 타당도와 신뢰도 그리고 AI에게 요구되는 설명가능성의 이슈로 인해 도입을 망설이는 기업도 존재한다. 그리고 선도적으로 도입한 기업에서도 과연 이 새로운 채용 정책이 얼마나 효과적이었는지에 대해 궁금증을 가지곤 한다.

필자는 과거 인적성검사를 서비스하는 컨설팅 회사에 재직한 바 있고, 현재는 AI영상면접을 서비스하는 스타트업에 재직하고 있다. 그래서 이번 아티클에서는 AI영상면접의 타당성 분석 사례를 소개하되, 특히 인적성검사와도 비교를 해보고자 한다.

현재 재직중인 회사에서는 고객사와 함께 AI영상면접의 타당성을 분석하곤 하는데, 몇 가지 방법을 소개하자면 아래와 같다.

  • AI vs 전형결과 : AI영상면접 결과가 전형별 또는 최종 합격자를 얼마나 예측하는지 평가함.
  • AI vs 고성과자, 조기퇴사자, etc… : AI영상면접 결과가 고성과자나 조기퇴사자를 얼마나 예측하는지 평가함.
  • AI vs 면접관 : 동일한 면접영상에 대해 AI와 사람면접관이 평가해보고 그 일치도를 평가함.
  • AI vs 면접전형 : 동일한 지원자에 대한 AI영상면접 결과와 대면면접 결과 간 일치도를 평가함.

첫 번째와 두 번째 방법은 AI영상면접 뿐만 아니라, 모든 선발도구의 타당도를 평가할 때 활용되는 방법이다.

세 번째와 네 번째 방법은 인적성검사와 달리 AI영상면접이 가지는 독특한 방식의 타당성 평가 방법이라 할 수 있으며, 본 아티클은 이 두 가지 방법을 중심으로 다루고자 한다.

 

AI vs 면접관

뷰인터HR의 AI영상면접은 지원자의 언어적 요소와 비언어적 요소로 구분하여 AI가 평가한다. AI는 면접전문가들의 라벨링 데이터를 학습했으며, 동일한 면접영상을 AI와 대면면접관이 각각 평가했을 때 그 결과가 서로 일치할수록, AI가 사람과 유사하게 평가하고 있다고 결론 내릴 수 있다.

AI를 한 명의 면접관으로 생각하다면, 이는 일종의 평가자 간 신뢰도 검증으로 생각할 수 있다. 이러한 방식은 인적성검사는 하기 어려운 것으로, 면접영상을 활용하면서 답변 내용까지 분석하는 서비스만 가능하다.

아래는 이러한 절차를 실제로 수행했던 한 고객사의 사례를 바탕으로 했으며, 보안을 위해 일부 데이터를 각색하여 활용하였다. 참고로, 분석 데이터는 지원자의 언어적인 요소만을 평가한 결과이다.

데이터의 형태는 위와 같다.

AI와 사람면접관 모두 0~1의 평가점수 범위를 가지는데, 일단 평균값으로는 AI와 사람면접관 간 큰 차이가 나지 않는 것으로 판단되었다.

AI와 사람면접관의 점수 간 상관분석을 실시했을 때, 위와 같이 0.5~0.6 사이의 안정적인 상관관계를 가지는 것으로 나타났다.

흔히 사용되는 면접관 간 신뢰도의 기준은 아래와 같으며, 이에 비추어 봤을 때, 본 사례의 신뢰도는 수용 가능한 수준으로 판단할 수 있었다(가공하지 않은 실제 데이터에서는 0.6 이상이 안정적으로 나타남).

이를 평가역량별로 나누어 분석한 결과는 아래와 같다.

역량에 따라 잘 일치되지 않는 면접관이 존재하기도 했었으나, 사람면접관들의 평균점수와 AI점수 간 상관계수가 0.7~0.8 수준으로 나타남을 알 수 있었다.

 

AI vs 면접전형

고객사 중에는 대면면접 전 단계에서 AI영상면접을 실시하는 곳이 상당수를 차지한다. 만약 AI영상면접이 대면면접과 유사하게 평가한다면, 동일한 지원자에 대해 유사한 결과를 보여야 할 것이다.

아래는 AI영상면접 결과를 참고하여 대면면접을 진행하는 한 공무원 조직의 사례를 바탕으로 했다. 공무원 채용에는 5개 평가요소 별로 상-중-하 로 면접관들이 평정하도록 하고 있으며, 하로 평정한 면접관의 수나 역량의 갯수에 따라 과락으로 처리되기도 한다. 이 사례 역시 보안을 위해 일부 데이터를 각색하여 활용하였다.

데이터의 형태는 위와 같다.

과락 - 불합격 - 합격자의 구성은 위와 같다.

과락 - 불합격 - 합격 순으로 AI의 언어적 평가 점수가 높아지는 경향은 있으나 차이가 크지 않았다.

과락 - 불합격 - 합격 순으로 AI의 비언어적 평가 점수가 높아지는 경향이 있었으며, 그 차이는 위의 언어적 평가 점수보다 크게 나타났다.

이러한 결과는 두 가지로 해석가능하다. 지원자의 비언어적인 요소 즉, 호감도나 적극성 등이 대면면접의 결과에 영향을 미쳤으며 ① 언어적 요소보다 그 영향력이 강했다 ② AI영상면접과 대면면접의 평가역량이 서로 달라 AI의 언어적 평가 점수가 대면면접 결과에 영향을 크게 미치지 않았다

실제로 AI영상면접의 평가역량과 공무원 면접 평가요소 중 일부만 연관성이 있었다. 각 역량별로 분석을 실시했을 때, 유사한 역량 간에는 관련성이 높게 나타나고, 그렇지 않은 역량 간에는 관련성이 낮게 나타나면 AI의 언어적 평가 점수의 타당성이 높음을 증명할 수 있다. 하지만, 안타깝게도 고객사로부터 전달받은 데이터에는 단순히 지원자별 상 - 중 - 하의 갯수만 뭉뚱그려져 있었기 때문에 추가적인 분석은 불가능했다.

다만, 아래와 같이 지원자별 상 - 중 - 하 갯수를 점수화하여 추가적인 분석을 진행했다. “상”은 2, “중”은 1, “하”는 0으로 한 후 이를 합산하여 “scr”이라는 변수를 추가생성하고 이것과의 관련성을 살펴보았다.

분석결과, scr과 AI의 언어적 평가 점수 간에는 0.21의 상관계수가 나타났으며 유용한 수준의 타당도를 갖는 것으로 나타났다. 반면 AI의 비언어적 평가 점수와는 0.4의 상관계수가 나타나 매우 유용한 수준의 타당성을 갖는 것으로 나타났다.

그렇다면, 과연 AI영상면접이 합격자와 과락자 사이에 구분을 잘 하고 있는지 확인하기 위해 t-test를 실시해봤다.

분석 결과, AI의 언어적 평가와 비언어적 평가 모두에서 합격자와 과락자 간 유의미한 차이가 발견되었다.

 

결론 및 한계점

AI영상면접은 실제 대면면접과 유사한 방식으로 진행되기 때문에 대면면접과 관련된 데이터와 비교함으로써 그 타당성과 효과성을 평가할 수 있고, 실제 여러 고객사를 대상으로 분석한 결과 비교적 안정적으로 결과가 잘 나타나고 있다.

다만, AI영상면접 데이터를 제외하면 채용과 관련된 다른 정보는 고객사가 공유해주는 데이터를 쓸 수밖에 없기 때문에 지원자의  다양한 정보를 분석에 반영하는데 한계가 있다. 향후 고객사와의 신뢰를 바탕으로 전폭적인 상호협조가 이뤄진다면 훨씬 의미있는 분석이 가능할 것으로 기대된다.

Comments