8월은 특별하다. 영국의 8월은 기분좋은 더위가 감싸는 한국의 5월을 닮았다. 파란 하늘과 상쾌한 햇살이 모두를 자리에서 일어나게 한다. 1년 대부분을 우울한 날씨에 묶여있던 영국인에게 짧은 여름은 늘 특별하다. 영국 남서 해안도시 브리스톨, 20살 샘 티어에게 2020년 8월은 더 특별한 여름이었다. 샘은 치과의사가 되고 싶었다.2020년 8월에는 샘이 응시한 영국 대학입시 (A-level 테스트) 결과가 발표되었다.샘은 6월 대학입시 시험을 끝내고 여름내 창고형 DIY 상점에서 아르바이트를 하면서 8월을 기다렸다. 샘은 같은 해 봄, 카디프 대학 치의예과에 지원했다. 카디프대 치의예과는 샘이 선택한 세 과목의 A-Level 테스트 결과 A*AA를 조건으로 합격을 알려왔다. 샘은 영국 교육부 산하 대학입시 주관 기관인 OFQUAL이 인증하는 A-Level 테스트 최종 결과와 대학 합격 소식을 듣게될 아주 특별한 8월을 상상해왔다. 2020년 8월 13일 샘이 받은 A-Level 테스트 최종 성적표에는 카디프대 치의예과 합격 조건에 한참 못미치는 BBB가 또렷이 프린트되어 있었다. 샘이 지원한 카디프 대학은 샘에게 불합격 통보를 해왔다. 샘이 기대한 2020년 8월은 어긋나고 말았다. 샘의 기대가 어긋나기 시작한 것은 이보다 앞선 같은 해 3월이었다.
자동 알고리즘이 대신한 대학입시 평가
5개월전 3월 18일 코로나-19 확진자와 사망자 급증으로 영국 정부는 황급히 전국 봉쇄명령을 발표했다. 샘이 다니던 고등학교도 수업을 진행할 수 없었다. 이후 계속되던 혼란은 A-Level 테스트 취소까지 이어졌다. 교육부는 입시생의 학교에서 시행한 A-Level 모의고사 성적과 내신평가에 기반하여 담당 교사가 개별학생의 최종 대학입시 예측 점수를 산정할 것을 결정했다. 그렇게 예측된 결과는 6월 OFQUAL에 보내졌고, OFQUAL은 최종 공식 시험결과를 8월 11일 개별 학생에게 통보했다. 담당 교사가 평가했던 샘의 성적은 카디프 대학이 요구했던 A*AA이었다. 하지만 OFQUAL이 샘에게 통보한 최종 성적은 BBB로 하향조정되었다. OFQUAL은 대입 형평성과 공정성 보장을 위해 과거 대입결과를 적용하여 교사의 대입 예측결과를 보정하였다. 샘과 같이 교사의 시험예측결과가 OFQUAL에 의해 하향 조정된 수험생 숫자는 전체 수험생의 39%인 약 28만명에 달했다. 예측점수보다 하향조정된 성적을 받아 응시 대학에서 불합격 통보를 받은 학생들은 OFQUAL에 시험결과 재심을 요청했다.
영국의 언론은 전체 시험성적 분포 관련 분석 기사를 내보내기 시작했다. 분석기사를 본 학생과 학부모는 “Trust the teachers(선생님을 믿어라)!”라는 피켓을 들고 거리로 나왔다. 예상을 벗어난 결과로 인한 실망이 참을 수 없는 분노로까지 터져나온 이유는 시험결과 하향조정 뿐만이 아니었다. 성적이 하향조정된 대부분 학생이 재학중인 학교는 빈곤 지역에 위치하고 과거 대학입시 결과가 낮은 편에 속했다. 또한 입시생의 2.2%는 시험결과가 상향조정되었는데, 그들 중 부유한 지역 사립학교 재학생 점수는 4.7% 오른 반면, 비사립학교 학생 점수는 2% 올랐다. 부유한 지역 학생 점수가 그렇지 못한 지역 학생 점수보다 두 배 이상 상승된 것이다. OFQUAL은 최종 시험결과 결정에 사용된 보정과정을 공개했다. 공정성 담보를 위해 교사제출 결과를 OFQUAL이 개발한 알고리즘으로 보정하였다. 개별 교사는 시험예측 결과를 부풀릴 수 있다는 우려에서다. 알고리즘은 각 학교별 최근 3년 시험결과 데이터를 반영하여 최종점수를 계산하였다. 알고리즘 계산이 오히려 불공정 시비를 불러오자 교육부는 최종시험결과 통보 후 4일만인 8월 17일 OFQUAL의 결정을 취소했다. 대신 각 교사가 제출한 예측결과가 대입 최종결과로 인정되었다.
가치중립적이고 공정한 인공지능?
영국 대입 사례는 공정성과 효율성을 위해 알고리즘을 적용한 경우다. 교사 개인 판단에 기반한 대입시험 예측결과는 학교별 편차를 가져오고, 이는 전국적으로 경쟁하는 대학입시의 경우 불공정을 초래할 수 있다. 이를 피하기 위해 교사의 개인 감정이 개입되지 않는 알고리즘 적용은 공정한 시험 예측결과를 낼 것으로 기대했다. 하지만 알고리즘 활용으로 드러난 것은, 확연한 불공정 결과와 알고리즘 판단 취소로 인한 정부 예산 낭비, 대학 신입생 선발 혼란이었다. 하지만 이런 어처구니 없는 낭패는 영국 교육부가 저지른 일회성 실수로만 보긴 어렵다. 자동 알고리즘을 만능 해결사로 맹신한 여러 조직에서 비슷한 오류를 보여왔다. 자동 알고리즘 의사 결정이 편향성 띤 차별적 결과를 가져올 수 있다는 것은 이미 충분히 경고되어 왔다.
자동 알고리즘의 A-Level 예측 점수 보정법
OFQUAL이 사용한 알고리즘은 과거 데이터를 어떻게 분석하였길래 어이없는 결과를 초래했을까? 이 궁금증에 대답을 구하던 많은 데이터 과학자는 OFQUAL이 발표한 보정과정을 분석한 결과를 내놓았다. 알고리즘은 과목별 교사의 예측점수로 응시생이 재학중인 학교내 해당과목 순위를 결정한다. 이 순위를 같은 학교의 과거 3년간 해당과목 시험점수 분포와 비교한다. 과거 시험점수 분포에서 동일한 순위의 시험점수가 통계적으로 유의미하게 교사 예측시험결과에서 벗어나면, 알고리즘은 최종시험성적을 하향조정한다. 과거 해당 학교 시험성적이 낮은 편이었고 현재 응시생이 그를 뛰어넘는 결과를 냈을 때, 알고리즘은 응시생 성적을 끌어내렸다. 또한 “통계적으로 유의미한” 차이가 보일 때만 보정을 적용했으므로, 사립학교와 같이 재학생수가 적은 경우 보정과정이 적용되지 못했다. 과목당 응시생 숫자가 너무 적어 통계적으로 유의미한 모집단을 확보하지 못했기 때문이다. 이 경우 교사 예측점수가 그대로 받아들여졌다.
인공지능은 용어가 뜻하듯 인간이 만든 지능이다. 인간이 만든 지능임에도 불구하고 인간을 훨씬 능가하는 지능적 임무를 수행하고(예: 알파고), 인간이 수행하던 업무를 인간보더 더 빠르고 광범위하게 해내기도 한다(예:검색 엔진을 통한 광범위한 자료 검색, 네비게이터의 최적 경로 찾기 등). 이런 이유로 인공지능이 내리는 판단은 모든 면에서 인간을 능가하리라는 오해를 낳기도 한다. 인간을 대체하는 의사결정을 내릴 때도 인간보다 더 다양하고 광범위한 데이터를 검토할 수 있기에, “공정한” 의사결정을 내릴 것을 기대한다. 하지만 인공지능이 의사결정을 내리기 위해 지능을 갖추어가는 과정을 살펴보면, “편향성”이 유입될 경로를 발견할 수 있다. 인공지능이 지능적 의사결정을 내리기 위해선 보통 다음과 같은 네가지 절차를 거친다.
데이터 수집: 인공지능이 학습해야 할 데이터를 수집한다. 예를 들어 개인의 신용등급을 평가하는 인공지능 알고리즘은 개인 신용 상태를 유추할 다양한 데이터를 수집한다. 이미 신용등급을 받은 개인의 현재 수입, 과거 신용등급, 빚의 유무와 규모, 현재 은행 잔고, 과거 대출 상황 등을 수집한다. 이 때 판별할 신용등급에 따라 충분한 양의 데이터가 수집되어야 한다.
인공지능 의사결정 모델 구축: 수집된 데이터에 숨겨진 반복된 패턴을 찾기위해 인간은 인공지능 알고리즘을 설계한다. 알고리즘은 컴퓨터에 의해 이행되며, 인간이 정의한 인공지능 학습 최적 목표를 달성하는 것으로 인공지능 모델(주로 통계적 수식)이 완성된다. 신용평가 사례의 경우 신용등급별로 수집된 데이터에서 발견된 반복된 패턴을 기술하는 인공지능 모델이 만들어진다. 이는 인공지능 의사결정 모델이 각 신용등급을 특징하는 패턴의 수학적 관계를 파악해낸 것을 뜻한다.
인공지능 의사결정 모델을 이용한 의사결정: 인공지능 모델 구축시 사용되지 않았던 새로운 데이터가 주어졌을 때 판단을 내린다. 예를 들면 새롭게 신용등급 평가를 원하는 지원자의 관련 데이터를 보고 2)에서 만들어진 인공지능 모델은 지원자의 신용등급을 판정한다.
인공지능 의사결정 모델의 지속적 업데이트 : 인공지능 의사결정 모델은 새롭게 수집되는 데이터에 따라 지속적으로 수정된다. 신용평가 사례에서는 신용등급에 따라 추가되는 데이터를 다시 학습하도록하여 인공지능 모델로 정의하는 등급별 미세한 수학 변수 값을 최적화한다.
이상의 절차에서 알 수 있듯이 인공지능이 지능을 얻게되는 과정은 인간의 개입없이 전자동으로 이루어지는 것이 아니다. 매 단계마다 인공지능 설계자인 인간에 의해 많은 변수들이 결정되고 조율된다. 인간의 개입이 어떻게 이루어지는가에 따라 인공지능의 판단은 크게 달라진다. 신용평가의 예를 들자면 1)의 과정에서 각 신용등급을 충분히 설명할 데이터가 무엇인지 결정하고 모으는 것, 2)의 과정에서 인공지능 모델 구축을 위한 학습 알고리즘을 설계하고 알고리즘 학습 목표를 정의하는 것, 3)의 과정에서 인공지능 판단을 참조하여 지원자의 최종 신용등급을 판정하는 것, 4)의 과정에서 새로운 데이터 수집하고 인공지능 모델에 사용된 변수 값을 재조율 하는 것 등은 모두 인간이 이행하는 과업이다. 따라서 인공지능은 인간이 개입하지 않아 감정이 없고, 결국은 가치중립적이고, 공정하다는 판단은 잘못된 것이다.
알고리즘 의사결정 과정에서 생기는 편향성
인공지능 알고리즘이 지능을 만들어가는 과정은 인간과 함께 하기에 과거 인간이 보였던 편향성을 그대로 갖게된다. 과거 신용등급 평가시 학력이나 성별, 혹은 주소 등으로 차별을 둔 관행이 있었다면 그 관행이 그대로 학습 데이터에 기록되어 있을 것이고, 그것을 그대로 인공지능은 학습한다. 상용화된 얼굴 인식 알고리즘의 경우 유색인종의 학습 데이터 부족으로 유색인의 얼굴을 가려내는 정확도가 현저히 낮다는 것은 이미 잘 알려져있다. 신용평가 사례도 마찬가지로 어떤 한 등급에 충분한 양의 데이터를 수집하지 못했다면 인공지능 신용평가 시스템은 그 등급을 판단할 충분한 지능을 갖출 수 없게된다. 이는 평가대상자의 신용을 잘못 평가하는 결과를 가져온다. 또한 알고리즘 설계와 변수 최적화 과정에서 알고리즘이 어떤 특정 그룹을 선호하도록 충분히 조율될 수 있다. 예를 들어 어떤 직종의 구직 광고가 온라인 상에서 여성보다 남성에게 타게팅되어 노출되도록 알고리즘이 조율되기도 한다.
영국 대학입시 오류는 이와같은 편향성에서 비롯된 것이고, 이에 대한 충분한 사전 검토없이 알고리즘 판단을 바로 대학입시 예측 결과로 결정한 것에서 비롯되었다. 알고리즘은 OFQUAL에서 정의한 시험 예측 점수 보정 논리에 의해 인간 개발자가 제공한 데이터를 분석하여 최선의 판단을 내린 것 뿐이다. 학습 데이터가 충분하지 못했을 때 알고리즘 판단을 수용하지 않고 교사의 예측 점수를 받아들여 사립학교 점수를 급격히 상승시킨 점, 알고리즘이 점수를 예측한 경우도 과목별 불과 과거 3년간의 데이터를 사용하여 학습 데이터 규모가 충분하지 못했던 점 등이 알고리즘 예측도를 떨어뜨린 원인으로 지적되고 있다. 얼핏 생각해보면 알고리즘 오류로 생긴 불공정 결과로 보이지만, 자세한 이유를 살펴보면 알고리즘 설계와 데이터 선택의 결정권을 가졌던 OFQUAL의 오류로 귀결된다.
인공지능 의사결정은 정치적 결정 과정의 한 부분
인공지능 알고리즘이 의도적으로 편향적 판단을 하도록 인간이 알고리즘 설계와 최적화를 진행할 수도 있고, 인간의 편향적 의도없이 설계되었지만 이미 숨겨져있던 데이터속 편향성을 찾아내, 인공지능은 향후 판단에서 편향적 대답을 내놓기도 한다. 영국 대입사례 경우 OFQUAL이 미쳐 인식하지 못했던 편향적 판단이 알고리즘의 로직(logic)에 내재되어, 불공정 결과를 만들어냈다. 바로 이러한 이유로 대학입시와 같이 많은 사람들을 대상하는 의사결정에 인공지능 알고리즘을 활용한다면, 상세한 인공지능 학습 알고리즘의 로직(logic)과 사용된 데이터를 투명히 공개하는 것이 요구된다. 가급적 많은 사람들과 독립적 전문가들에게 인공지능 모델의 구축 과정을 상세히 검토할 기회를 제공해야 한다. OFQUAL도 이러한 요구를 받았으나 데이터와 알고리즘에 대한 상세 내용을 교사 최종 예측점수 제출이 끝난 8월에 공개하였다. 영국 왕립 통계학 협회(Royal Statistical Society)에서 OFQUAL에 이러한 내용의 사전 공개를 요청하였지만, 알고리즘 내용을 파악한 일부 교사가 알고리즘까지 피해갈 점수 부풀리기를 고안할수도 있다는 우려에 공개를 최대한 연기하였다.
이처럼 인공지능이 내린 의사결정은 많은 경우 인간이 주도하는 과정의 부분일 뿐이다. 인간 의사결정자를 위해 보다 상세한 정보를 제공하는 역할로 활용될 뿐, 최종 의사결정은 그 권한과 책임을 갖는 인간이 내린다. 인공지능 의사결정에 의존해 인간이 어떤 판단을 내릴 땐, 편향성이 유입될 수 있는지 인공지능 판단을 포함한 의사결정 전 과정을 살펴보아야한다. 사전에 의도하지 못했던 결과를 효과적으로 찾아내기 위해 제3자에 의한 독립적 검토가 필요하다. 영국 대학입시의 경우 인공지능이 유추한 판단을 제3자의 재검토없이 바로 믿어버리고, 또한 그 과정을 의사결정이후에 공개하여 사전에 독립된 기관이나 의사결정 대상자인 학생, 교사, 학부모가 검토할 수 있는 기회를 주지 않았다. 알고리즘의 편향적 결정을 최종 대학입시 예측 결과로 받아들인 오류는 기술의 오류가 아닌, 영국 교육부가 결정한 정치적, 정책적 판단에 기인한다.
인공지능 개입이 공정한 결과를 가져오려면?
인공지능이 개입된 의사결정을 더 주의하여 살펴보아야할 이유는 그 결과가 미치는 파급이 전에 없이 크기 때문이다. 대개의 경우 인간 대신 인공지능을 활용하는 경우 의사결정을 내려야할 대상의 숫자가 크거나 사안이 복잡하여 인간이 일일이 감당하는 비용이 크기 때문이다. 이것이 뜻하는 바는 인공지능 판단이 불공정 결과를 초래할 때 영향받는 범위가 상당히 크다는 것이다. 인공지능 알고리즘 모델의 수정을 위해 한 번 잘못 판단된 사례가 다시 학습 데이터로도 사용될 수 있어 미래 판단에도 지속적으로 영향을 미친다. 한마디로 인간 개인 편향적 판단을 내릴 때 보다 인공지능 알고리즘이 편향적 판단을 내릴 때의 불공정 결과는 더 빠르고 광범위하게 퍼져 한 사회의 규범이 될 수도 있다.
반드시 인공지능의 의사결정 오류를 빨리 파악하고 이를 수정하는 노력을 기울여야만 효율성, 정확성, 공정성을 담보하는 인공지능 시스템을 이용할 수 있다. 영국 대학입시 사례는 대학입시라는 인화성 높은 주제에 적용된 알고리즘이었기에, 그로인한 불공정 결과가 명백히 밝혀질 수 있었다. 짧은 기간동안 광범위한 시민 다수 피해자가 직접 분노했고 주요 언론이 이를 이슈화했기에, 영국 교육부는 오류의 원인을 빠르게 밝힐수 밖에 없었다. 명확하게 드러난 오류였기에 시민의 정정 요구는 너무나 당연했고, 알고리즘은 바로 불신될 수 있었고, 정부는 빠른 시일 내에 결정을 되돌렸다. 하지만 유사하게 자동 알고리즘 오류가 관찰될 때, 항상 이를 바로 인정하고 그로인한 부당한 결과를 번복하고 알고리즘의 자동의사결정을 중단하는 것은 아니다.
예를 들어 얼굴인식 알고리즘의 판단으로 범죄자라 오인받은 소수 시민의 분노는 잘 알려져있지 않다. 영국과 미국의 경찰청에서는 인공지능 얼굴인식 알고리즘으로 우범자를 가려내기 위해 여전히 거리에서 CCTV 감시 카메라로 행인을 촬영하고 있다. 알고리즘의 실수로 무고한 시민이 우범자로 의심받아 부당하게 경찰의 심문을 받는 사례가 리포트되어도, 미국과 영국 경찰은 여전히 얼굴인식 알고리즘 사용의 중단을 고려하고 있지않고있다. 미국의 경우 다양한 복지 혜택을 제공받아야 할 실직자와 노숙자, 특별한 보호 조처를 받아야 할(예: 부모의 학대나 방임 등으로) 어린이 등이 자동화 시스템의 잘못된 판단으로 범죄자로 오인되거나 응당히 받아야할 의료 서비스를 받지 못하기도 한다. 이러한 현실이 우리에게 경고하는 것은 새로운 기술이 적용될 때 기술 적용 과정의 투명한 공개는 늘 수반되어야 하며, 이를 면밀히 살펴볼 시민의 감시가 필요하다는 점이다. 인공지능 윤리와 안전성을 걱정한다면 그 역할을 전문가와 정책입안자들로만 돌릴 순 없다. 인공지능의 판단에 따라 내 삶의 중요한 변곡점이 결정될 때, 최종 결정권을 누구에게 맡길 것인가? 바로 우리가 목소리를 내야할 때이다.