자세히 보기

어느 날 갑자기 뜨는 404 오류’··· 링크 손상은 IT의 잘못일까?

뉴스
2024.05.244분

링크 손상(link rot)은 많은 웹사이트를 괴롭힌다. 문제를 관리하는 도구를 쓸 수 있지만 쓰지 않는 경우도 있다.

영원한 것은 없으며, 연구자들은 웹페이지도 예외가 아니라는 사실을 발견했다. 웹페이지는 한 순간 존재했다가 미래의 알 수 없는 시점에 갑자기 ‘404 오류’ 메시지와 함께 사라지는 습성이 있다.

이런 현상을 흔히 ‘디지털 붕괴(digital decay)’ 또는 ‘링크 손상’이라고 부른다. 퓨 리서치센터 분석에 따르면 온라인 콘텐츠가 사라지는 현상을 몇 가지 수치로 환산해 볼 수 있다.

2013년 존재했던 웹페이지의 샘플을 무작위로 조사한 결과, 2023년에는 38%가 사라진 것으로 나타났다. 2023년의 웹페이지 10개 중 거의 4개가 10년 후 사라진 셈이지만, 2023년에 등장한 페이지도 마찬가지다. 동일한 분석을 수행한 결과 2023년 등장한 페이지는 연말까지 8%가 사라졌다.

그러나 중요한 것은 단순히 얼마나 많은 웹페이지가 사라졌는지가 아니라 어디에서 사라졌는지다. 뉴스 페이지의 23%와 미국 정부 사이트 페이지의 21%에서 끊어진 링크가 하나 이상 발견됐다.

링크 손상에 있어 가장 흥미로운 척도로는 외부 정보 소스의 참조 링크에 크게 의존하는 사이트인 위키피디아(Wikipedia)가 있다.

참조가 중요함에도 불구하고, 연구진은 샘플 5만 개의 영어 위키백과 항목 중 54%에서 1개 이상의 링크가 끊어진 사실을 발견했다. 또한 항목에 있는 참조 100만 개 중 11%의 링크는 더 이상 액세스할 수 없었다.

사라지고 있는 트윗
링크뿐만이 아니다. 또 다른 문화적 기준점이 될 수 있는 X(구 트위터) 플랫폼의 ‘트윗’에서도 비슷한 패턴이 뚜렷하게 나타났다. 지난해 3월 8일부터 4월 27일 사이에 게시된 5백만 개의 트윗을 표본으로 조사한 결과, 6월 15일까지 18%가 사라진 것으로 나타났다. 트위터가 기존 도메인(twitter.com)에서 URL 리디렉션을 중단하면 이 수치는 훨씬 더 높아질 수 있다.

트윗 중에는 일부 언어가 사라지는 비율이 더 높았다. 영어 트윗의 경우 20% 수준이었지만, 아랍어와 터키어 트윗은 각각 42%, 49%에 달했다.

이 문제를 조사한 곳은 퓨 리서치센터가 처음이 아니다. 2021년 하버드 로스쿨에서 뉴욕타임스 기사내 228만 3,445개의 링크를 분석한 결과, 72%가 딥링크(홈페이지가 아닌 특정 기사로 연결되는 링크)였고, 그중 25%는 액세스할 수 없는 것으로 나타났다.

1996년부터 운영된 뉴욕타임스 웹사이트는 장기적인 링크 손상의 좋은 척도가 된다. 놀랍게도 1998년으로 갈수록 손상이 더 심해지는 것으로 나타났다. 2008년의 경우 링크의 42%에 더는 액세스할 수 없었지만, 1998년의 링크에서는 72%에 달했다. 

퓨 리서치센터의 이번 연구는 콘텐츠 드리프트, 즉 페이지에 액세스할 수 있으나 시간이 지나면서 원래 형태와 크게 달라지는 정도도 조사했다. 그 결과 뉴욕타임스에 게재된 4,500개의 샘플 페이지 중 13%가 게재 이후 크게 변한 것으로 나타났다.

IT의 어디가 문제인가?
이런 일이 문제가 될 수 있을까? 많은 사람들이 눈치채거나 신경을 쓰더라도 웹페이지가 사라지거나 변경되는 것은 불가피하다고 주장할 수도 있다.

퓨 연구진은 판단을 내리지 않았지만, 하버드 로스쿨의 연구진은 링크 손상의 문제점에 대해 “웹의 취약성은 서면 기록에 의존하는 업무나 관심 분야에 문제를 야기한다. 더 근본적으로는 이 문제가 수십 년 전의 기사를 원래의 출처와 맥락에서 단절한 채 껍데기만 남기게 된다”라고 지적했다.

콘텐츠 관리 시스템(CMS) 및 웹 관리 전문가이자 현재 보안 기업 멀웨어바이츠(Malwarebytes)의 사이버 보안 에반젤리스트로 근무 중인 마크 스토클리는 일부 링크 손실은 불가피하다고 인정하면서도 그 규모를 보면 관리 실패가 더 심각한 문제라고 말했다.

그는 “사람들은 예전보다 페이지 손실에 대해 더 이중적인 태도를 보이는 듯하다. 처음 웹 작업을 시작했을 때만 해도 페이지나 URL이 사라지는 것은 끔찍한 일이었다. 페이지가 더 이상 필요하지 않은 경우 최소한 대체 페이지로 리디렉션해 막다른 골목이 없도록 했다”라고 설명했다.

그는 또한 “당황스러운 것은 CMS가 제대로 대응하지 못할 때다. 일부 CMS는 실수를 감지하고 자동으로 리디렉션해 URL 변경 사항을 다시 채우는 반면, 그렇지 않은 CMS도 있다. 이는 특정 종류의 링크 손상을 방지하는 명백하고 쉬운 방법인데, 2024년에도 이런 문제가 존재한다는 사실이 당황스럽다”라고 말했다.

CMS에 링크 검사 기능이 포함돼 있지 않은 경우 관리자는 사이트를 크롤링해 끊어진 링크를 찾아내는 링크 검사 도구를 배포할 수도 있다. CMS 관리자에게 끊어진 링크를 발견하고 수정하는 일은 사후에 처리하는 것이 아니라 미리 정의된 프로세스가 돼야 한다. 

온라인 콘텐츠가 손실되는 문제에 대한 퓨 리서치센터의 연구 결과는 여기(PDF)에서 읽을 수 있다. dl-ciokorea@foundryco.com

John E. Dunn is a veteran cybersecurity reporter, specializing in crisis response, ransomware, data breaches, encryption, quantum computing and QKD, DevSecOps, managed services, cybersecurity in education, retail cybersecurity, vulnerability reporting, and cybersecurity ethics.

John is a former editor of the UK editions of Personal Computer Magazine, LAN Magazine, and Network World. In 2003 he co-founded Techworld, since when he has covered cybersecurity and business computing for a range of publications including Computerworld, Forbes, Naked Security, The Register, and The Times.

이 저자의 추가 콘텐츠