다크웹은 누가 운영하고, 누가 쓸까

서론

이번주는 추석이므로 가벼운 주제로 글을 써볼까 한다.

DarkLight 에서 정보를 수집하면서 사이트에 대한 부수적인 메타데이터를 같이 수집하고, 이를 검색할 수 있는 기능을 제공하고 있다.

그 중 하나는 바로 웹 사이트가 사용하고 있는 언어와 운영 환경 (웹 서버 정보) 에 대한 정보를 수집하고 있는데, 이를 이용해서 다크웹을 운영하는 사람들이 주로 어떤 언어를 사용하는지에 대해 간단하게 글을 쓰고자 한다.

그리고 민감하거나 깊게 분석한 내용에 대해서는 앞으로 블로그에 쓰지 않을 것 같다.

웹 사이트 언어

웹 사이트 언어를 통해 운영자가 어떤 국가를 대상으로 하고 있는지를 특정할 수 있게 해준다.

물론, 영어나 스페인어 같은 많은 국가에서 사용하는 언어의 경우에는 이것이 많이 어렵긴 하지만 한국어, 중국어, 일본어와 같이 해당 언어가 특정 국가나 단체에서만 사용된다면 이를 이용해서 운영자가 해당 화자를 대상으로 한다는 사실 정도는 특정할 수 있다.

일단 DarkLight에서는 아래에서 명시한 두 가지 방식을 모두 사용자에게 제공하고 있다.

  • HTML header에 명시되어 있는 language code
  • language-detector를 거쳐 탐지된 language code

둘 중 하나만 사용해도 되지만 두 가지 모두를 혼용하는 이유는..

첫 번째 방식의 경우에는 사용자가 명시하는 방식인데다가 명시를 하지 않는 경우도 있고, 영어라고 적어두고 실제로는 한국어인 경우도 왕왕 있기 때문이다.

그러면, language detector를 사용하는 두번째 방법만 사용하면 된다고 하는 분들도 있었지만 일단 detector를 100% 신뢰할 수는 없는데다가 이 detector에 여러 국가의 언어가 동시에 명시되면 이 친구가 제대로 작동하지 않는 모습을 보였기에 일단 두 가지 방식 모두를 Report에 병기하는 방식을 택하고 있다.

일단, 서론이 엄청 길었다. DarkLight에서 수집된 langdetect 기반 언어별 웹 사이트 통계 내용을 보도록 하자.

통계자료

압도적으로 영어가 50%를 넘는다. 이는 여러 나라가 영어를 사용하고 영어권 국가가 아니더라도 영어는 외국어로는 하기 때문이 아닐까 싶다. (DarkLight 웹 사이트로 영어로 쓴 이유도 거기에 있다.)

그리고 독일, 프랑스 등 유럽권 국가들이 대부분 보이고 중국어 바로 아래 한국어 (약 20위권)가 위치해 있다.

정보를 분석하다 보면 러시아어도 많이 나왔는데 프랑스어보다 뒤에 있다는 사실이 좀 놀라웠다.

그리고 langdetect가 아닌 HTML 기반의 언어로 하면 통계가 약간 뒤틀린다.

통계자료

일단 영어가 부동의 1위인 것은 사실이지만 생각보다 많은 사이트가 HTML에 language code를 명시하지 않는다.

그리고 아까는 중국어 바로 아래 한국어가 있었지만, 여기에는 한국어가 아예 존재하지 않는다.

마지막으로

뭔가 중간에 말 하다가 끝난 것 같지만 끝난건 사실이다. (좀 있으면 갈비 핏물 뺀거 재워두러 가야한다)

추석 하루 전날 쓰려니깐 뭔가 잘 안써지는데 그래도 이러한 특징이 다크웹 세상에 있다는걸 알았으면 한다.

물론 이게 standard도 아니고 이걸 기준으로 다크웹 data에 frame을 씌어서는 안되겠지만, 그래도 다크웹 에서는 이러한 행위가 있었다.. 정도만 가볍게 보면 될 것 같다.