우선, 오늘의 선수들 소개. 랜덤 순서. 작성자가 회원인 커뮤니티도 있고 아닌 커뮤니티도 있음을 미리 밝히며, 커뮤니티 소개는 잘못했다간 어그로를 끌 수도 있으니 패스. 대부분은 이름은 들어본 적이 있는 커뮤니티일거라 생각한다. 앞 얘기가 궁금한 분은 여기 를 먼저 보고 와도 좋다! 클리앙, clien 오늘의 유머, 오유, ou 웃긴대학, 웃대, humoruniv 베스티즈, bestiz 루리웹, ruliweb 아이러브사커, 알싸, 알럽사커 82쿡, 82cook 뽐뿌, ppomppu 듀나의 영화게시판, 듀게, 듀나, djuna 보배드림, 보배, bobaedream 여성시대, 여시 pgr21 쭉빵 네이트판, pann 파코즈, parkoz 이상 15개 커뮤니티를 대상으로 진행한다. 여기 없는 커뮤니티는 내가 모르는 곳이거나, 크롤링이 귀찮게 되어 있거나, 정줄놓고 막 긁어오다가 밴 당했거나, 그것도 아니면 잉여력이 미처 닿지 못했기 때문이다. 모든 게시물을 긁지는 못하고, 일반적으로 말하는 '자유게시판'과 유사한 성격의 게시판을 1순위로, 그런 곳이 없거나 올라오는 글이 안습인 경우에는 커뮤니티의 대표 게시판을 하루에 한번씩 모았다. 글쓴이와 관련된 정보는 긁지 않았으며 , 올라온 날짜(시간), 댓글 수, 조회 수도 함께 모았다. 데이터를 들여다보는 방법은 발렌타인데이, 화이트데이, 커플/솔로, 외로움 관련 내용의 출현 빈도를 기본으로 하고 가급적 커뮤니티별 비교는 피하려 했지만 이렇게나 모아놓으면 별 수 없자나? ...그래도 막 그래프를 한 곳에 겹쳐놓고 이거 봐라 얘네가 다른 곳이랑 비교해서 어쩌고 저쩌고 하지는 않는다. 혹시나 이거보고 커뮤니티끼리 싸우는 일은 없었으면 좋겠다. 보면 알겠지만 우린 어차피 다 마찬가지야. 하아. 일부만 관심이 있겠지만 사용한 소프트웨어를 잠깐 언급만 하고 넘어가자. Python 3.4, mongodb 3.0, pandas 0.15.2, IPython 3.0
댓글
댓글 쓰기