2. 수집기

메뉴

JSON 구조

Tweets 추출기 통해 저장되는 JSON 파일에 대한 구조는 다음과 같습니다. JSONObject를 JSONArray에 감싸는 형태입니다. 가장 상단 Object는 Tweet의 가장 기본 요소가 들어가 있습니다.

  • created_at : Tweet의 생성 Timestamp

  • favorites : 해당 Tweet에 하트를 보낸 횟수

  • retweets : 해당 Tweet에 대한 리트윗 횟수

  • language : Twitter 에서 자동으로 인식되는 언어 (이 프로젝트는 en 으로 잡혀야 정상입니다)

  • text : Tweet 문장

  • length : Tweet 문장의 길이

  • bytes : Tweet 문장의 바이트 길이

두번째 Array Object는 text를 기반으로 Wordcount 정보가 있습니다. ('단어 : 갯수' 타입)

세번째 Array Object는 위치 정보에 대한 데이터로 구성되어 있습니다.

  • geoloc : GeoLocation 정보 유무

  • latitude : 위도

  • longitude: 경도

<Tweets-고유-ID>.json
[
    {
        "created_at":1551221633000,
        "favorites":73,
        "retweets":0,
        "language":"en",
        "text":"This is JSON Example from Lively 😄",
        "length":60,
        "bytes":61
    },
    [
        {
            "json":1,
            "example":1,
            "lively":1
        }
    ],
    [
        {
            "geoloc":true,
            "latitude":37.14,
            "longitude":37.14
        }
    ]
]

Text 구조

불필요 이모티콘을 제거하여 순수 텍스트 파일로 추출했습니다.

<Tweets-고유-ID>.txt
This is JSON Example from Lively

필요 리소스 파일

필터링이 될 토큰 목록입니다. 다음은 파일에 작성된 목록 중 일부를 발췌했습니다.

  • i'm

  • can't

  • she'd

  • he'd

Last updated