2. 수집기
메뉴


저장되는 파일과 그에 대한 디렉토리 경로는 다음과 같습니다. (Mac/Linux) JSON 저장 위치 : /현재위치/data/json 텍스트파일 저장 위치 : /현재위치/data/txt (Windows) JSON 저장 위치 : [드라이브명]:\현재위치\data\json 텍스트파일 저장 위치 : [드라이브명\:\현재위치\data\txt
JSON 구조
Tweets 추출기 통해 저장되는 JSON 파일에 대한 구조는 다음과 같습니다. JSONObject를 JSONArray에 감싸는 형태입니다. 가장 상단 Object는 Tweet의 가장 기본 요소가 들어가 있습니다.
created_at : Tweet의 생성 Timestamp
favorites : 해당 Tweet에 하트를 보낸 횟수
retweets : 해당 Tweet에 대한 리트윗 횟수
language : Twitter 에서 자동으로 인식되는 언어 (이 프로젝트는 en 으로 잡혀야 정상입니다)
text : Tweet 문장
length : Tweet 문장의 길이
bytes : Tweet 문장의 바이트 길이
두번째 Array Object는 text를 기반으로 Wordcount 정보가 있습니다. ('단어 : 갯수' 타입)
세번째 Array Object는 위치 정보에 대한 데이터로 구성되어 있습니다.
geoloc : GeoLocation 정보 유무
latitude : 위도
longitude: 경도
[
{
"created_at":1551221633000,
"favorites":73,
"retweets":0,
"language":"en",
"text":"This is JSON Example from Lively 😄",
"length":60,
"bytes":61
},
[
{
"json":1,
"example":1,
"lively":1
}
],
[
{
"geoloc":true,
"latitude":37.14,
"longitude":37.14
}
]
]
Text 구조
불필요 이모티콘을 제거하여 순수 텍스트 파일로 추출했습니다.
This is JSON Example from Lively
필요 리소스 파일
필터링이 될 토큰 목록입니다. 다음은 파일에 작성된 목록 중 일부를 발췌했습니다.
i'm
can't
she'd
he'd
Last updated