데이터 분석
[python] 전자신문 뉴스 크롤링하기 2. 통계분석
대장형아
2023. 9. 23. 17:16
에너지 관련 단어에 대하여 적절한 통계량(평균, 표준편차, 최빈단어)을 구하기
각 결과들이 궁금하니 describe 결과와 각각 구한 결과들을 비교해 보면서 공부하기.
key = ['에너지','전기','원자력','수력','화력']
# describe() 메서드
# 기본적인 몇가지 기술통계를 자동으로 추출
key_df.describe()
#각 키워드의 평균 구하기
m_res_list=[]
for i in key:
m_res = key_df[i].mean()
print(i + "평균 : "+ str(m_res))
m_res_list.append(m_res)
에너지평균 : 2.472945891783567
전기평균 : 1.1215764863059452
원자력평균 : 0.2939211756847027
수력평균 : 0.05744822979291917
화력평균 : 0.02404809619238477
#표준편차 구하기
std_res_list=[]
for i in key:
std_res = key_df[i].std()
print(i+"표준편차 : "+str(std_res))
std_res_list.append(std_res)
에너지표준편차 : 5.211384231407694
전기표준편차 : 3.333899881838207
원자력표준편차 : 1.433619135382007
수력표준편차 : 0.31353113543352845
화력표준편차 : 0.2180588102875779
#분산구하기
var_res_list=[]
for i in key:
var_res = key_df[i].var()
print(i+"분산 :"+str(var_res))
var_res_list.append(var_res)
에너지분산 :27.158525607364755
전기분산 :11.11488842212081
원자력분산 :2.0552638253334528
수력분산 :0.09830177288623755
화력분산 :0.047549644744033885
# 최대
max_res_list=[]
for i in key:
max_res = key_df[i].max()
print(i+"최대값 :"+str(max_res))
max_res_list.append(max_res)
에너지최대값 :57 전기최대값 :39 원자력최대값 :19 수력최대값 :4 화력최대값 :5
# 최소
min_res_list=[]
for i in key:
min_res = key_df[i].min()
print(i+"최솟값 :"+str(min_res))
min_res_list.append(min_res)
에너지최솟값 :0 전기최솟값 :0 원자력최솟값 :0 수력최솟값 :0 화력최솟값 :0
[링크]
Github Repository : https://github.com/notrowing/NewsPaper.git
GitHub - notrowing/NewsPaper
Contribute to notrowing/NewsPaper development by creating an account on GitHub.
github.com