데이터 분석

[python] 전자신문 뉴스 크롤링하기 2. 통계분석

대장형아 2023. 9. 23. 17:16
에너지 관련 단어에 대하여 적절한 통계량(평균, 표준편차, 최빈단어)을 구하기
각 결과들이 궁금하니 describe 결과와 각각 구한 결과들을 비교해 보면서 공부하기. 

 

key = ['에너지','전기','원자력','수력','화력']
# describe() 메서드
# 기본적인 몇가지 기술통계를 자동으로 추출
key_df.describe()

 

describe() 실행 결과

#각 키워드의 평균 구하기 
m_res_list=[]
for i in key:
    m_res = key_df[i].mean()
    print(i + "평균 : "+ str(m_res))
    m_res_list.append(m_res)

 

에너지평균 : 2.472945891783567
전기평균 : 1.1215764863059452
원자력평균 : 0.2939211756847027
수력평균 : 0.05744822979291917
화력평균 : 0.02404809619238477
#표준편차 구하기
std_res_list=[]
for i in key:
    std_res = key_df[i].std()
    print(i+"표준편차 : "+str(std_res))
    std_res_list.append(std_res)

 

에너지표준편차 : 5.211384231407694
전기표준편차 : 3.333899881838207
원자력표준편차 : 1.433619135382007
수력표준편차 : 0.31353113543352845
화력표준편차 : 0.2180588102875779
#분산구하기
var_res_list=[]
for i in key:
    var_res = key_df[i].var()
    print(i+"분산 :"+str(var_res))
    var_res_list.append(var_res)

 

에너지분산 :27.158525607364755
전기분산 :11.11488842212081
원자력분산 :2.0552638253334528
수력분산 :0.09830177288623755
화력분산 :0.047549644744033885
# 최대
max_res_list=[]
for i in key:
    max_res = key_df[i].max()
    print(i+"최대값 :"+str(max_res))
    max_res_list.append(max_res)

 

에너지최대값 :57 전기최대값 :39 원자력최대값 :19 수력최대값 :4 화력최대값 :5
# 최소
min_res_list=[]
for i in key:
    min_res = key_df[i].min()
    print(i+"최솟값 :"+str(min_res))
    min_res_list.append(min_res)

 

에너지최솟값 :0 전기최솟값 :0 원자력최솟값 :0 수력최솟값 :0 화력최솟값 :0

 


[링크]  
 

 

Github Repository : https://github.com/notrowing/NewsPaper.git

 

GitHub - notrowing/NewsPaper

Contribute to notrowing/NewsPaper development by creating an account on GitHub.

github.com