国内特级毛片 , 99久久精品免费看国产免费 , 国产精品毛片久久久久久久 , 亚洲无卡视频

河源新聞網(wǎng)由河源晚報社主辦!新聞網(wǎng)旗下: 在線數(shù)字報 | 新少年
當前位置:河源新聞網(wǎng) >> 資訊 > 財經(jīng) > 閱讀新聞

R語言批量文本處理并生成詞云聚信立

針對某一個事件或者人物或者實體,會有很多相關(guān)文本對其描述,他們可能來自不同的媒介,例如:關(guān)于金融的報道會有很多不同媒體寫了不同的文章,當我們分析這些數(shù)據(jù)的時候,它們經(jīng)常是多個文件。如下圖1所示一個文本文件對應一篇報道文章。

 

 

圖1 每個文本代表一篇針對金融的報道文章

本文使用R語言批量處理這樣的文本數(shù)據(jù),對他們進行分詞及詞頻統(tǒng)計,最后我們根據(jù)聚信立logo生成了詞云聚信立,這種方式在ppt演講、會場布置及公司宣傳等場景下有很好的應用性。

下面我們先上效果圖,再貼上R語言的相關(guān)程序代碼。圖2 是聚信立的文字logo,圖3相關(guān)報道的詞云聚信立logo。

 

 

圖2 聚信立文字logo

 

 

圖3 由詞云生成的聚信立logo(應用在ppt報告、公司宣傳、會場布置等很多場景)

 

最后是R源代碼:

library(rJava)

library(Rwordseg)

library(RColorBrewer)

library(wordcloud)

library(wordcloud2)

#路徑

dir <- "D:/C000007"

#路徑下文件名

names <- list.files(dir)

dirname <- paste(dir,names,sep="/")

#文件數(shù)量

n <- length(dirname)

#finaldata = read.csv(file = dirname[1],stringsAsFactors=F,header=F,encoding = 'UTF-8')

finaldata = read.csv(file = dirname[1],stringsAsFactors=F,header=F)

finaldata

 

#循環(huán)組裝到一個data.frame中

for (i in 2:n)

{

#new.data = read.csv(file = dirname[i],stringsAsFactors=F,header=F,encoding = 'UTF-8')

new.data = read.csv(file = dirname[i],stringsAsFactors=F,header=F)

flen=length(new.data)

if(flen==1) finaldata = rbind(finaldata,new.data)

if(flen>1)

{

newstr=''

for(j in 1:flen)

{

newstr=paste(newstr,new.data[,j])

}

newdataframe=data.frame(V1=newstr)

finaldata = rbind(finaldata,newdataframe)

}

 

}

#可使用write.table  將finaldata寫出

#分詞并統(tǒng)計詞頻

words=unlist(lapply(X=finaldata$V1, FUN=segmentCN))

word=lapply(X=words, FUN=strsplit, " ")

v=table(unlist(word))

#降序排列

v=rev(sort(v))

 

#組裝成詞云數(shù)據(jù)框

d=data.frame(v,row.names = names(v))

 

#繪制詞云

mydata=d

wordcloud2(mydata,size = 1.2,figPath='D:/juxinli.jpg') 



相關(guān)熱詞搜索:文本 語言 云聚信


上一篇:廣發(fā)行傾力澆灌實體經(jīng)濟 跨境托管業(yè)務位居股份制銀行第一位
下一篇:中行與國家開發(fā)銀行簽署全面合作協(xié)議 提升服務實體經(jīng)濟能力

熱點圖片

  • 頭條新聞
  • 新聞推薦

最新專題

更多 >>

熱度排行

關(guān)于我們 | 廣告服務 | 友情鏈接 | 案例展示 | 聯(lián)系我們 | 版權(quán)聲明