PHP或者python進(jìn)行數(shù)據(jù)采集和分析,有什么比較成熟的框架??
我現(xiàn)在需要對一個(gè)網(wǎng)站的文章列表和列表里面的實(shí)際內(nèi)容進(jìn)行自動(dòng)化數(shù)據(jù)采集,列表里面能夠取得每個(gè)文章的id,而每個(gè)文章又是通過一個(gè)統(tǒng)一的接口(參數(shù)帶上那個(gè)文章id即可獲取到對應(yīng)的json)里面又有一部分?jǐn)?shù)據(jù)需要采集然后進(jìn)行數(shù)據(jù)分析。
目前有什么<愛尬聊_讓生活聊出新高度>比較成熟的框架或者輪子能夠?qū)崿F(xiàn)我的需求嗎?(要多線程,而且可以7x24小時(shí)穩(wěn)定運(yùn)行,因?yàn)椴杉瘮?shù)量巨大)
另外問一下,采集到的內(nèi)容如何存儲(chǔ)(百萬到千萬),數(shù)據(jù)里面有一些數(shù)字?jǐn)?shù)據(jù),需要進(jìn)行統(tǒng)計(jì)分析,用mysql可以嗎?或者說還有其他更加成熟簡便的輪子可以用嗎?
mbgg2797 23小時(shí)前
你沒說什么語言什么環(huán)境。多線程的話,目前一般用nodejs、python。這兩個(gè)都可以使用mysql之類的存儲(chǔ)數(shù)據(jù)。幾百萬上千萬不成問題。
