什么是大數據?要簡單通俗點的解釋??
什么是大數據?要簡單通俗點的解釋?
govalley 13小時前 用最通俗的語言跟你解釋一下。
魔鬼低音 13小時前 大數據就是你行動行為的軌跡,將來可能會塑造成為你的影子,影子最終服務于你,預測到你的衣食住行,使你做到所想而行,比如你想自殺,它可能把刀放到你面前。
olaiwang 13小時前 這是一臺非常好的問題,作為一名大數據從業者,我來回答一下。在當前的大數據時代,不僅IT(互聯網)行業的人需要了解大數據相關知識,傳統行業的從業者和普通大學生也都應該了解一定的大數據知識,在產業互聯網和新基建計劃的推動下,未來大數據技術將全面開始落地應用,大數據也將重塑整個產業結構。了解大數據首先要從大數據的概念開始,不同于人工智能概念,大數據概念或是相對比較明確的,而且大數據的技術體系也已經趨于成熟了。解釋大數據概念,可以從數據自身的特點入手,然后進一步從場景、應用和行業來逐漸展開。大數據自身的特點往往集中在五個方面,分別是數據量、數據結構多樣性、數據價值密度、數據增長速度和可信度,對于這五個維度的理解和認知,是了解大數據概念的關鍵。當然,隨著大數據技術的發展和在行業領域的應用,關于數據自身的維度也有了一定程度的擴展,這些擴展本身也是對大數據概念的一種豐富和完善。數據量大是大數據的一臺重要特征,但是數據量本身是一臺匯集的概念,并不是只有很大的數據才稱為大數據,傳統信息系統所產生的“小數據”也是大數據的一臺重要組成部分,這一點一定要有清晰的認知。當前從大數據的數據來源來看,主要集中在三個渠道,包括互聯網、物聯網和傳統信息系統,物聯網數據當前占據的比例比較大,相信在5G時代,物聯網將依然是大數據的主要數據來源。數據結構多樣性是大數據的另一臺重要特點,不同于創新信息系統(ERP)當中的數據,大數據的數據類型是非常復雜的,既有結構化數據,也有非結構化數據和半結構化數據,這對于傳統的數據處理技術提出了巨大的挑戰,這也是推動大數據技術產生的一臺重要原因。在工業互聯網時代,大數據的數據結構多樣性會進一步得到體現,這對于數據價值化過程也提出了新的挑戰。數據價值密度往往是衡量數據價值的重要基礎,相對于傳統的信息系統來說,大數據當中的數據價值密度是比較低的,這就需要有更快速和便捷的方式,來完成數據的價值化提取過程,而這也正是當前大數據平臺所關注的核心能力之一。實際上,早期的Hadoop、Spark平臺之所以能夠脫穎而出,一臺重要的原因就是其數據處理(排序)速度比較快。數據增長速度快是大數據的另一臺重要表現,通常傳統信息系統的數據增量是可以預測的,或者說增長速度是可控的,但是在大數據時代,數據增長速度已經大大突破了傳統數據處理所能承載的極限。數據增長是一臺相對的概念,相對于消費互聯網來說,產業互聯網所帶來的數據增量可能會更加客觀,因此產業互聯網時代會進一步打開大數據的價值空間。最后,大數據還有一臺特點就是數據本身的真實性,大數據時代所帶來的一臺重要副作用就是數據真假難辨,這也是當前大數據技術所要重點解決的問題之一。從當前大型互聯網平臺所采用的方法來看,通常是技術和管理相結合的方式,比如通過為用戶認證就能夠解決一部分數據的真實性(專業性)問題。我從事互聯網行業多年,目前也在帶計算機專業的研究生,主要的研究方向集中在大數據和人工智能領域,我會陸續寫一些關于互聯網技術方面的文章,感興趣的朋友可以關注我,相信一定會有所收獲。如果有互聯網、大數據、人工智能等方面的問題,或者是考研方面的問題,都可以在評論區留言,或者私信我!
hongrui012 13小時前 相信大家對于這次新冠肺炎疫情期間社區防控力度之嚴、強度之大深有體會。但在杭州濱江區,在疫情爆發之初,卻面臨著社區疫情防控人手不足的問題。對此,國家電網杭州分公司研發了全國首個“電力大數據+社區網格化”算法,實現了收集、研判電力數據功能,并對濱江157476戶居民、超過1000萬條電力數據,進行了收集和分析。為了精準判斷細微的用電數據差別,該公司在算法中開發了居民短暫和長期外出、舉家返回、隔離人員異動等3個場景6套算法模型。通過3輪150余萬條次電力大數據巡航,精準判斷出區域內人員日流動量和分布,還可以實時監測居家隔離人員、獨居老人等特殊群體347戶。這讓社區人員得以根據電量波動判斷業主狀況,提高了登記和服務的效率,從而解決了人手不足的難題。聽完這個例子,不知道你有沒有什么感觸呢?看似“高大上”的大數據,實際上就是這么的“接地氣”。今天呢,我主要是想糾正一些大家對于大數據的誤解,對大數據有一臺更清晰且正確的認識。二、大數據是指什么?其中,第三范式和第四范式都是由計算機來進行計算的,二者之間有什么區別呢?引用維克托·邁爾·舍恩伯格撰寫的《大數據時代》中的話來說,就是:大數據時代最大的轉變,就是放棄對因果關系的渴求,取而代之關注相關關系。第四范式相對于第三范式來說,更關注“是指什么”,而不需要知道“為啥”,就像人類總是會思考事物之間的因果聯系,電腦卻更擅長相關性分析。這也是為啥有人提出第三范式是“人腦+電腦”,人腦是主角,而第四范式是“電腦+人腦”,電腦是主角。也許會有同學提出疑問,這是不是與我們科學研究的理念相違背?畢竟,如果通篇只有對數據相關性的分析,而缺乏具體的因果解讀,這樣的文章一般被認為是數據堆砌,是不可能發表的。這里我又想給大家舉一臺例子了,讓大家更好的理解第四范式的意義所在。拿我們近年來特別關心的霧霾來說,我們想要研究霧霾的產生機制,從而進行針對性的預防。按照第三范式的思路,我們需要先在一些具有“代表性”的地方建立氣象站,收集與霧霾形成有關的參數,包括大氣化學成分、地形、風向、溫度、濕度等氣象因素。需要注意的是,第三范式下,我們所收集的參數都是我們認為可能會影響到霧霾形成的因素,實際上已經人為地排除了某些不重要的參數。從研究的可行性角度出發無可厚非,但是從準確性上來說,已經是根源性的錯誤了。如果能夠獲取更全面的數據,即不加篩選地收集各類參數數據,進行更細致的數據分析,那么就能得出更科學的預測,這就是第四范式的出發點。相信通過上面的解說,大家對大數據有了一臺基本的認識,下面呢我來對大數據做一臺簡單的定義:大數據(big data),指的是在一定時間范圍內不能以常規軟件工具處理(存儲和計算)的大而復雜的數據集。這些大數據集包括結構化、非結構化和半結構化數據,需要經過進一步的數據處理和分析才能形成有價值的信息。第一、數據體量巨大這點相不難理解,我們日常生活中使用的微信、支付寶、微博、抖音等軟件每天都會產生數百億條以上的數據,這僅僅是移動應用一天的數據量,此外其他各行各業也都會產生各式各樣的數據,其總量絕對超出了你們的想象。舉個具體的例子,據英特爾預測,全球數據總量在2020年將達到44ZB,而中國產生的數據量將為8000EB,8000EB是指什么概念?整個地球上所有沙粒總數的10倍!第二、數據類型繁多正如我剛才所提到的,大數據包括結構化數據、半結構化數據和非結構化數據。結構化數據指數據的屬性相同,可以用統一的結構進行表示;非結構化數據缺少固定的結構,通常整體存儲,比如各種圖片、視頻、音頻等,非結構化數據越來越成為數據的主要形式,據IDC數據顯示,企業中80%的數據都是非結構化數據;而半結構化數據則介于兩者之間,比如HTML和XML文檔,其內部用成對的標簽記錄對應的數據,但每個文檔內部的標簽又不是統一的,沒有固定的規律。第三、價值密度低大數據的價值很高,但是單條記錄卻基本無意義,缺乏有效信息,這也對我們收集數據提出了要求,數據分析一定要建立在大量的數據集的基礎上。舉個例子,張三是某電商平臺的忠實用戶,我們作為后臺,如果單看他的某一條購物記錄,無非是知道了他買了什么東西,消費了多少錢,但是我們一旦利用大數據分析系統對張三所有的購物記錄進行分析,那么我們就能得出他的一臺消費畫像,了解其購買偏好,從而對他進行精準的商品推薦。第四、處理速度快如今5G時代,數據產生的速度越來越快,這就要求數據后臺能夠快速處理掉無用信息,因為需要控制存儲成本。同時更快速地處理信息,能夠獲取更多的有效價值,才能夠在商業競爭中取得優勢。兩方面因素都刺激著數據處理技術的高速發展,目前采取流式數據處理技術可以達到毫秒級甚至微秒級的處理時間,滿足實時監控分析用戶行為,從而提供個性化服務的需求。三、結語最后,引馬云的一句話作為結尾:未來的時代將不是IT時代,而是DT的時代。這里的DT就是data technology, 希望各位對大數據有了一臺新的認識,也希望大家能夠在這個萬物互聯的時代,把握時代機遇,掌握信息技能,做一朵勇往直前的“后浪”。
m41****3440 13小時前 什么是大數據及應用?大數據即為海量數據。人類生活在三維空間中,一草一木,一山一水,人類活動的行為軌跡,都可以用數據來表達。如企業的生產運營,商品標準。政府的管理決策,消費者的消費水平,消費習慣。地理環境的一條公路,一條河流等等。每方面都有每方面的大數據。每個行業都有每個行業的大數據。通過各企業,行業,社會主體等等數據的集成。形成了概念更大,更有價值的大數據流。通過宇宙萬物是互聯的原理。以及邏輯關系的分析。能夠得到。關于社會治理,企業運營,個人服務的便捷可靠,真實的服務方案。一件事物的組成并非由單一因素組成。由多方組合或者協同完成的。一件衣服的完成,要有生產布料的廠家,制衣廠家,制扣廠家,制線廠家,設計方,工人加工等等環節組合而成。大數據也是如此。大數據應用也是如此。人類剛剛邁入數字經濟時代。既為以數據為生產資料的時代。誰能掌握大數據以及大數據的應用?更好地服務于人類社會。誰就占據了未來財富以及地位的制高點。中國戰略性新興產業聯盟河北唐冠眾興科技有限公司畢紹鵬回答
Yubari_371 13小時前 “不接觸互聯網,以后寸步難行!”十年前,在這樣的危言聳聽下,大家扔掉磚塊手機拿起手掌大的智能手機。好不容易學會了玩微信刷朋友圈,目前中年危機和“大數據”都一起來了。是不是不接觸大數據,也要被時代淘汰?而現實生活中處處看見大數據,你刷不刷小視頻?讀不讀每日新聞?看不看新劇?細心的人就會發現,為啥軟件這么了解我,知道我喜歡看婆媳倫理視頻、知道我喜歡學最新廣場舞、知道我喜歡哈哈搞笑段子?手指不管如何往下滑,都是我喜歡看的,每次像再刷五分鐘就去睡覺,一刷就是兩個小時。這樣熟悉的場景是不是有感同身受?這就是大數據整合優化。用專業術語概括大數據就是:使用新的處理模式,對信息進行捕捉、管理和處理的數據集合。簡單來說就是:你拿著沒有喝完的奶茶,準備扔進垃圾桶。上海清潔工阿姨非常友好地問你,“你是指什么垃圾?”,這時候你就要:第一,先倒了剩下的奶茶第二,然后把珍珠倒到“濕垃圾”處第三,把外包裝扔到“干垃圾”處。以上這個過程就是大數據處理,對海量的數字信息進行分類、整合、優化,來達到客戶需求的目的。大數據在資源分配、信息匹配非常有用,例如器官移植匹配,就職簡歷投放等等。像我們這樣的普通人,我們享受的是大數據給我們帶來的便捷,我們并不需要去過于專研它。所以不用擔心不接觸大數據,就要被時代淘汰!就像我們都會用智能手機,要理解智能手機到底是如何運作,里面的鋰子電子排列順序是指什么,這個是完全不必要的。
govalley 13小時前 用最通俗的語言跟你解釋一下。
舉個例子,你想要買一雙鞋,打開淘寶搜索了半天,感覺不太合適,然后又一想,晚點買也可以,于是退出了淘寶,打開了抖音,開始看某些土味視頻。當你下一次打開淘寶的時候,淘寶一定會給你推薦各種新款式的鞋,并且會給你推送相關的活動。而你每次打開抖音,看到的大部分都是土味視頻。其原因就是因為你在淘寶上用了大部分時間去搜索鞋子,淘寶通過測算覺得你對鞋子感興趣,于是你每次進淘寶都會給你推薦鞋子。除非你下次用更多的時間去搜索另外一臺東西。而抖音覺得你比較喜歡土味視頻,因此這種視頻便一直出現。這就是我們所說的大數據,通過對你各種行為分析,為你推薦更符合你口味的東西。會銷售的售貨員在賣東西的時候一定不會僅僅去說產品,他肯定會通過各種方法去了解你的信息,等到信息足夠后再去為你推薦更加合適的產品,而此時你成交的概率非常大。所以不妨回憶一下,買東西的時候有沒有售貨員跟你聊除產品以外的東西?比如家庭?生活中的大數據有很多,打開歌曲APP,每日推薦就是大數據;打開今日頭條,推薦你最感興趣的內容也是大數據;打開視頻APP,推薦的視頻同樣是你最愛看的,這也是大數據。因此,只要能通過某種途徑,了解到你的詳細信息或者行為,根據這些信息或者行為進行推薦你所感興趣的東西,就叫做大數據。不知道你清楚了沒有?
魔鬼低音 13小時前 大數據就是你行動行為的軌跡,將來可能會塑造成為你的影子,影子最終服務于你,預測到你的衣食住行,使你做到所想而行,比如你想自殺,它可能把刀放到你面前。
olaiwang 13小時前 這是一臺非常好的問題,作為一名大數據從業者,我來回答一下。在當前的大數據時代,不僅IT(互聯網)行業的人需要了解大數據相關知識,傳統行業的從業者和普通大學生也都應該了解一定的大數據知識,在產業互聯網和新基建計劃的推動下,未來大數據技術將全面開始落地應用,大數據也將重塑整個產業結構。了解大數據首先要從大數據的概念開始,不同于人工智能概念,大數據概念或是相對比較明確的,而且大數據的技術體系也已經趨于成熟了。解釋大數據概念,可以從數據自身的特點入手,然后進一步從場景、應用和行業來逐漸展開。大數據自身的特點往往集中在五個方面,分別是數據量、數據結構多樣性、數據價值密度、數據增長速度和可信度,對于這五個維度的理解和認知,是了解大數據概念的關鍵。當然,隨著大數據技術的發展和在行業領域的應用,關于數據自身的維度也有了一定程度的擴展,這些擴展本身也是對大數據概念的一種豐富和完善。數據量大是大數據的一臺重要特征,但是數據量本身是一臺匯集的概念,并不是只有很大的數據才稱為大數據,傳統信息系統所產生的“小數據”也是大數據的一臺重要組成部分,這一點一定要有清晰的認知。當前從大數據的數據來源來看,主要集中在三個渠道,包括互聯網、物聯網和傳統信息系統,物聯網數據當前占據的比例比較大,相信在5G時代,物聯網將依然是大數據的主要數據來源。數據結構多樣性是大數據的另一臺重要特點,不同于創新信息系統(ERP)當中的數據,大數據的數據類型是非常復雜的,既有結構化數據,也有非結構化數據和半結構化數據,這對于傳統的數據處理技術提出了巨大的挑戰,這也是推動大數據技術產生的一臺重要原因。在工業互聯網時代,大數據的數據結構多樣性會進一步得到體現,這對于數據價值化過程也提出了新的挑戰。數據價值密度往往是衡量數據價值的重要基礎,相對于傳統的信息系統來說,大數據當中的數據價值密度是比較低的,這就需要有更快速和便捷的方式,來完成數據的價值化提取過程,而這也正是當前大數據平臺所關注的核心能力之一。實際上,早期的Hadoop、Spark平臺之所以能夠脫穎而出,一臺重要的原因就是其數據處理(排序)速度比較快。數據增長速度快是大數據的另一臺重要表現,通常傳統信息系統的數據增量是可以預測的,或者說增長速度是可控的,但是在大數據時代,數據增長速度已經大大突破了傳統數據處理所能承載的極限。數據增長是一臺相對的概念,相對于消費互聯網來說,產業互聯網所帶來的數據增量可能會更加客觀,因此產業互聯網時代會進一步打開大數據的價值空間。最后,大數據還有一臺特點就是數據本身的真實性,大數據時代所帶來的一臺重要副作用就是數據真假難辨,這也是當前大數據技術所要重點解決的問題之一。從當前大型互聯網平臺所采用的方法來看,通常是技術和管理相結合的方式,比如通過為用戶認證就能夠解決一部分數據的真實性(專業性)問題。我從事互聯網行業多年,目前也在帶計算機專業的研究生,主要的研究方向集中在大數據和人工智能領域,我會陸續寫一些關于互聯網技術方面的文章,感興趣的朋友可以關注我,相信一定會有所收獲。如果有互聯網、大數據、人工智能等方面的問題,或者是考研方面的問題,都可以在評論區留言,或者私信我!
hongrui012 13小時前 相信大家對于這次新冠肺炎疫情期間社區防控力度之嚴、強度之大深有體會。但在杭州濱江區,在疫情爆發之初,卻面臨著社區疫情防控人手不足的問題。對此,國家電網杭州分公司研發了全國首個“電力大數據+社區網格化”算法,實現了收集、研判電力數據功能,并對濱江157476戶居民、超過1000萬條電力數據,進行了收集和分析。為了精準判斷細微的用電數據差別,該公司在算法中開發了居民短暫和長期外出、舉家返回、隔離人員異動等3個場景6套算法模型。通過3輪150余萬條次電力大數據巡航,精準判斷出區域內人員日流動量和分布,還可以實時監測居家隔離人員、獨居老人等特殊群體347戶。這讓社區人員得以根據電量波動判斷業主狀況,提高了登記和服務的效率,從而解決了人手不足的難題。聽完這個例子,不知道你有沒有什么感觸呢?看似“高大上”的大數據,實際上就是這么的“接地氣”。今天呢,我主要是想糾正一些大家對于大數據的誤解,對大數據有一臺更清晰且正確的認識。二、大數據是指什么?其中,第三范式和第四范式都是由計算機來進行計算的,二者之間有什么區別呢?引用維克托·邁爾·舍恩伯格撰寫的《大數據時代》中的話來說,就是:大數據時代最大的轉變,就是放棄對因果關系的渴求,取而代之關注相關關系。第四范式相對于第三范式來說,更關注“是指什么”,而不需要知道“為啥”,就像人類總是會思考事物之間的因果聯系,電腦卻更擅長相關性分析。這也是為啥有人提出第三范式是“人腦+電腦”,人腦是主角,而第四范式是“電腦+人腦”,電腦是主角。也許會有同學提出疑問,這是不是與我們科學研究的理念相違背?畢竟,如果通篇只有對數據相關性的分析,而缺乏具體的因果解讀,這樣的文章一般被認為是數據堆砌,是不可能發表的。這里我又想給大家舉一臺例子了,讓大家更好的理解第四范式的意義所在。拿我們近年來特別關心的霧霾來說,我們想要研究霧霾的產生機制,從而進行針對性的預防。按照第三范式的思路,我們需要先在一些具有“代表性”的地方建立氣象站,收集與霧霾形成有關的參數,包括大氣化學成分、地形、風向、溫度、濕度等氣象因素。需要注意的是,第三范式下,我們所收集的參數都是我們認為可能會影響到霧霾形成的因素,實際上已經人為地排除了某些不重要的參數。從研究的可行性角度出發無可厚非,但是從準確性上來說,已經是根源性的錯誤了。如果能夠獲取更全面的數據,即不加篩選地收集各類參數數據,進行更細致的數據分析,那么就能得出更科學的預測,這就是第四范式的出發點。相信通過上面的解說,大家對大數據有了一臺基本的認識,下面呢我來對大數據做一臺簡單的定義:大數據(big data),指的是在一定時間范圍內不能以常規軟件工具處理(存儲和計算)的大而復雜的數據集。這些大數據集包括結構化、非結構化和半結構化數據,需要經過進一步的數據處理和分析才能形成有價值的信息。第一、數據體量巨大這點相不難理解,我們日常生活中使用的微信、支付寶、微博、抖音等軟件每天都會產生數百億條以上的數據,這僅僅是移動應用一天的數據量,此外其他各行各業也都會產生各式各樣的數據,其總量絕對超出了你們的想象。舉個具體的例子,據英特爾預測,全球數據總量在2020年將達到44ZB,而中國產生的數據量將為8000EB,8000EB是指什么概念?整個地球上所有沙粒總數的10倍!第二、數據類型繁多正如我剛才所提到的,大數據包括結構化數據、半結構化數據和非結構化數據。結構化數據指數據的屬性相同,可以用統一的結構進行表示;非結構化數據缺少固定的結構,通常整體存儲,比如各種圖片、視頻、音頻等,非結構化數據越來越成為數據的主要形式,據IDC數據顯示,企業中80%的數據都是非結構化數據;而半結構化數據則介于兩者之間,比如HTML和XML文檔,其內部用成對的標簽記錄對應的數據,但每個文檔內部的標簽又不是統一的,沒有固定的規律。第三、價值密度低大數據的價值很高,但是單條記錄卻基本無意義,缺乏有效信息,這也對我們收集數據提出了要求,數據分析一定要建立在大量的數據集的基礎上。舉個例子,張三是某電商平臺的忠實用戶,我們作為后臺,如果單看他的某一條購物記錄,無非是知道了他買了什么東西,消費了多少錢,但是我們一旦利用大數據分析系統對張三所有的購物記錄進行分析,那么我們就能得出他的一臺消費畫像,了解其購買偏好,從而對他進行精準的商品推薦。第四、處理速度快如今5G時代,數據產生的速度越來越快,這就要求數據后臺能夠快速處理掉無用信息,因為需要控制存儲成本。同時更快速地處理信息,能夠獲取更多的有效價值,才能夠在商業競爭中取得優勢。兩方面因素都刺激著數據處理技術的高速發展,目前采取流式數據處理技術可以達到毫秒級甚至微秒級的處理時間,滿足實時監控分析用戶行為,從而提供個性化服務的需求。三、結語最后,引馬云的一句話作為結尾:未來的時代將不是IT時代,而是DT的時代。這里的DT就是data technology, 希望各位對大數據有了一臺新的認識,也希望大家能夠在這個萬物互聯的時代,把握時代機遇,掌握信息技能,做一朵勇往直前的“后浪”。
m41****3440 13小時前 什么是大數據及應用?大數據即為海量數據。人類生活在三維空間中,一草一木,一山一水,人類活動的行為軌跡,都可以用數據來表達。如企業的生產運營,商品標準。政府的管理決策,消費者的消費水平,消費習慣。地理環境的一條公路,一條河流等等。每方面都有每方面的大數據。每個行業都有每個行業的大數據。通過各企業,行業,社會主體等等數據的集成。形成了概念更大,更有價值的大數據流。通過宇宙萬物是互聯的原理。以及邏輯關系的分析。能夠得到。關于社會治理,企業運營,個人服務的便捷可靠,真實的服務方案。一件事物的組成并非由單一因素組成。由多方組合或者協同完成的。一件衣服的完成,要有生產布料的廠家,制衣廠家,制扣廠家,制線廠家,設計方,工人加工等等環節組合而成。大數據也是如此。大數據應用也是如此。人類剛剛邁入數字經濟時代。既為以數據為生產資料的時代。誰能掌握大數據以及大數據的應用?更好地服務于人類社會。誰就占據了未來財富以及地位的制高點。中國戰略性新興產業聯盟河北唐冠眾興科技有限公司畢紹鵬回答
Yubari_371 13小時前 “不接觸互聯網,以后寸步難行!”十年前,在這樣的危言聳聽下,大家扔掉磚塊手機拿起手掌大的智能手機。好不容易學會了玩微信刷朋友圈,目前中年危機和“大數據”都一起來了。是不是不接觸大數據,也要被時代淘汰?而現實生活中處處看見大數據,你刷不刷小視頻?讀不讀每日新聞?看不看新劇?細心的人就會發現,為啥軟件這么了解我,知道我喜歡看婆媳倫理視頻、知道我喜歡學最新廣場舞、知道我喜歡哈哈搞笑段子?手指不管如何往下滑,都是我喜歡看的,每次像再刷五分鐘就去睡覺,一刷就是兩個小時。這樣熟悉的場景是不是有感同身受?這就是大數據整合優化。用專業術語概括大數據就是:使用新的處理模式,對信息進行捕捉、管理和處理的數據集合。簡單來說就是:你拿著沒有喝完的奶茶,準備扔進垃圾桶。上海清潔工阿姨非常友好地問你,“你是指什么垃圾?”,這時候你就要:第一,先倒了剩下的奶茶第二,然后把珍珠倒到“濕垃圾”處第三,把外包裝扔到“干垃圾”處。以上這個過程就是大數據處理,對海量的數字信息進行分類、整合、優化,來達到客戶需求的目的。大數據在資源分配、信息匹配非常有用,例如器官移植匹配,就職簡歷投放等等。像我們這樣的普通人,我們享受的是大數據給我們帶來的便捷,我們并不需要去過于專研它。所以不用擔心不接觸大數據,就要被時代淘汰!就像我們都會用智能手機,要理解智能手機到底是如何運作,里面的鋰子電子排列順序是指什么,這個是完全不必要的。