問答

數據挖掘在生物信息中的應用有哪些?？

人類基因組計劃的啟動和實施使得核酸、蛋白質數據迅速增長,如何從海量數據中獲取有效的信息成為生物信息學迫切要解決的問題。數據挖掘技術用于在數據庫中發現潛在有用的知識,在<愛尬聊_讓生活聊出新高度>生物信息學研究中,正發揮著越來越重要的作用,而且取得了豐碩的成果。那么數據挖掘在海量生物信息中有哪些方法和應用呢？

北城太守 2021-11-12 00:35

維克托·邁爾的《大數據時代》給我們展現了一個新的世界，技術引領我們進入數據時代。從海量的數據中挖掘處有價值的方便，有效的分析技術是大數據應用的關鍵。大數據的成功應用案例之一是google利用檢索詞預測流感爆發。
但是通用的分析技術，降低分析硬件需求仍然值得討論，SaaS可能是解決這一問題的可能渠道，但是如何實現數據分析仍然是個問題，現有MapReduce，Hadoop等系統本質上是治標不治本，大數據碎片化的過程中必然數據大量數據關聯。
還有另外一個問題也會隨著出現，深身處于大數據時代的人們可能會感到信息的爆炸以及信息的暴露，在進行研究的同時我們不能忘卻道德的底線！

勞文亮 2021-11-12 00:39

數據挖掘是從大量數據中提取可信的、新穎的、有效的模式的高級處理過程。
生物信息學是一門新興的交叉學科。人類基因組計劃的啟動和實施使得核酸、蛋白質數據迅速增長,如何從海量數據中獲取有效信息成為生物信息學迫切要解決的問題。目前數據挖掘在生物信息領域的研究重點主要表現在以下幾個方面：
(1) 數據清理,數據集成,異種、分布式數據庫的語義集成。
許多國家和研究組織都建立了生物序列數據庫、蛋白質結構和功能數據庫,為人們提供了豐富的信息。但是這些數據分散,且存儲介質多樣,在同一數據庫中存在著大量具有重復信息的序列及一些高度相似的數據,造成數據冗余。因此對這種異構的和廣泛分布的數據庫的語義集成就成為一項重要任務。數據挖掘中的數據清理、數據集成方法有助于該問題的解決。
(2) DNA 序列相似搜索和比對。
為識別一個新發現的基因和一個已知基因家族之間的進化關系,確定他們的同源性或相似性,通常需要序列比對,找出它們之間的最大匹配,從而定量給出其相似程度。由于序列數據是非數字的,其內部不同種類核苷酸之間的精確交叉扮演著重要的角色。因此探索高效的搜索和比對算法在序列分析中非常重要。
(3) 基因組特征及同時出現的基因序列的分析。
對于基因家族的成組序列來說,必須闡明多個序列之間的關系,才能揭示整個基因家族的特征。多序列比對在識別一組相關序列中有重要生物意義。多比對算法的計算量可觀,為降低算法復雜性,必須研究有實用價值的比對算法。利用關聯規則、聚類分析有助于發現一組序列之間的差異以及相似性關系,以便對一個基因家族的特征有基本了解。另外在生物醫學研究上,人們發現疾病的產生大多數是由多基因決定的,利用關聯規則分析幫助確定在目標(疾病) 樣本中同時出現的基因種類。
(4) 路徑分析:發現在不同階段的致病因。
引起一種疾病的基因不止一個,不同基因在疾病的不同階段發揮作用。利用路徑分析、演變分析等找到在不同階段的致病遺傳基因序列,可開發不同階段的治療藥物,從而取得更有效的治療效果。
(5) 生物數據可視化和可視的數據挖掘。
由于生物數據的復雜性和高維性,既不能以數字公式表示,也不能以邏輯公式表示,可借助各種可視化工具以圖、樹、方體、鏈的形式展現其復雜結構和序列模式。常用的生物數據可視化工具有語義鏡技術、信息壁技術、基因調控網格等。同時,將經過數據挖掘工具得到的數據結果也以圖形、圖像的形式展現給用戶,便于用戶尋找數據間規律和關系。
(6) 生物文獻的挖掘。
Internet 上生物文獻日益增多,人們通過搜索引擎獲取相關信息,但檢索結果數目巨大,準確率不高,而且一般搜索結果只能給出標題和摘要,不能給出文章總的關鍵詞句。特別是生物文獻數據中,大多數蛋白質名稱都是復合詞,比較復雜,有的卻采用普通的詞匯命名與其常用詞義相混導致引擎搜索錯誤,甚至在一篇文獻中同一種蛋白質有好幾種命名出現,增加了搜索困難。利用路徑遍歷模式、鏈接分析、自然語言處理等技術尋找文獻中關鍵詞如蛋白質名稱,或捕捉上下文關系,可提高檢索速度和準確率。
(7) 基于隱私保護的數據挖掘。數據挖掘技術為生物工作者提供了有效工具的同時也引發了隱私保護問題。比如研究單位的保密實驗數據,個人的醫療診斷記錄、病史記錄都有可能被誤用。通過在數據挖掘過程中使用限制數據訪問,模糊數據,減少不必要分組,有目的增加噪聲數據等方法來達到保護隱私的目的。目前在該領域的研究尚處于起步階段。

奮斗來往兮 2021-11-12 00:49

生物信息學是一門新興的交叉學科。人類基因組計劃的啟動和實施使得核酸、蛋白質數據迅速增長,如何從海量數據中獲取有效信息成為生物信息學迫切要解決的問題。數據挖掘與生物信息學有很好的結合點,在生物信息學領域的應用潛力日益受到人們的重視。序列分析、基因表達、同源研究、蛋白質結構預測以及藥物設計為數據挖掘提供了廣闊的研究空間,也顯示了數據挖掘在這些方面的發展潛力。利用數據挖掘技術,將幫助人們認識生物數據所蘊涵的結構和功能信息,進而徹底了解生物數據所代表的生物學意義,幫助人們認識自然界各種生物的遺傳信息,認識病毒和細菌的真正面目,研制與開發新藥物等等。

編輯舉報 2023-02-15 22:52

0個評論

暫無評論...

登錄注冊

請自覺遵守互聯網相關的政策法規，嚴禁發布色情、暴力、反動的言論！

驗證碼：

換一張

久久精品国产精品青草色艺_www.一区_国内精品免费久久久久妲己_免费的性爱视频

數據挖掘在生物信息中的應用有哪些?？

0個評論