澳大利亞e-Research計劃
2004年,澳大利亞政府意識到如果要想在國際上保持先進、領先的研究實力,必須有一種能夠緊密結合和協作的方法來加速科學研究團體的研究。同年9月19日,澳大利亞決定開始實施以信息技術為連接、以英國e-Science為藍本的e-Research協作架構。2005年4月,e-Research調委員會成立,并邀請國家教育、科學、培訓、通訊、信息技術以及藝術等相關部門向政府提供關于發展澳大利亞e-Research的專家意見。2005年12月,一份臨時e-Research協調委員會報告被政府接受,該報告推動了e-Research協調委員會的工作,并提出了戰略實施框架和活動來加速澳大利亞e-Research發展的進程。這個e-Research戰略框架希望澳大利亞的研究者利用先進的信息和通信技術對世界級的研究做出貢獻。其目标包括:利用先進、創新的信息和通信技術讓澳大利亞的研究者領先于世界并被國際認可,能夠得到覆蓋澳大利亞國家研究重點的高質量研究結果;澳大利亞的研究人員能夠通過先進的信息和通信技術訪問各種數據、儀器和計算設備,真正的參與合作研究,并在國家與國際研究面臨挑戰的時候做出貢獻;澳大利亞的研究人員通過必要的教育、培訓和技能,在信息和通信技術以及信息管理專家的支持下有效使用各種信息和通信設施;e-Research研究能力的提升給澳大利亞的工業和商業帶來重要的影響;e-Research的研究成果将給澳大利亞的社會和經濟将帶來更多的益處[1]。
e-Research是一個建立在先進和創新的計算與通信基礎上的軟硬件綜合環境。它包括高速的通信網絡,先進的儀器和設施,傳感器網絡,數據存儲及其相關的數據标準和管理工具以及高性能計算資源。這些信息基礎設施能夠讓研究者信任和共享軟件、架構服務,以及他們依賴的各種數據、計算機、系統和網絡;讓研究者利用圖形可視化、模拟軟件和交互工具并通過接口和他們需要的設備、計算設施和數據資源進行交互。2004年澳大利亞政府決定到2011年投資82億美元用于建立世界級的基礎設施和開展科學研究。其中10億用來改善澳大利亞網絡建設,5.42億用于NCRIS(國家合作研究基礎設施策略)。NCRIS驅動了35000個研究者、政府和企業的合作,持續的資金支持推動了整個國家超級計算的能力和世界級的研究設施發展,并将它應用在納米制造、食品科技、健康、環境和生态城市等各項研究。NCRIS注重于e-Research的技術與設施,并保證其在國際上的競争力。目前NCRIS具有國家級的研究能力,有222個機構、1700名高科技人才、研究者和設施管理人員,近27個項目35000名國内外的研究者在使用[2]。
澳大利亞e-Research環境
在澳大利亞的e-Research發展過程中,CommonwealthScientificandIndustrialResearchOrganization(澳大利亞聯邦科學與工業研究組織,簡稱CSIRO)、NationalComputationalInfrastructure(澳大利亞國家計算基礎設施,簡稱NCI)、AustralianAcademicandResearchNetwork(澳大利亞學術與研究網絡,簡稱AARNet),為澳大利亞的e-Research創造了先進的科研信息化環境,讓澳大利亞的研究者利用先進、創新的信息和通信技術加強他們對世界級研究的貢獻。
CSIRO前身是于1926年成立的科學與工業顧問委員會,是澳大利亞最大的國家級科技研究機構[3]。CSIRO幫助澳大利亞研究人員進行全球有競争力和協作性的科研項目,重點解決國家和國際重大研究問題,并提供先進的信息和通信技術服務平台以支持他們的科學成果。它為澳大利亞的科學研究提供了新的途徑,通過科學研究和發展為澳大利亞帶來經濟效益和社會效益。CSIRO所從事的22項研究領域中,有15項的排名進入全球科研機構前1%。CSIRO依靠先進的信息和通信技術服務協助研究團隊制定他們的計算和數據管理需求,以及他們對項目的認識。比如CSIRO開發了一系列的流程和系統,支持CSIRO研究數據和軟件資産的生命周期,并确保其安全性,可發現性和可重用性。數據的優化存貯方案,大規模數據傳輸、數據保護(數據備份、數據複制、數據同步)、文件系統組織、數據轉換和數據保存以及對來自各種科學設備的數據捕獲和管理。最著名的是CSIRODATAACCESSPortal(DAP),通過它可以浏覽、查找和下載超過1700個研究數據。CSIRO和我國合作了近40年,其中一項基于日光鏡技術的集中太陽能發電技術也将應用于我國。這項技術與我國的制造能力相結合,有助于加速将太陽能熱作為我國可再生能源的重要來源。除此之外,CSIRO還提供高性能計算、可視化、工作流以及協助研究人員進行文獻、出版和記錄等服務。CSIRO的e-Research計劃主要包括與國家和國際e-Research社區合作,并在未來的規劃框架中尋找最佳的實踐應用;與CSIRO業務部門的研究團隊建立關系,密切合作,了解它們的e-Research要求,使他們能夠成功實現目标;提供跨區域的專用項目支持,包括高性能計算、雲計算平台、高級可視化、數據管理、軟件可持續性和工作流。
NCI建于2007年,是澳大利亞高度整合的高性能計算研究環境,由NCRIS和澳洲教育部支持,目前由CSRIO參與運作。NCI基于澳大利亞國立大學,為近4000名澳大利亞來自不同研究機構、35所大學、5個澳大利亞研究中心、3個醫學研究院的研究者提供高性能計算和高性能數據服務[4]。它擁有澳大利亞性能最快的千萬億次超級計算機(Raijin)、性能最好的雲服務(Tenjin)、速度最快的文件系統(Lustre)和最大的數據倉庫。它支持和吸引國際間的合作,并保持澳大利亞世界級的研究能力。NCI整合了先進的計算設施并緻力提供給所有的科學研究領域,通過提供高性能計算、數據存貯和數據服務給計算和數據密集型研究團體一個多合一的資源。NCI為澳大利亞的e-Research提供了高性能計算、雲計算、數據存儲、數據創新、收集管理、虛拟實驗室、可視化等研究能力,應用領域包括地球與環境科學、化學科學、物理科學、工程與技術科學、生物科學以及數學科學,開展如使用基因序列治療自身免疫疾病、核聚變模型、能源存貯新材料、模拟超行星形成、探尋量子屬性、南極冰川融化、工業催化上的納米顆粒等研究項目。
AARNet成立于1989年,是澳洲聯邦政府支持的一個非營利有限公司,股東是38所大學和CSIRO,被認為是澳大利亞互聯網的創始者,以提供高速低延遲的網絡聞名于全世界[5]。AARNet将澳大利亞大學、CSIRO、有研究和教育任務的組織,與教育和研究部門有互動的部門,如醫院、職業培訓機構、學校和博物館連接在一起,提供10G、40G和100G的網絡帶寬。AARNet在e-Research扮演着非常重要的作用,全力支持NCRIS,并與世界各地的其他國家教育網絡合作。AARNet目前有幾個非常重要的創新研究,如SDN測試平台、scienceDMZ和CloudStor。其中SDN測試平台通過西雅圖與美國Internet2和ESnet研究網絡以及ON.LAB部署的全球OpenFlow網絡設施相連接的測試平台進行互連。參與研究的9所大學研究人員可以通過連接AARNet來建立一個全球範圍的廣域SDN實驗環境,通過建立互聯網的模拟,使計算機科學,工程和數學領域的研究人員更容易進行環境搭建和結果測試,驗證先進的網絡概念,加快高速網絡的發展。專用網絡架構scienceDMZ解決了研究機構以及大學在進行大型數據集研究時由于數據量過大而造成的存儲、共享、同步和發送問題,可以滿足當下數據密集型數據研究的高要求,降低了科學數據量指數級增長對研究進度帶來的影響,同時提升了大數據科學研究者與普通用戶的網絡性能。CloudStor是專門針對研究機構和教育部門的一種免費,快速且安全的文件傳輸和存儲解決方案。它可以為AARNet相關機構的每位研究人員提供100GB的免費存儲空間(一些研究機構允許獲得更大的空間)。同時可直接連接到AARNet骨幹網,速度為40Gbps,能夠快速方便地訪問。擁有澳大利亞訪問聯盟(AAF)認證的研究人員均可單點登錄。
可以看出,澳大利亞的e-Research能夠取得快速的發展與政府對信息基礎設施建設的投入及重視有着非常重要的關系。國家級NCRIS項目的啟動和CSIRO對e-Research的合作與支持;NCI高性能計算設施和AARNet高速網絡的建立給e-Research提供的平台;創新的信息技術如HPC、數據存儲、工作流、雲計算、可視化以及物聯網技術都為e-Research開展各種跨學科的合作研究提供了堅實的基礎(如圖1所示)。
基于e-Research的生物多樣性研究
澳大利亞生物物種占全球物種的10%,且超過80%的物種為澳大利亞獨有。因此,對澳大利亞生物多樣性的研究顯得尤為重要。依托于e-Research環境(如圖2所示),澳大利亞的生物多樣性研究取得令人矚目的成績,包括ALA(TheAtlasofLivingAustralia)[6]、BCCVL(TheBiodiversityandClimateChangeVirtualLaboratory)和EMBL-ABR(EMBLAustraliaBioinformaticsResource)。ALA是澳洲政府一個基于互聯網技術的基礎設施項目,也是一個緻力于使生物多樣性信息容易獲取和使用的國家項目,由CSIRO和澳大利亞的博物館、大學和澳大利亞政府之間合作建立。在ALA成立之前,澳大利亞對生物研究和管理方面一個主要的障礙就是有關于生物多樣性的數據都是零散碎片性并且難以獲得。澳大利亞物種的數據和信息傳統上被保存在博物館、大學、政府部門和各種組織中。從這些組織中獲取記錄和數據集需要大量的時間和精力,并且常常出現不完整的信息。為了克服這些問題,澳大利亞的生物多樣性信息必需要彙集在一起,并在一個地方方便地獲取。該項目由澳大利亞政府通過NCRIS資助。ALA是一個集中的基于Web的基礎設施,通過它可以捕捉、整合、管理、發現和分析生物多樣性數據和以及相關信息。在ALA不僅可以發現物種信息、探索某個區域的物種信息、下載數據、上傳數據,而且提供API允許第三方網站訪問ALA某些特色等功能。它的數據收集平台Biocollect提供方便、靈活、可配置的功能支持用戶自定義各自領域的數據收集和調查。通過ALA可以了解到澳洲所有的物種分布,這為澳大利亞的生态保護提供了很重要的支持。研究者、企業、政府以及其他團體可以通過一套工具來使用它。ALA在全球範圍内也扮演着重要的角色,尤其是ALA開放的資源體系結構為全世界的國家生物多樣性信息門戶提供解決方案,并廣泛被世界一些國家采納,如西班牙、法國、葡萄牙、哥斯達黎加、阿根廷、巴西、科隆和愛沙尼亞等。尤其在天文學、生物安全、保護瀕臨物種、自然環境的研究和管理領域,許多國家都利用ALA的開放式基礎設施,最大限度地減少重複,也為澳大利亞以及全球生物多樣性社區帶來巨大的價值。
BCCVL由澳大利亞多個大學共同建立,這個虛拟實驗室提供無縫接入到澳大利亞國家計算基礎設施用于未來氣候複雜的預測。它具有豐富的、可利用的生物學數據以及一套迄今為止最複雜的模型算法,并獲得了2015年昆士蘭iAWARDS獎[7]。BCCVL提供訪問可視化的生物、環境、氣候數據集,同時可以對數據進行統計分析。平台提供了17種算法,如統計回歸、機器學習、地理模型等[8]。
EMBL-ABR也是一個為澳大利亞生命科學研究人員提供生物信息學支持的分布式國家研究基礎設施。它與歐洲生物信息學研究所合作,最大限度地提高澳大利亞的生物信息學能力。EMBL-ABR由NCRIS和墨爾本大學投資建立,包括1個中心(墨爾本)和12個節點,這些節點圍繞六個關鍵領域如數據、工具、計算、标準、培訓和平台,并将這些領域映射到生物學的專業領域。它的目标是促進并提供數據、工具和平台方面的培訓,使澳大利亞的生命科學研究人員能夠在大數據時代進行研究,增加澳大利亞收集、整合、分析、利用、共享和存儲大的異構數據集,以及在國際上展示澳大利亞的研究和數據集[9]。
過去十年,通過國家、州和機構投資,澳大利亞建成了具有國際競争力的e-Research研究環境。它讓澳大利亞進一步增強和維持其在生物、衛星圖像處理、太陽電池效率、精準天氣預報、化學先進制造以及中子發現等領域的科研競争優勢。e-Research不僅代表了一種勢在必行的戰略,也讓澳大利亞在世界科學研究上保持競争力并從中獲得經濟利益,而且它還提升了研究團體、商業和其他團體的研究水平,這對于澳大利亞分散的研究資源來說非常重要。随着科學研究全球化、跨學科、合作化以及數據密集性、大數據的挑戰,e-Research這種全新的研究遠景和組織模式将為加速研究進程、促進研究人員之間的協作和知識共享以及開辟全新的跨學科研究領域發揮更大的作用。(責編:楊潔)
(作者單位為蘭州大學網絡安全與信息化辦公室)
參考文獻
1.http://apo.org.au/system/files/780/AnAustraliane-ResearchStrategyandImplementationFramework
2.https://www.education.gov.au/national-collaborative-research-infrastructure-strategy-ncris
3.https://www.csiro.au/
4.http://nci.org.au/
5.https://www.aarnet.edu.au/
6.https://www.ala.org.au/
7.https://www.iawards.au/hidden-pages/2015winners/winners/qld
8.http://www.bccvl.org.au/
9.https://www.embl-abr.org.au