陳婧/文
從圖像轉化為文字信息的難處還在于,這些檔案很多是用拉丁語、托斯卡納語、威尼斯方言記錄下的,轉寫它們時要先翻譯,再編入索引有沒有可能通過計算機圖像,制作出曆史版的“谷歌地圖”?洛桑聯邦理工學院與威尼斯卡福斯卡裡大學正在用計算機,還原出1000多年前歐洲商業樞紐城市——威尼斯的生活場景。這種方式蘊含的信息量極為直觀豐富。英語諺語說“一幅畫面抵過1000個詞”,而谷歌的一項研究曾表明,有時候一幅畫面甚至可以抵過5000億個詞。如果把威尼斯漫長歲月中留存的數百萬份檔案以圖像的方式還原,将提供一種新的探索及學習的方式,因為當代人想把這幾百萬本曆史文獻都讀完,可能性幾乎為零。
物理學家霍金預言:如果一艘太空船能以接近光速的速度在宇宙飛行,就可讓船上乘客進入未來。可以建造起這艘飛船的并非隻有物理學家——曆史學家也運用起大型的數據集,建起了一台真正的時光機,回到過去。洛桑聯邦理工學院與威尼斯卡福斯卡裡大學正在運用大型的數據集,還原出1000多年前威尼斯的生活場景80公裡的文獻
威尼斯卡福斯卡裡大學發起這個項目的意義是去探讨:我們有沒有可能做出一種“關于過去”的谷歌地圖?能不能擁有一台多拉A夢的時光機?這台炫酷的時光機,可以把觀衆拉回到14世紀的威尼斯共和國。“1323年,誰住在這個宮殿裡?”“在裡亞托的一個集市裡,1公斤的海鲷賣多少錢?”“穆拉諾島的一個玻璃工人的工資是多少?”
想回答這些并不容易。雖然項目組手邊有很多過去的資料,可以把所有這些資料數字化,然而年代越久遠,我們獲得的信息也越少。幸而威尼斯的管理模式非常“官僚主義”:威尼斯共和國的執政官們,幾乎記錄下這裡發生的一切。在威尼斯的國家檔案館,你可以找到80公裡長的檔案資料,它們記錄下了過去1000多年中威尼斯人們生活的方方面面。從出生和死亡記錄、納稅記錄、建築設計圖、城市規劃方案、去其他領土的旅遊導覽圖、和平條約等等。這需要把這些海量的信息完整地串連起來,并重新找到分析的線索。
最早的檔案可以追溯到公元9世紀,一位孀婦的遺囑是把30籃子的橄榄留給她的繼承人。一幅14世紀的水利灌溉圖中,可以看到淡水與海水是如何被分開,從而避免了有害水生微生物在淡水中擴散。另一幅繪畫作品描繪了17世紀威尼斯人與奧斯曼帝國在雅典作戰,毀壞了帕台農神廟,通過強大的陸海力量步步蠶食這個航海巨人的版圖。
還有威尼斯共和國的使節在國外書寫的上千封函件,叙述了當時其他國家的政治、宗教情況。當時擔任帕多瓦大學數學教師的伽利略的親筆信,向當時的威尼斯議會議員申請經費,用于開發天文望遠鏡。以及由奧地利向法國割讓威尼斯的《坎波福爾米奧條約》原件。這座城市發生的每一丁點兒變化,都被記錄在那裡。
這些80公裡長的文獻檔案中,大概有100億件事件。将這些信息,放回到它們原來的空間中,再用不同的方法将它圖像化,就可以重建出一場威尼斯共和國的旅行,前後穿梭1000多年,令人驚歎。加上語義編碼,這巨大的地理信息系統,最終可以被很多種方法搜索。
擁有這些資料還不夠,要開發一台“時光機”,還需要對未知的事實進行推斷。這個模拟的過程,可以看作是獲得了威尼斯船長編寫的某次航海日志,代表了那個年代很多類似航程的航海日志。
如果把它放到更大的歐洲背景下去觀察研究,那麼或許可以重新發現威尼斯如何一步步控制了亞得裡亞海,如何變成了最強大的中世紀海上帝國,如何幾乎控制了從東到南的所有海上航線。由此,也可以更深刻地理解這個東西方世界貿易的中轉站。
谷歌的一項研究表明,有時候一幅畫面的信息量甚至可以抵過5000億個詞時光機生産手冊
盡管參與項目合作的研究人員達到了100多人,但如果把從9世紀到20世紀的海量文獻全部轉化成一個信息系統,每天至少要把450本書數字化,而這僅僅是項目工作的起點。
項目組有着非常嚴密的工作流程。首先,把大量的文獻轉化為高清格式的數字圖像。通過與行業尖端企業的合作,項目組使用的是每小時可以高精度掃描1000頁的半自動化掃描機器人。為了考慮古籍保護的需要,使用特定的粒子加速器産生的X光射線,這樣機器人不需要翻動書頁,即可完成掃描的過程。
接着是破譯圖像并轉化為文字。科學家需要重新開發算法,把圖像解構,這些碎片式的圖像,與數據庫中的其他圖像進行比對後,能根據它的形狀識别為可能的關聯性文字,提高識别的幾率。通過比對,還可以對數據庫中上百萬個同樣形狀的圖像,同步完成識别工作。這些成功識别的詞語,再通過文字處理器,組合成為完整的句子。值得一提的是,編程人員使用的算法受到生物技術的啟發,采用的是蛋白質結構分析與功能預測的方法。
從圖像轉化為文字信息的難處還在于,這些檔案很多是用拉丁語、托斯卡納語、威尼斯方言記錄下的,轉寫它們時首先需要翻譯,然後将它們編入索引。傳統的光學字符識别方法,對于印刷本可以使用且非常有效,但對于這些手寫的檔案似乎并不太行之有效。
項目組的破解方法是從語音識别入手,建立一個語言模型,加上一些限制條件,随後在數據庫裡填入組織條理清晰的檔案文獻,就可以讓這些海量的檔案劃分為更細小的部分。由于每一個部分都和其他部分有近似的特征,那麼就有實現破譯的可能。
最後一步,讓識别出的信息之間産生關聯,這也是威尼斯檔案館珍藏文獻的最大價值所在。研究組采用關鍵詞進行組合,使得文獻可搜索。而句子中的關鍵字,把海量圖像重新歸類後,如同一個社交網絡或是一本族譜,交叉中就會産生新的研究線索。
雲技術的應用,也是開發出這台時光機的關鍵要素。威尼斯的市井、政治、宗教圖像,城市規劃和設計,城市的發展脈絡,這些海量的數據在雲端建立了一個全新的數字環境。對曆史研究人員來說,免去了到威尼斯文獻檔案館堆積如山的資料室裡苦苦發現線索的過程。
利用雲技術,還進一步創造出了一個模拟系統,發現丢失的信息,或者做出一些相當精準的曆史預測。地中海區域波谲雲詭的曆史,也漸漸透明與可琢磨。例如:如果在1323年6月出海,從科孚島出海前往君士坦丁堡,可以在哪裡找到船?需要多少錢?遇到海盜的幾率有多大。
對于這種預測,最核心的考驗在于,能否量化其中的不一緻性。因為檔案中到處都有錯誤,可能是船長的名字錯了,或是某些船隻從來沒有出過海,翻譯中也可能存在錯誤,因此在加上算法的過程中,在信息識别、信息提取中都存在錯誤的情況下,擁有的是非常不确定的信息資料。
項目組認為,糾正這些偏差,讓時光機更加精準的方法,在于不僅僅翻譯出曆史的信息,而且需要翻譯出元曆史的信息,即曆史是如何建構的,記錄下每一步。例如,威尼斯最可靠的過去,不僅僅有一張地圖,而存在着很多張地圖。這個系統應當承認并接受這些事實,回應曆史信息的不确定性。
在威尼斯的國家檔案館裡80公裡長的文獻檔案中,記錄了過去1000多年中威尼斯人的出生和死亡記錄、納稅記錄、建築設計圖、城市規劃方案、去其他領土的旅遊導覽圖、和平條約等數字人文主義
除了生産出一台可以穿越千年的時光機,這個項目的研究成果有了更多嶄新的外沿:威尼斯作為一個曆史名城,每年數百萬的遊客前來觀光,時光機可以幫助威尼斯建立一座嶄新的博物館。卡福斯卡裡大學為這個項目專門成立了博士點,并開設了數門本科生與研究生課程,使用這項研究成果。
這個項目的發起人之一弗雷德裡克·凱普蘭(FredericKaplan)博士認為,現在研究人類相關的人文學科,很像30多年前在生命科學領域發生的一場革命性的變化。“我們看到很多項目,它們在做的工作,遠遠超過任何一個單一的研究小組,這對人文學者來說确實是非常新穎的,因為他們通常适應在小團隊裡工作,或僅和一些研究者一起工作。當你參觀威尼斯國家檔案館的時候,你會覺得,這遠遠超過了任何一個團隊能做的事情。應對這種模式的轉換,我們應該培養出新的一代人,他們便是‘數字人文主義者’,準備好迎接這種轉變。”而以美國斯坦福大學為代表的一些學校,已經準備好了。2014年8月,斯坦福大學正式推出了“計算機+人文學科”的人文教育。課程的使命在于培養學生的好奇心、同理心、内省力、聯想力、口頭和書面溝通能力,培養出分析能力與問題意識更為出色的新一代人文學者,進而重塑人文學科的研究。谷歌高級副總裁、暢銷書作家拉斯洛·波克(LaszloBock)也認為,“在進行跨學科思考和探索時,人文學科的重要性便凸顯出來,大多數有趣的發現都産生于兩個學科的交集處。”
在曆史研究方面,越來越多的學者借助數字技術對曆史事件進行靜态和動态的可視化展示。美國弗吉尼亞大學的“視覺”項目就是利用數字化手段,将大量數據轉化為地圖、圖表、圖片等,講述重要的曆史事件,供用戶搜索和了解曆史事件的發展。
内布拉斯加大學英語系教授馬修·喬卡斯(MatthewJockers)也曾利用文本數據挖掘技術,對1780~1900年出版的3592部著作進行了詞頻和主題分析,并在自己的新書《宏觀分析:數字化方法和文學史》中表示,窺探出了簡·奧斯丁、馬克·吐溫等著名作家的寫作風格是受何人影響。斯坦福大學的“文本技術”項目,則通過研究東西方的手稿、文檔、書籍、題詞、票券、布告等文字實物的生産、傳播、接收的過程,發揮了包括文本數據挖掘、數字信息長期保存等技術的全新應用價值。
值得一提的是,歐美學界正湧現一批将古籍數字化、文獻數據庫建設的數字人文領域的新項目。許多大學設立了自己的數字人文研究中心,如美國斯坦福人文實驗室、英國倫敦國王學院人文計算研究中心等;一批數字人文研究機構,如國際數字人文組織聯盟、數字人文學會也相繼成立,數字技術與人文研究的結合成了學界時下讨論的熱門話題。
“數字人文的發展,需要接受過人文學科訓練的、擁有整體思維能力的人才,也需要專攻某一技術領域的專家。構建其這樣的平衡并不容易。但是一旦做到了,我們便會擁有偉大的組織、偉大的社會。數字人文必将成為人文學科研究的主流之一。”倫敦大學學院數字人文中心主任梅麗莎·特拉絲(MelissaM.Terras)表示。
不過,數字人文也提出了新的問題:人文研究是否也應該進入數據驅動的研究行列?加拿大作家史蒂芬·馬爾什(StephenMarche)在文章《文學不是數據:反對數字人文》中,認為“文學應該與數據截然對立,将文學當做數據,會失去文學本身豐富的意蘊。”
面對這樣的批評,大多數數字人文主義者并不沉默:“數字人文并不會替代人文研究,它隻是揭示研究問題,但不闡釋研究問題。技術的真正價值,在于提供了數字化的研究環境,而不止步于檢索-獲得信息。它以人為中心,幫助人們實現自己的野心,讓他們做真正想要做的事情。”
檔案資料裡大概有100億件事件,将它們放回原空間中圖像化,就可以重建出一場威尼斯共和國的旅行