口潘安韓敏
[摘要]語義出版目前已經由期刊、報紙蔓延至圖書領域。語義出版要解決收支平衡、技術接口、傳統融合、内容創新等問題。傳統出版編輯思想上要向語義出版積極靠攏,行動上要“補短”“揚長”。
[關鍵詞]傳統出版語義出版編輯作為
[中圖分類号]G23[文獻标識碼]A
“十二五”期間,中國圖書出版業,一方面紙質出版、傳統出版持續發展,另一方面電子出版、數字出版發展強勁。可以預見,“十三五”期間,紙質出版、傳統出版将憑借現有強大的出版實體與消費慣性而繼續占據大半個市場,而電子出版、數字出版作為新鮮事物憑借其強大的生命力将繼續擴大現有圖書市場份額,這兩個方面,到底是此消彼長、勢不兩立,還是彼此融合、相互促進,專家們議論紛纭,難有定論。但是,“科技是第一生産力”,技術在不斷改變生活,事實上,世界上已經出現語義出版(SemanticPublishing)這個新鮮事物,而且國外期刊的語義出版很有成效,國内圖書在語義出版方面嶄露頭角。語義出版是互聯網技術推動下傳統出版發展的必然産物,目前已經由期刊、報紙蔓延至圖書領域。
一、語義出版概況
計算機語義标注研究始于“萬維網發明者”蒂姆·伯納斯-李(TimBerners-Lee)。他于1980年開始構想,1990年創建互聯網上的超文本系統,2000年提出語義網(SemanticWeb)的概念及其體系結構。自此,計算機自動處理網上信息成為現實。時至2009年,大衛·香頓(DavidShotton)提出語義出版(SemanticPublishing)概念,并用于科技期刊領域。[1]2011年5月,第5屆世界語義網大會召開期間,曾舉辦第1屆語義出版研讨會,就語義出版諸多技術進行熱烈交流。[2]
目前,國外大型出版機構、學術組織、研究中心在語義出版方面不斷開拓創新,已經開始了商業運用。英國皇家化學學會(RSC)成立于1841年,目前出版38種期刊,其技術編輯通過語義标注所有文章,2004年起發布,使其成為科技期刊語義出版的範例。[3]愛思唯爾(Elsevier)采用結構化的數字摘要,對海量醫學内容進行深度标引,2012年發布醫學信息平台ClinicaKey,以期保證用戶快速獲取最新臨床資料。[4]美國公共科學圖書館和國際計算生物學協會共同發布的《PLOS計算生物學》,可自動鍊接外部數據庫。湯森·路透集團将擁有的資料進行語義注釋,推出“OpenCalais”服務,供第三方企業實現商業利用。維基百科使用97種不同的語言為多達350萬個條目設置語義标注,為用戶提供在線鍊接服務。微軟設計出本體識别插件,可自動識别文檔語義信息。微軟聯合谷歌、雅虎、Yandex已經推出網頁語義化處理标準。
國内出版界與學術界也已經着手語義出版。中國知網、萬方數據、讀秀學術搜索、高等教育出版社、中華書局等依靠擁有的數據庫開展語義技術的應用。[5]中國科學院國家科學圖書館張曉林教授于2009年提出Journal3.0模型,從語義标注增強、鍊接重組發現、公開合作交流三個維度構建期刊數字化發展模型,并啟動“Journal3.0研究與示範平台”項目(1期),僅限于論文摘要而不是全文範圍。人民出版社研發出語義自動識别工具,集成語義查詢、自動對比、概念關聯等功能,可有效處理漢語知識資源。《解放日報》報業集團建立基于語義的新聞采集和分析系統,可一次采編、持續追蹤、多次使用。商務印書館在2013年将自主研發的項目“百種精品圖書數據庫”(1期)投入市場。汕頭大學出版社研發語義編輯技術,開發複合語義系統,搭建基于大數據語義分析的複合出版平台,讓客戶以結構化方式獲得信息。
安徽師範大學出版社牽頭與汕頭大學出版社共同設計開發的2014年安徽省省級文化強省建設專項資金資助項目“科普讀物語義導航閱讀”,在圖書語義出版方面進行了積極而富有成效的探索。[6]
該項目通過計算機語義自動标注15個系列121本科普圖書。注冊用戶閱讀模式有五種:單本書順序、系列圖書順序、索引詞順序、知識點順序、知識網順序。打開圖書頁面,除了可以按照文本順序閱讀外,點擊某一分詞,可内鍊這一本書所有相關信息,或内鍊這一系列圖書所有相關信息,或内鍊這121本書所有相關信息,或外鍊百度百科、維基百科等的相關解釋。用戶可由被動閱讀轉為主動閱讀:點擊“知識點”,顯示該知識點的“摘要”,可外鍊相關内容,進行擴展閱讀;點擊“知識網”,顯示該文章各知識點的詞條網絡,詞的圓圈越大表示該詞在121本書中相關知識越多,點擊詞條即可閱讀。
該項目出版方面的獨特之處在于,通過詞條搜索,進行内容按需重組,可用于出版新書。例如,打開頁面,閱讀《地球的變臉:天氣與氣候》一書的文本,發現詞條“天氣”,搜索該詞條,則顯示“天氣”在書中的知識點;點擊“‘天氣’的内容重組成書”,則顯示出“内容整合”,左欄生成“天氣”的“目錄”,有“天氣諺語”“天氣與生理健康”“天氣與心理健康”“健康天氣預報”“冷鋒天氣”“準靜止鋒天氣”“锢囚鋒天氣”“霜是怎樣形成的”“氣候和天氣的區别”“‘厄爾尼諾’的影響”等篇章,右邊生成篇章的相應内容。這樣一來,原來121本書,通過詞條搜索而按需重組内容,則可生成幾百本、幾千本新書!
根據上述探索實踐,可初步判斷出語義出版這個概念具備以下特征:計算機語義标注文本;依據語義标注,可實現分類呈現;利用網絡,文本之内知識點可鍊接文本之外知識點;一次投入,可多次産出;既可提供傳統閱讀服務,又可實現個性化訂制服務。
二、語義出版的若幹可行性項目
語義出版正在深刻地改變着傳統出版觀念和傳統出版模式。就國内圖書語義出版來說,除“科普讀物”外,我們認為以下若幹項目都具有可行性:
第一,電子書包。學生的課本、輔導資料、課外讀物,目前是紙質出版、傳統出版的主陣地,但也是最适合做語義出版的項目。不僅環保、經濟,而且可推出個性化圖書服務,從而實現個性化教學,這将掀起教育界向往已久的技術革命。這個項目需要出版界與教育界聯合開發。
第二,具有學科性質、專業性質的研究型叢書。将語義出版引入學術研究之中,不僅可以展示、檢驗作者的學術研究能力,而且可以參照其他學者的諸多研究成果,從而真正拓展與提升學術原創能力,有效揭發與遏制學術剽竊行為。這個項目需要出版界與相應學科、相應專業的學術委員會聯合開發。
第三,古籍整理叢書。校對原文,彙評注釋,展示其接受曆程,增添讀者最新感悟,這是語義出版的強項。從一定角度來說,古代種類繁多的紙質注釋本,恰恰就是語義出版絕佳的原始素材。例如,一個《孫子兵法》語義出版項目,完全可以将《孫子兵法》古往今來的研究容納其中,而且可以增添最新研究心得;而與《孫武兵法》等其他兵法語義出版項目融合,則構成中國兵法語義出版項目,再進一步擴大為世界兵法語義出版項目,這樣發展前途更為遠大。
第四,農家書屋、社區書屋、老年讀物、兒童讀物、女性讀物等普及型工程。推介知識、鍊接搜羅、歸納整理、标記讀書心得、統計讀書習慣等,這也是語義出版的強項。
第五,字典辭典與語言學習項目。語義出版除了有文字,還有聲、有色,可引進多媒體,開發讀者與文本的信息互動,具有強大的搜索例句功能、翻譯轉換功能、檢索記錄功能、比對糾錯功能,等等。
事實上,上述列舉的項目有的已經開始進入電子書、數字出版的視野,已經具備語義出版的部分特征,但是限于技術或者思維的制約因素,并不具備比較完整的語義出版特征,不能成為真正意義上的語義出版。近年來國内電子和數字出版的圖書在急劇增加,傳統出版的數量也在不斷增加,“十二五”期間如此,在“十三五”期間,這兩個增加仍将延續下去,就科技方面來看,語義出版正是可以同時實現這兩個增長的有效途徑。
三、語義出版的現存問題及解決思路
語義出版的理想前提是,對擁有的資料庫和使用的軟件擁有足夠的版權,語義标注内容夠用、格式統一,有充足的資金和時間讓技術編輯從事語義出版研究與創新工作,有足夠的讀者使用語義出版産品以便收回成本、持續發展。但是,事實卻難盡如人意。
第一,版權購買與輸出的問題,需要政府大力扶持。
語義出版因購買版權而涉及付出成本。語義出版是以有限的語義資源生成無限的語義資源。有限的語義資源必須買斷版權,以便内鍊;無限的語義資源需要妥善解決版權問題,以便外鍊。語義資源擴大,就是無限向有限轉變的過程,就是不斷買進版權的過程。圖書方面,必須買斷版權,以便内鍊全書;若想擴大内鍊對象,可分批分期買進圖書版權;外鍊的内容一般是互聯網其他資源的摘要或者标題。
語義出版依賴版權保護而獲取利潤。語義出版産品屬于電子出版物,具有版權,可實行用戶收費制度。就圖書語義出版來說,可實行分級閱讀、分級下載、分級使用以便實行分級收費,又可計時收費、計流量收費、打包收費等。總的來看,目前語義出版一般入不敷出,能夠做到收支大體平衡已經相當不錯了,因此需要政府大力扶持,政府可以按出版項目直接資助或者采購,同時出版社需要探索赢利模式。
第二,語義标注分類和标準的接口問題,需要政府或行業指導。
将自然語言文本經過碎片化處理,将語義數據嵌入碎片内部,即形成語義标注。計算機标注什麼樣的語義特征,究其本質就是語義标注的分類問題。分為哪些類,分到哪些層,既要考慮目前夠用,又要考慮可持續研究。以前缺乏語義标注的大量信息資料,現在需要補上;現在新生的海量資料,需要落實語義标注。在可預計的範圍内,語義标注分類的顆粒度肯定會再次細化,因此現在就要盡可能細化。
學科不同,場景不同,劃分的類别與層次不同,因此不同學科語義标注也就不完全相同。跨學科語義出版需要攻克跨學科語義标注的可兼容性問題。語義出版機構一般根據自己的需要各自開發語義标注分類,不同的語義出版機構溝通交流時就面臨多種語義标注分類之間的轉碼,因此需要政府或者出版行業拿出行之有效的語義标注的統一标準,并且迫切需要加強國内外的語義标注的标準接口,以期使得漢語文本與非漢語文本一起融入語義出版中。
第三,傳統内容與先進技術融合的問題,用推陳出新的辦法解決。
傳統科技期刊出版以“篇”為單位呈現知識,一篇論文記錄某一方面的知識;傳統圖書出版以“書”為單位呈現知識,一本書記錄某一方面的知識。這種以特定文獻為載體記載着特定知識的出版方式,比遠古時期口耳相傳、結繩記事要先進得多,可克服時空制約,可擴大受衆數量。但是,随着信息大爆炸,特定文獻往往解決不了問題,人們迫切需要特定文獻的相關文獻,從相關文獻中尋找答案。有的不滿足于既有文獻而重組或者添加文獻,這種以“知識點”為單元呈現、發現與創新知識的需求,與當代計算機技術結合,産生語義網最終乃至語義出版。由此可見,語義出版産生之際,與傳統出版的關系,就不是非此即彼的關系,而是推陳出新的關系。傳統出版物經過語義标注成為語義出版的基礎資源庫,可以說,沒有傳統出版物就沒有語義出版物,傳統出版物的質與量決定着語義出版物的品質,傳統出版物與語義出版物在質與量上都呈現出正相關關系。
語義出版作為新生事物,發展迅猛,其功能包括呈現“既有特定的文獻”——這本來是傳統出版的功能。現在生活中仍然有衆多新知識需要衆多新文獻加以記載,傳統出版本來肩負此重任現在仍然可以肩負此重任,所以目前傳統出版仍可生存。但是,新生的語義出版同樣可以肩負此重任,而且一旦将新文獻經過先進技術的改造融入語義出版的基礎資源庫,就可以産生獨特功能——将既有特定的文獻内容(還可以增添新的文獻内容)按需重組,以滿足讀者新的需求。就目前發展來看,當代出版機構在從事傳統出版的同時要考慮向語義出版轉型,才能緊跟科技前進的步伐,滿足時代發展的需求。
第四,制作與發布的問題,用不斷開發新産品來解決。
語義出版具有“一次制作,多元多次發布”的特點。“一次制作”指技術編輯對原文獻進行一次語義标注。“多元多次發布”含義豐富:除以原文獻形式發布外,還可以知識單元為着眼點,以詞條形式發布,以知識點、知識網形式發布,以索引、摘要形式發布,以擴展性閱讀、關聯性閱讀形式發布,還可對原文獻内容按需重組而以新書形式發布,對内容重組的要求予以一定設置,可以發布普及型、研究型、熱點型、辯論型、年份型、地域型等不同類型的新書,還可增加新的文獻而以修訂版形式發布,可處理讀者讀書筆記、研究心得等反饋意見而以私人版、珍藏版形式發布。
語義出版還可以記錄、統計、分析讀者的閱讀内容和習慣,為讀者量身定制閱讀内容:為同一讀者内鍊相近文獻,為不同讀者内鍊相關文獻。語義出版外鍊互聯網諸多信息,這種外鍊同樣是基于讀者閱讀内容和習慣的記錄、統計和分析,可向不同的讀者提供不同的外鍊。無論内鍊還是外鍊,這種鍊接功能在使用中發生,越用越強,越強越有用,甚至可以強大到幫助讀者發現自己都不知道而應該閱讀的内容。但是,内鍊外鍊和“多元多次發布”一樣,本質上、主體上是對原文獻内容按需重組,是形式上的“乾坤大挪移”。更新原文獻内容,增加新的文獻,吸納原創,都需要返回“一次制作”,才能使語義出版基礎資源庫産生變化,才能滿足讀者對語義内容的創新需求。
四、傳統編輯如何面對語義出版
語義出版正在深刻地改變着傳統出版的觀念和模式。編輯如何應對?
第一,在思想上,傳統出版編輯要高度重視,來一次“革命”。必須意識到傳統出版正在向數字出版轉型,傳統出版以及其他數字出版正在向語義出版過渡,語義出版正在以勢不可擋的力量發展壯大,語義出版是可預見的将來主流的出版模式。換句話說,現在誰漠視語義出版誰就在斷送自己的未來,這關乎有沒有未來的問題。
第二,在行動上,傳統出版編輯要邁出步伐,切切實實地“補短”。接觸、了解語義出版模式,學習、掌握語義出版流程,參觀、訪問語義出版機構,積極參與語義出版事務,努力申報語義出版項目。傳統出版編輯一般熟悉傳統出版流程和技術,粗通計算機辦公軟件,面對涉及諸多計算機語義處理軟件往往不知所措。傳統出版機構緊缺精通計算機語義處理軟件的編輯,往往采用外包形式,将計算機語義處理的環節外包給相應的技術公司。中青年編輯需要迎難而上,努力掌握計算機語義處理的一般程序,參與各類技術的更新研發,深切領會讀者對最新技術的需求,順暢地與技術公司對話,确保出版機構在語義出版技術上擁有足夠的話語權。
第三,傳統出版編輯“補短”的同時要“揚長”。敏銳的策劃能力、合格的編校能力、積累的銷售能力,這些都是傳統出版編輯的看家本領,也是傳統出版編輯進入語義出版後的立身之本。傳統出版物的策劃,僅僅是一本書、一套書的構思;語義出版,本質上是資源庫和出版平台的構建,除了呈現原始文獻外,還可以持續增加、更新、修改文獻,從而持續出版各類新書,語義出版的策劃本質上就是可持續出版項目的策劃。基礎資源庫的文獻、按需重組的内容、讀者反饋的意見、更新原文獻的内容、增加新的文獻,以及語義出版的工作流程監控、産品質量監控,需要傳統出版編輯的編校由靜态工作轉為動态追蹤。除了常規紙本銷售外,傳統出版編輯要學習流量監控、打包銷售、分期收款、分級授權等諸多版權輸出形式。面對語義出版諸多新情況、新要求,編輯要冷靜對待,站穩腳跟,虛心學習,找準切入點,才能在語義出版的浪潮中發展自己、壯大自己。
五、結語
無論是傳統出版編輯還是語義出版編輯,要意識到語義出版是一場“及時雨”。目前,國家将“數字出版”提升到“複合出版”“融合出版”的高度。2015年3月24日,國家發布《國家數字複合出版系統工程應用試點單位遴選結果公告》,批準确定59家新聞出版單位為複合出版工程應用試點單位;[7]4月10日發布《關于推動傳統媒體和新興媒體融合發展的指導意見》,緻力于解決體制、機制、技術、産品、市場等方面的瓶頸,讓傳統媒體的強大内容生産能力,在新媒體裡暢通無阻;[8]10月13日發布《關于征集專業數字内容資源知識服務模式試點工作技術支持單位的通知》。[9]國際出版咨詢公司呂迪格·魏申巴特(RüdigerWischenbart)執筆的《全球電子書業報告(2015)》顯示,與紙質書市場衰退相比,近年來世界主要出版市場電子書均呈現穩中增長的态勢,2014年美國成人大衆電子書市場同比增長4.7%達15.82億美元,英國電子書市場銷量增加15.3%而總營收達到3.726億英鎊,德國電子書占整個圖書市場的4.3%,西班牙電子書占市場份額的4%,報告估計中國電子書市場占大衆圖書總市場份額1%即130億元人民币。[10]
但要同時意識到,語義出版也是一把“雙刃劍”。語義出版收費使用,鍵盤一敲即可制作新産品,一旦被學生用作寫作業、被研究者用作出版,“機器”就代替“人”來“學習、工作”,文獻材料的堆砌、綜述和文學創作、考古發現、調查研究、實驗記錄、理性思辨等的内容原創要妥善區别認定,以免傷害教育和學術的正常發展。編輯在抓機遇的同時,要分清利弊,在發展中解決問題、克服弊端。
注釋:
[1]ShottonD.SemanticPublishing:theComingRevolutioninScientificJournalPublishing.LearnedPublishing,2009,22(2):85-94.
[2]周傑,曾建勳.數字環境下的語義出版研究.情報理論與實踐,2013,36(8).
[3]翁彥琴,李苑,彭希珺.英國皇家化學會(RSC)——科技期刊語義出版模式的研究.中國科技期刊研究,2013,24(5).
[4]翁彥琴,彭希珺.愛思唯爾(Elsevier)語義出版模式研究.中國科技期刊研究,2014,25(10).
[5]王曉光,陳孝禹.語義出版的概念與形式.出版發行研究,2011(11).
[6]安徽師範大學出版社.少兒科普圖書語義導航閱讀平台[EB/OL].[2015-05-06].http://ahnupress.stup.cn/static/ahsd/index.html.
[7]國家新聞出版廣電總局.國家數字複合出版系統工程應用試點單位遴選結果公告[EB/OL].[2015-05-13].http://www.gapp.gov.cn/news/1663/247056.shtml.
[8]國家新聞出版廣電總局.關于推動傳統出版和新興出版融合發展的指導意見[EB/OL].[2015-05-13].http://www.gapp.gov.cn/news/1663/248321.Shtml.
[9]國家新聞出版廣電總局.關于征集專業數字内容資源知識服務模式試點工作技術支持單位的通知[EB/OL].[2015-05-13].http://www.gapp.gov.cn/news/1663/266174.shtml.
[10]梅園.2015全球電子書報告顯示:市場份額持續增加增速明顯放緩[EB/OL].[2015-05-13].http://www.sinobook.cn/press/newsdetail.cfm?iCntno=21399.
(作者單位:安徽師範大學出版社有限責任公司)