江洪濤 陸振清 俞美蓮 謝坤生 呂惠琳 (上海市農(nóng)科院情報(bào)所 201106)
陳麗佩 (上海市農(nóng)科院食用菌所 201106)
摘 要:利用電子計(jì)算機(jī)進(jìn)行中文信息管理,建立了中文食用菌數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)能從主題詞、分類號(hào)、作者、篇名、刊名及年卷期等多種途徑進(jìn)行檢索,并且該庫(kù)內(nèi)的數(shù)據(jù)能轉(zhuǎn)為ISO 2709格式,具有良好的數(shù)據(jù)共享性。該數(shù)據(jù)庫(kù)帶有較詳細(xì)的中文文摘,且檢索速度極快。該庫(kù)的建立,使食用菌信息管理朝現(xiàn)代化方面跨出了一大步。食用菌學(xué)是一門古老而又新興的學(xué)科,涉及化學(xué)、微生物學(xué)、農(nóng)業(yè)、林業(yè)、食品、土壤和氣象諸學(xué)科,因此文獻(xiàn)分布較分散,手工檢索較困難,而且效率低下。我國(guó)是食用菌生產(chǎn)大國(guó),上海是我國(guó)主要生產(chǎn)研究基地之一,上海農(nóng)科院食用菌所是國(guó)內(nèi)最早成立的該專業(yè)研究所,上海農(nóng)科院情報(bào)所的館藏特色之一是食用菌文獻(xiàn)。因此建立《中文食用菌文獻(xiàn)數(shù)據(jù)庫(kù)》具有可行性、實(shí)用性和科學(xué)性。
關(guān)鍵詞:食用菌 中文文獻(xiàn)
1 本庫(kù)特色
(1) 近幾年來(lái),我國(guó)建立了一系列專業(yè)數(shù)據(jù)庫(kù)和文獻(xiàn)庫(kù),但大都是題錄型。雖然建庫(kù)前處理工作和輸入工作量減少了,但由于題錄所提供的信息有限,用戶須一一查找原文以確定文獻(xiàn)的內(nèi)容,因而影響了數(shù)據(jù)庫(kù)的實(shí)用性。眾所周知,數(shù)據(jù)庫(kù)的建庫(kù)目的為節(jié)省用戶時(shí)間,提高查全率和查準(zhǔn)率,何況本庫(kù)的用戶對(duì)象為科研人員、農(nóng)業(yè)基層單位和專業(yè)戶,而農(nóng)業(yè)基層單位和專業(yè)戶不可能也沒(méi)必要擁有豐富的文獻(xiàn)資源作為文獻(xiàn)保障的基礎(chǔ),因此本庫(kù)以文摘型為主的特色一可節(jié)約用戶時(shí)間,二可適應(yīng)基層單位和專業(yè)戶的需要,三是本所擁有文獻(xiàn)和技術(shù)的優(yōu)勢(shì),具有可行性和實(shí)用性。
(2) 由于情報(bào)專業(yè)文獻(xiàn)數(shù)據(jù)庫(kù)的數(shù)據(jù)量大,檢索要求高,而且其字段內(nèi)容不似數(shù)值數(shù)據(jù)庫(kù)那么等長(zhǎng),這就需要有一種適合作為情報(bào)文獻(xiàn)數(shù)據(jù)的支持軟件。MICROC-CDS/ISIS是由聯(lián)合國(guó)教科文組織提供的、經(jīng)中國(guó)科技情報(bào)研究所漢化的通用情報(bào)檢索軟件。由該軟件支持建立起來(lái)的文獻(xiàn)數(shù)據(jù)庫(kù)最大容量可16MB,并且字段可變長(zhǎng),它的每個(gè)字段長(zhǎng)度可在1~1650范圍中自由選取,最大限度壓縮了存儲(chǔ)空間,達(dá)到數(shù)據(jù)庫(kù)冗余量極小的目的,這對(duì)于應(yīng)用有限內(nèi)外存空間的微機(jī)建立一個(gè)容量大、字段字符數(shù)不等長(zhǎng)的情報(bào)專業(yè)文獻(xiàn)數(shù)據(jù)庫(kù)是十分重要的。該軟件還具有可在同一檢索文件中進(jìn)行多字段(包括重復(fù)字段)檢索的特點(diǎn),因而只須打開(kāi)這唯一的檢索文件,就可方便地進(jìn)行檢索,故其檢索速度特別快。MICRO C-CDS/ISIS系統(tǒng)進(jìn)行時(shí),要求漢字操作系統(tǒng)的配置中,文件數(shù)(FILES)和緩沖區(qū)數(shù)(BUFFERS)均≥20,建中文食用菌文獻(xiàn)數(shù)據(jù)庫(kù)配置的MSDOS為3.3,中文操作系統(tǒng)為2.13H。
2 建庫(kù)實(shí)踐
2.1 建庫(kù)思想
中文食用菌文獻(xiàn)數(shù)據(jù)庫(kù)是為科研人員和專業(yè)戶提供文獻(xiàn)資料的現(xiàn)代化服務(wù)方式,科學(xué)性和實(shí)用性是質(zhì)量的保證,所謂科學(xué)性:一是指本系統(tǒng)技術(shù)的可靠性,二是指文獻(xiàn)來(lái)源的真實(shí)性。所謂實(shí)用性包括兩個(gè)方面:一是內(nèi)容上要符合用戶的需要,二是方法上盡可能簡(jiǎn)便易用。本庫(kù)重點(diǎn)在于文摘,使用戶檢索后基本上滿足了其信息需求。
2.2 數(shù)據(jù)前處理
數(shù)據(jù)的前處理工作包括文獻(xiàn)收集、篩選、著錄工作單、標(biāo)引等。該工作的質(zhì)量直接影響了整個(gè)數(shù)據(jù)庫(kù)的檢索效率,它既是建庫(kù)的基礎(chǔ),又是主要工作。
2.2.1 數(shù)據(jù)收集標(biāo)準(zhǔn)
數(shù)據(jù)的質(zhì)和量是建庫(kù)的關(guān)鍵,本庫(kù)收集標(biāo)準(zhǔn)為:全而精,所謂全是指保證用戶在利用本庫(kù)后基本上不須再利用其他檢索工具,所謂精是指文獻(xiàn)來(lái)源的可靠性。為保證文獻(xiàn)的質(zhì)和量,我們采用定性分析(專家評(píng)估,讀者調(diào)查)和定量分析(引文法,相對(duì)%法,Bradford法)相結(jié)合的方法,綜合分析了150多種我國(guó)食用菌專業(yè)期刊和相關(guān)期刊,重點(diǎn)收集前十位的核心期刊的文獻(xiàn)(見(jiàn)附表一),約占國(guó)內(nèi)有關(guān)食用菌文獻(xiàn)的80%以上。
2.2.2 工作單設(shè)計(jì)
工作單是人工采集數(shù)據(jù)與計(jì)算機(jī)處理的接口,它的設(shè)計(jì)涉及到庫(kù)結(jié)構(gòu)的設(shè)計(jì),實(shí)際上是檢索途徑和顯示內(nèi)容的總設(shè)計(jì),因此必須慎重。本工作單設(shè)計(jì)有13項(xiàng)內(nèi)容,其中包括6個(gè)檢索途徑,適用于中外文圖書,期刊,資料(見(jiàn)附表二)。
2.2.3 文獻(xiàn)標(biāo)引
文獻(xiàn)標(biāo)引是前處理工作中的重中之重。在篩選數(shù)據(jù)之后,標(biāo)引質(zhì)量就決定了整個(gè)庫(kù)的質(zhì)量,它直接影響到查全率和查準(zhǔn)率。因此必須由學(xué)有專長(zhǎng)的高級(jí)職稱人員擔(dān)任,必須熟悉食用菌專業(yè)并具有標(biāo)引實(shí)踐經(jīng)驗(yàn)
2.2.3.1 主題標(biāo)引
主題標(biāo)引包括敘詞法 關(guān)鍵詞法、單元詞法和標(biāo)題法。其特點(diǎn)是:直觀性、專指性、適應(yīng)性、集中性、多元性??紤]到《漢語(yǔ)主題詞表》中有關(guān)食用菌方面的內(nèi)容過(guò)于簡(jiǎn)單,而當(dāng)時(shí)《農(nóng)業(yè)主題詞表》尚未出版,我們采用了半受控自由詞標(biāo)引,主題詞采用國(guó)家標(biāo)準(zhǔn)(GB1272891),其特點(diǎn)是簡(jiǎn)便、直觀易于用戶掌握。但標(biāo)引時(shí)須注意:
?、?嚴(yán)格采用標(biāo)準(zhǔn)術(shù)語(yǔ)。例如:文獻(xiàn)中和人們?nèi)粘Ia(chǎn)習(xí)慣用“菌絲”一詞,與“菌絲體”不分,實(shí)際上,“菌絲”與“菌絲體”是有區(qū)別的。“菌絲”是指由孢子萌發(fā)后形成的芽管發(fā)展而成,它以頂端生長(zhǎng)并分枝而為管狀多細(xì)胞組成的絲狀物,而“菌絲體”則為菌絲的集合體。在大多文獻(xiàn)中,多指菌絲的集合體,而文獻(xiàn)的標(biāo)題或文獻(xiàn)內(nèi)容中多數(shù)寫為“菌絲”,這時(shí),如標(biāo)引為“菌絲”就不夠準(zhǔn)確,應(yīng)按食用菌標(biāo)準(zhǔn)名詞術(shù)語(yǔ)來(lái)標(biāo)引為“菌絲體”。
?、?慎用元詞。例如:“培育”,“融合”、“遺傳”等。元詞使用較靈活,但對(duì)復(fù)雜的詞須組配才能得到,用起來(lái)較麻煩,且有些概念組配后易搞錯(cuò)。例如:“培養(yǎng)基質(zhì)”是指培養(yǎng)物賴以生存的各種物質(zhì)。如以“培養(yǎng)”、“基質(zhì)”標(biāo)引,實(shí)際上已失去“培養(yǎng)”的概念。如果需查“培養(yǎng)”,“培養(yǎng)基質(zhì)”也會(huì)檢出,造成誤檢。此時(shí)應(yīng)按標(biāo)題法標(biāo)引,應(yīng)標(biāo)為“培養(yǎng)基質(zhì)”。
?、?如專指詞能精確表達(dá)文獻(xiàn)內(nèi)容,一般就不使用泛指詞。例:雙孢蘑菇泡囊病的診治標(biāo)引詞:蘑菇;雙孢蘑菇;泡囊??;真菌??;診斷;防治蘑菇是雙孢蘑菇的上位概念,用“蘑菇”可以對(duì)雙孢蘑菇的文獻(xiàn)進(jìn)行擴(kuò)檢,對(duì)最上位概念“食用菌”就不必標(biāo)引了。“泡囊病”直接上位概念是“真菌病”,專指程度已較高,與標(biāo)引詞“蘑菇”一樣,不必標(biāo)引再上位概念。
⑷ 慎用和少用通用概念詞標(biāo)引。如對(duì)一般通用概念主題詞也一一標(biāo)上,會(huì)導(dǎo)致影響泛指性文獻(xiàn)的檢索,又增加了標(biāo)引及輸入的勞力,還浪費(fèi)了計(jì)算機(jī)的存貯空間,減慢檢索效率。本數(shù)據(jù)庫(kù)是專業(yè)文獻(xiàn)庫(kù),泛指文獻(xiàn)較少,故“影響”、“方法”等一類通用概念基本不標(biāo)(除綜述性文獻(xiàn)之外)。
?、?自由詞標(biāo)引。自由詞標(biāo)引以關(guān)鍵詞為基礎(chǔ),我們標(biāo)引時(shí)先標(biāo)題內(nèi)關(guān)鍵詞,當(dāng)題內(nèi)關(guān)鍵詞不夠標(biāo)時(shí)再選題外關(guān)鍵詞。雖然是關(guān)鍵詞,我們也絕不能隨便“自由”標(biāo)引,因?yàn)橛?jì)算機(jī)不能識(shí)別同義詞書寫不同型的詞,如“玉米”與“苞米”、“COLOR”與“COLOUR”,檢索詞與標(biāo)引詞稍有不同,計(jì)算機(jī)就不能識(shí)別,就會(huì)造成誤檢與漏檢。我們?cè)跇?biāo)引自由詞時(shí)采取了十分慎重的態(tài)度,盡量使文獻(xiàn)標(biāo)引一致,提高查全率查準(zhǔn)率。
?、?以食用菌標(biāo)準(zhǔn)名詞術(shù)語(yǔ)為基礎(chǔ),加上一些自由詞,從而逐步形成本數(shù)據(jù)庫(kù)實(shí)際使用的主題詞表,并逐步充實(shí)完整。及時(shí)提供用戶使用。
2.2.3.2 分類標(biāo)引
分類法是我國(guó)傳統(tǒng)的揭示文獻(xiàn)內(nèi)容的標(biāo)引方法,在組織書本式目錄,推薦同類文獻(xiàn)、驗(yàn)證查全率和查準(zhǔn)率等方面都具有獨(dú)特的優(yōu)勢(shì),因此至今仍不失為重要的檢索途徑。本庫(kù)分類標(biāo)引是在《中國(guó)圖書資料分類法》(第三版)的基礎(chǔ)上,對(duì)S646和S567.3類目作一些擴(kuò)展,調(diào)整編制成“食用菌、藥用菌專業(yè)分類表(見(jiàn)附表三)其編制原則為:首先按真菌的科學(xué)分類為基礎(chǔ),然后再按文獻(xiàn)出現(xiàn)頻率排列,即科學(xué)性和實(shí)用性相結(jié)合、這樣既克服了《中圖法》某些類目設(shè)置不科學(xué),某些類目過(guò)于簡(jiǎn)單,使得無(wú)類可歸或有類難歸,又盡可能與《中圖法》接軌,也適應(yīng)專業(yè)性很強(qiáng)的食用菌文獻(xiàn)分類。為了類分某一主題,某一方面的文獻(xiàn),充分揭示文獻(xiàn)內(nèi)容,我們按食用菌生產(chǎn)的過(guò)程(制種、栽培、病蟲害防治、采收加工)編制了“食用菌、藥用菌專業(yè)復(fù)分表”(見(jiàn)附表四)。實(shí)踐證明:以上兩表基本上滿足了建庫(kù)的要求。
2.3 MICRO CCDS/ISIS軟件的二次開(kāi)發(fā)
首先確立庫(kù)結(jié)構(gòu)格式(SJWX·FDT)考慮到本庫(kù)服務(wù)對(duì)象的特點(diǎn),還有微機(jī)本身內(nèi)外存空間較小的因素,庫(kù)結(jié)構(gòu)的設(shè)計(jì)也應(yīng)簡(jiǎn)潔、明了,我們定義了11個(gè)字段(見(jiàn)附表五),分別為:篇名、作者、譯者、刊名、分類號(hào)、年卷期、所在頁(yè)碼、館藏號(hào)、文獻(xiàn)代碼、主題詞、摘要。根據(jù)該軟件允許重復(fù)字段和子字段定義的特點(diǎn),為方便用戶利用,我們?cè)O(shè)計(jì)了作者字段和主題詞字段為重復(fù)字段。其次設(shè)計(jì)屏幕格式文件(SJWX·FMT)與工作單相對(duì)應(yīng)。再次選擇了倒排字段表(SJWX·SFT)(見(jiàn)附表六)。通過(guò)選擇,用戶可通過(guò)6個(gè)途徑進(jìn)行檢索(主題詞、分類號(hào)、作者、篇名、刊名及年卷期)。最后建立顯示、打印格式文件(SJWX·PFT)為:MFN……/V2“/”V4,“∥”V6,“·”V8∧a,V8∧b,“(”V8∧c“)”,“·”V9,/“館藏號(hào)”V10/“文獻(xiàn)代碼”V11/“分類號(hào)”V7/“摘要”V31/“主題詞”(自由詞)V21/%#。其中,“MFN”是機(jī)內(nèi)號(hào);“Vn”表示字段標(biāo)資代碼;“/”表示換行。按以上顯示,打印輸出格式文件,顯示或打印的結(jié)果是:
篇名/作者∥刊名·年卷(期)·所在頁(yè)碼
館藏號(hào)
文獻(xiàn)代碼
分類號(hào)
摘要
主題詞(自由詞)
利用MICRO CCDS/ISIS軟件建立上述4個(gè)文件后,則建立了本庫(kù)的框架,即可進(jìn)行數(shù)據(jù)輸入,修改、檢索、顯示等工作。但由于本庫(kù)的容量較大,而C盤中系統(tǒng)文件較多,如果數(shù)據(jù)文件再存放于C盤中,則顯得外存空間較擁擠,所以我們?cè)诮◣?kù)時(shí)將數(shù)據(jù)庫(kù)文件設(shè)置在虛擬盤(D盤)中,操作員仍然在C盤中工作,而相應(yīng)數(shù)據(jù)在D盤里,由于系統(tǒng)文件與數(shù)據(jù)文件分別在二個(gè)硬盤里,故系統(tǒng)比較容易找到自己建立起來(lái)的文件,不易引起二種文件的混淆不清。
另外,我們對(duì)該軟件中所包含的文件進(jìn)行了調(diào)整和調(diào)度,把ISIS的可執(zhí)行文件和系統(tǒng)參數(shù)文件歸入SYS目錄中,這樣,系統(tǒng)在運(yùn)行時(shí)可在子目錄中搜尋所需文件而不設(shè)路徑,從而提高了運(yùn)行速度,減少了空間的使用。
3 經(jīng)驗(yàn)與反思
?。?) 本數(shù)據(jù)庫(kù)的建立和使用,成功地二次開(kāi)發(fā)MICRO C-CDS/ISIS軟件,利用電子計(jì)算機(jī)進(jìn)行中文信息處理,具備了維護(hù)、修正、刪除、添加、排序、檢索、瀏覽、顯示、打印等功能。由于該數(shù)據(jù)庫(kù)帶有較詳細(xì)的文摘,故實(shí)用性較強(qiáng),節(jié)約了科技人員的時(shí)間,減輕了科研人員的勞動(dòng)強(qiáng)度。該數(shù)據(jù)庫(kù)冗余量小,數(shù)據(jù)量大,檢索速度較快。庫(kù)內(nèi)數(shù)據(jù)能轉(zhuǎn)為ISO2709標(biāo)準(zhǔn)格式,具有良好的數(shù)據(jù)共享性。
?。?) 該數(shù)據(jù)庫(kù)收集了國(guó)內(nèi)有關(guān)食用菌專業(yè)期刊、微生物類期刊、農(nóng)業(yè)(設(shè)有生物專業(yè)的綜合性大學(xué))院校學(xué)報(bào)、農(nóng)業(yè)學(xué)報(bào)等學(xué)報(bào)類中有關(guān)食用菌專業(yè)的文獻(xiàn)。該數(shù)據(jù)庫(kù)能從主題詞、分類號(hào)、作者、篇名、刊名及年卷(期)等多種途徑進(jìn)行單項(xiàng)或多項(xiàng)檢索;通過(guò)運(yùn)用布爾算式,用精確詞或右截?cái)嘣~進(jìn)檢索。例如檢索有關(guān)金針菇的文獻(xiàn),只需打開(kāi)檢索文件,鍵入“金針菇”,1s左右,屏幕即顯示出命中文獻(xiàn)篇數(shù),再撳〈D〉(顯示功能)鍵,則逐屏逐篇顯示有關(guān)金針菇的文獻(xiàn);如鍵入“金針菇×栽培”,1s左右,屏幕即顯示出金針菇栽培方面的文獻(xiàn)和篇數(shù),縮小了命中范圍,提高了檢索查準(zhǔn)率。同樣,按入〈D〉鍵,屏幕即逐篇顯示出有關(guān)金針菇栽培的文獻(xiàn)。其它方面查詢?nèi)缤陨蠙z索。各種查詢方式一般均可在1~2s時(shí)間內(nèi)獲得結(jié)果。該數(shù)據(jù)庫(kù)還可在限定字段中檢索。
?。?) 該數(shù)據(jù)庫(kù)采用主題標(biāo)引和分類標(biāo)引,既直觀明了,又能體現(xiàn)學(xué)科的系統(tǒng)和完整性。
?。?) 本數(shù)據(jù)庫(kù)的建立和使用,可為食用菌技術(shù)的開(kāi)發(fā)及研究方向的確立提供依據(jù),有利于食用菌科研與開(kāi)發(fā)事業(yè)的發(fā)展,具有較大的社會(huì)效益和經(jīng)濟(jì)效益。
(5) 本庫(kù)由于建庫(kù)時(shí)間短、人員少、經(jīng)費(fèi)緊張,因而存在著一些遺憾:
?、?MICRO CCDS/ISIS軟件檢索方便但排序功能差,不便于編制書本式目錄,在目前計(jì)算機(jī)尚未普及的國(guó)情下,不利于廣大老少邊窮地區(qū)用戶使用;
② 工作單設(shè)計(jì)應(yīng)盡可能與其他數(shù)據(jù)庫(kù)靠攏,分類號(hào)應(yīng)和主題詞項(xiàng)目一齊放在最后,這樣一方面便于輸入,另一方面有利于標(biāo)引文獻(xiàn)時(shí)互相借鑒,核對(duì);
?、?分類號(hào)字段也應(yīng)設(shè)計(jì)為重復(fù)字段,這樣有利于分析分類文獻(xiàn);
?、?數(shù)據(jù)收集應(yīng)注重質(zhì)量,借鑒國(guó)內(nèi)外數(shù)據(jù)庫(kù)經(jīng)驗(yàn),采用高薪聘請(qǐng)專業(yè)人員撰寫文摘,并建立一系列審核制度,把差錯(cuò)消滅在輸入之前。
參考文獻(xiàn)
[1]劉波.病蟲資料數(shù)據(jù)庫(kù)結(jié)構(gòu)建立的研究.計(jì)算機(jī)農(nóng)業(yè)應(yīng)用,1990、2:13~15
[2]陳睿.情報(bào)管理系統(tǒng)軟件開(kāi)發(fā)工具.情報(bào)學(xué)報(bào),1991、10、(1):34~40
[3]王枚.標(biāo)引深度的定量分析.情報(bào)學(xué)報(bào),1993、10、(1):41~48
[4]中國(guó)科技情報(bào)所計(jì)算機(jī)室.MICRO CCDS/ISIS用戶手冊(cè).中國(guó)科技情報(bào)研究所, 1989:23~78
PRACTICE AND INTROSPECTION OF DATABASE OF
CHINESE EDIBLE FUNGI LITERATURE
Jiang Hongtao Lu Zhengqing Yu Meilian Xie Kunshen
Lu Huilin
(Scientific and Technical Information Research Institute,Shanghai
Academy of Agricultural Sciences, Shanghai 201106)
Chen Lipei
(Edible Fungi Research Institute, Shanghai
Academy of Agricultural Sciences, Shanghai 201106)
ABSTRACT: Science and technology is developing quickly. Information work must follow this situation. We use computer to handle Chinese information. The database of Chinese Edible Fungi literature was set up. It can execute retrieval from subject words, classification number, author, title, source journal, year, volume, issue. The data in the database can return to ISO 2709 format.
KEY WORDS: computer, edible fungi, Chinese literature, database