網(wǎng)站建設(shè)外包公司網(wǎng)站搜索工具
樣本 UNIX 和 Linux 安裝目錄
?
守護(hù)程序錯(cuò)誤日志文件
守護(hù)程序錯(cuò)誤日志文件存儲(chǔ)在?LSF_LOGDIR?在?lsf.conf?文件中定義的目錄中。
LSF?基本系統(tǒng)守護(hù)程序日志文件 | LSF?批處理系統(tǒng)守護(hù)程序日志文件 |
pim.log.host_name | mbatchd.log.host_name |
mbatchd.log.host_name | sbatchd.log.host_name |
lim.log.host_name | mbschd.log.host_name |
如果在?ego.conf?文件中定義了?EGO_LOGDIR?參數(shù),那么?lim.log.host_name?文件將存儲(chǔ)在?EGO_LOGDIR?參數(shù)定義的目錄中。
配置文件
lsf.conf,?lsf.shared和?lsf.cluster.cluster_name?文件位于?lsf.conf?文件中?LSF_CONFDIR?參數(shù)指定的目錄中。
lsb.params,?lsb.queues,?lsb.modules和?lsb.resources?文件位于?LSB_CONFDIR/cluster_name/configdir/?目錄中。
文件 | 描述 |
---|---|
install.config | LSF?安裝和配置的選項(xiàng) |
lsf.conf | 描述集群配置和操作的通用環(huán)境配置文件 |
lsf.shared | 所有集群共享的定義文件。 用于定義集群名稱,主機(jī)類型,主機(jī)模型和站點(diǎn)定義的資源 |
lsf.cluster.cluster_name | 用于定義站點(diǎn)定義的共享資源的主機(jī),管理員和位置的集群配置文件 |
lsb.applications | 定義應(yīng)用程序概要文件以定義相同類型的作業(yè)的公共參數(shù) |
lsb.params | 配置?LSF?批處理參數(shù) |
lsb.queues | 批處理隊(duì)列配置文件 |
lsb.resources | 配置資源分配限制,導(dǎo)出和資源使用限制 |
lsb.serviceclasses | 將?LSF?集群中的服務(wù)級別協(xié)議 (SLA) 定義為服務(wù)類,用于定義 SLA 的屬性 |
lsb.users | 配置用戶組,用戶和用戶組的分層公平共享以及用戶和用戶組的作業(yè)槽限制 |
lsf.conf?文件中的集群配置參數(shù)
參數(shù) | 描述 | UNIX 缺省值 |
---|---|---|
LSF_BINDIR | 包含?LSF?用戶命令的目錄,這些命令由同一類型的所有主機(jī)共享 | LSF_TOP/version/OStype/bin |
LSF_CONFDIR | 所有?LSF?配置文件的目錄 | LSF_TOP/conf |
LSF_ENVDIR | 包含?lsf.conf?文件的目錄。 必須由 root 用戶擁有。 | /etc?(如果未定義?LSF_CONFDIR?) |
LSF_INCLUDEDIR | 包含?LSF?API 頭文件?lsf.h?和?lsbatch.h?的目錄 | LSF_TOP/version/include |
LSF_LIBDIR | LSF?庫,由同一類型的所有主機(jī)共享 | LSF_TOP/version/OStype/lib |
LSF_LOGDIR | (可選)?LSF?守護(hù)程序日志的目錄。 必須由 root 用戶擁有。 | /tmp |
LSF_LOG_MASK | 來自?LSF?命令的錯(cuò)誤消息的日志記錄級別 | LOG_WARNING |
LSF_MANDIR | 包含?LSF?聯(lián)機(jī)幫助頁的目錄 | LSF_TOP/version/man |
LSF_MISC | 樣本 C 程序和 shell 腳本以及外部 LIM 的模板 (elim) | LSF_TOP/version/misc |
LSF_SERVERDIR | 所有服務(wù)器二進(jìn)制文件和 shell 腳本以及由?LSF?守護(hù)程序啟動(dòng)的外部可執(zhí)行文件的目錄必須由 root 用戶擁有,并且由同一類型的所有主機(jī)共享 | LSF_TOP/version/OStype/etc |
LSF_TOP | 頂級安裝目錄。 LSF_TOP 的路徑必須共享,并且可供集群中的所有主機(jī)訪問。 它不能是根目錄 (/)。 | 未定義 安裝所需 |
LSB_CONFDIR | LSF?批處理配置目錄的目錄,包含用戶和主機(jī)列表,操作參數(shù)和批處理隊(duì)列 | LSF_CONFDIR/lsbatch |
LSF_LIVE_CONFDIR | bconf?命令寫入的?LSF?實(shí)時(shí)重新配置目錄的目錄。 | LSB_SHAREDIR/cluster_name/live_confdir |
LSF_SHAREDIR | 每個(gè)集群的?LSF?批處理作業(yè)歷史記錄和記帳日志文件的目錄必須由主?LSF?管理員擁有 | LSF_TOP/work |
LSF_LIM_PORT | 用于與?lim?守護(hù)程序通信的 TCP 服務(wù)端口 | 7879 |
LSF_RES_PORT | 用于與?res?守護(hù)程序通信的 TCP 服務(wù)端口 | 6878 |
LSF_MBD_PORT | 用于與?mbatchd?守護(hù)程序通信的 TCP 服務(wù)端口 | 6881 |
LSF_SBD_PORT | 用于與?sbatchd?守護(hù)程序通信的 TCP 服務(wù)端口 | 6882 |
?
管理和記帳命令
只有?LSF?管理員和 root 用戶才能使用這些命令。
命令 | 描述 |
---|---|
lsadmin | LSF?管理員工具,用于控制?LSF?集群中 LIM 和 RES 守護(hù)程序的操作,?lsadmin help?顯示所有子命令 |
lsfinstall | 使用?install.config?輸入文件安裝?LSF |
lsfrestart | 在本地集群中的所有主機(jī)上重新啟動(dòng)?LSF?守護(hù)程序 |
lsfshutdown | 關(guān)閉本地集群中所有主機(jī)上的?LSF?守護(hù)程序 |
lsfstartup | 在本地集群中的所有主機(jī)上啟動(dòng)?LSF?守護(hù)程序 |
badmin | LSF?用于控制?LSF?批處理系統(tǒng) (sbatchd,?mbatchd,主機(jī)和隊(duì)列) 操作的管理工具?badmin?幫助顯示所有子命令 |
bconf | 更改活動(dòng)內(nèi)存中的?LSF?配置 |
守護(hù)程序
守護(hù)程序名稱 | 描述 |
---|---|
lim | 裝入信息管理器 (LIM): 收集有關(guān)集群中所有服務(wù)器主機(jī)的裝入和資源信息,并通過 LSLIB 向應(yīng)用程序提供主機(jī)選擇服務(wù)。 LIM 維護(hù)有關(guān)靜態(tài)系統(tǒng)資源和動(dòng)態(tài)負(fù)載索引的信息 |
mbatchd | 管理?批處理守護(hù)程序 (MBD): 接受并保存所有批處理作業(yè)。 MBD 通過聯(lián)系?管理?主機(jī) LIM 定期檢查所有服務(wù)器主機(jī)上的裝入索引。 |
mbschd | 管理?批處理調(diào)度程序守護(hù)程序: 執(zhí)行?LSF?的調(diào)度功能,并將作業(yè)調(diào)度決策發(fā)送至 MBD 以進(jìn)行分派。 在?LSF?管理?主機(jī)上運(yùn)行 |
sbatchd | 服務(wù)器?批處理守護(hù)程序 (SBD): 接受來自 MBD 的作業(yè)執(zhí)行請求,并監(jiān)視作業(yè)進(jìn)度。 控制作業(yè)執(zhí)行,實(shí)施批處理策略,向 MBD 報(bào)告作業(yè)狀態(tài)以及啟動(dòng) MBD。 |
pim | Process Information Manager (PIM): 監(jiān)視已提交作業(yè)在運(yùn)行時(shí)使用的資源。 PIM 用于實(shí)施資源限制和負(fù)載閾值,以及用于公平共享調(diào)度 |
res | 遠(yuǎn)程執(zhí)行服務(wù)器 (RES): 接受來自所有負(fù)載共享應(yīng)用程序的遠(yuǎn)程執(zhí)行請求,并處理遠(yuǎn)程主機(jī)上用于負(fù)載共享進(jìn)程的 I/O。 |
用戶命令
查看有關(guān)集群的信息。
命令 | 描述 |
---|---|
bhosts | 顯示主機(jī)及其靜態(tài)和動(dòng)態(tài)資源 |
blimits | 顯示有關(guān)正在運(yùn)行的作業(yè)的資源分配限制的信息 |
bparams | 顯示有關(guān)可調(diào)批處理系統(tǒng)參數(shù)的信息 |
bqueues | 顯示有關(guān)批處理隊(duì)列的信息 |
busers | 顯示有關(guān)用戶和用戶組的信息 |
lshosts | 顯示主機(jī)及其靜態(tài)資源信息 |
lsid | 顯示當(dāng)前?LSF?版本號,集群名稱和?管理?主機(jī)名 |
lsinfo | 顯示負(fù)載共享配置信息 |
lsload | 顯示主機(jī)的動(dòng)態(tài)裝入索引 |
監(jiān)視作業(yè)和任務(wù)。
命令 | 描述 |
---|---|
bacct | 報(bào)告已完成?LSF?個(gè)作業(yè)的記帳統(tǒng)計(jì)信息 |
bapp | 顯示有關(guān)附加到應(yīng)用程序概要文件的作業(yè)的信息 |
bhist | 顯示有關(guān)作業(yè)的歷史信息 |
bjobs | 顯示有關(guān)作業(yè)的信息 |
bpeek | 顯示未完成的作業(yè)的標(biāo)準(zhǔn)輸出和?stderr |
bsla | 顯示有關(guān)面向目標(biāo)的服務(wù)級別協(xié)議調(diào)度的服務(wù)類配置的信息 |
bstatus | 讀取或設(shè)置外部作業(yè)狀態(tài)消息和數(shù)據(jù)文件 |
提交和控制作業(yè)。
命令 | 描述 |
---|---|
bbot | 相對于隊(duì)列中的最后一個(gè)作業(yè)移動(dòng)暫掛作業(yè) |
bchkpnt | 對可設(shè)置檢查點(diǎn)的作業(yè)設(shè)置檢查點(diǎn) |
bkill | 向作業(yè)發(fā)送信號 |
bmig | 遷移可檢查點(diǎn)或可重新運(yùn)行的作業(yè) |
bmod | 修改作業(yè)提交選項(xiàng) |
brequeue | 終止作業(yè)并重新排隊(duì) |
bresize | 釋放插槽并取消暫掛的作業(yè)調(diào)整大小分配請求 |
brestart | 重新啟動(dòng)檢查點(diǎn)作業(yè) |
bresume | 恢復(fù)已暫掛的作業(yè) |
bstop | 暫掛作業(yè) |
bsub | 提交作業(yè) |
bswitch | 將未完成的作業(yè)從一個(gè)隊(duì)列移至另一個(gè)隊(duì)列 |
btop | 相對于隊(duì)列中的第一個(gè)作業(yè)移動(dòng)暫掛作業(yè) |
bsub?命令
bsub?[options]?命令[arguments] 命令的所選選項(xiàng)
選項(xiàng) | 描述 |
---|---|
-ar | 指定作業(yè)可自動(dòng)調(diào)整大小 |
-H | 保留提交時(shí)處于 PSUSP 狀態(tài)的作業(yè) |
-I|-Ip|-Is | 提交批處理交互式作業(yè)。?-Ip?創(chuàng)建偽終端。?-Is?以 shell 方式創(chuàng)建偽終端。 |
-K | 提交作業(yè)并等待作業(yè)完成 |
-r | 使作業(yè)可重新運(yùn)行 |
-x | 互斥執(zhí)行 |
-app?應(yīng)用程序概要文件名稱 | 將作業(yè)提交到指定的應(yīng)用程序概要文件 |
-b?開始時(shí)間 | 以 [[month:]day:]:minute?格式在指定日期和時(shí)間上或之后分派作業(yè) |
-C?core_limit | 設(shè)置屬于此作業(yè)的所有進(jìn)程的每個(gè)進(jìn)程 (軟) 核心文件大小限制 (KB) |
-c?cpu_time[/host_name?|?/host_model] | 限制作業(yè)可以使用的總 CPU 時(shí)間。 CPU 時(shí)間格式為 [hour:]minutes |
-cwd?"current_working_directory" | 指定作業(yè)的當(dāng)前工作目錄 |
-D?數(shù)據(jù)限制 | 設(shè)置屬于作業(yè)的每個(gè)進(jìn)程的每個(gè)進(jìn)程 (軟) 數(shù)據(jù)段大小限制 (KB) |
-E?"pre_exec_command?[自變量]" | 在作業(yè)運(yùn)行之前在執(zhí)行主機(jī)上運(yùn)行指定的 pre-exec 命令 |
-Ep?"post_exec_command?[自變量]" | 在作業(yè)完成后在執(zhí)行主機(jī)上運(yùn)行指定的 post-exec 命令 |
-e?錯(cuò)誤文件 | 將標(biāo)準(zhǔn)錯(cuò)誤輸出附加到文件 |
-eo?錯(cuò)誤文件 | 將作業(yè)的標(biāo)準(zhǔn)錯(cuò)誤輸出覆蓋到指定文件 |
-F?文件限制 | 為屬于作業(yè)的每個(gè)進(jìn)程設(shè)置每個(gè)進(jìn)程 (軟) 文件大小限制 (KB) |
-f?"local_file?op[remote_file]" ... | 在本地 (提交) 主機(jī)和遠(yuǎn)程 (執(zhí)行) 主機(jī)之間復(fù)制文件。?奧普?is one of >, <, <<, ><, <> |
-i?input_file?|?-is?輸入文件 | 從指定文件獲取作業(yè)的標(biāo)準(zhǔn)輸入 |
-J?"job_name[index_list]%job_slot_limit" | 將指定的名稱分配給作業(yè)。 作業(yè)數(shù)組 index_list 的格式為?start[-end[:step]] ,%job_slot_limit?是可以同時(shí)運(yùn)行的最大作業(yè)數(shù)。 |
-k?"chkpnt_dir?[chkpnt_period] [method=method_name]" | 使作業(yè)檢查點(diǎn)可執(zhí)行,并指定檢查點(diǎn)目錄,周期 (以分鐘為單位) 和方法 |
-M?內(nèi)存限制 | 設(shè)置每個(gè)進(jìn)程 (軟) 內(nèi)存限制 (KB) |
-m?"host_name?[@cluster_name] [[!] | + [pref_level]] |?host_group[[!] | + [pref_level]] |?compute_unit[[!] | + [pref_level]] ..." | 在其中一個(gè)指定主機(jī)上運(yùn)行作業(yè)。 主機(jī)或組的名稱后面的加號 (+) 指示首選項(xiàng)。 (可選) 正整數(shù)指示首選項(xiàng)級別。 數(shù)字越大,表示首選度越高。 |
-n?min_proc[,max_proc] | 指定并行作業(yè)所需的最小和最大處理器數(shù) |
-o?輸出文件 | 將標(biāo)準(zhǔn)輸出附加到文件 |
-oo?輸出文件 | 將作業(yè)的標(biāo)準(zhǔn)輸出覆蓋到指定的文件 |
-p?進(jìn)程限制 | 限制整個(gè)作業(yè)的進(jìn)程數(shù) |
-q?"queue_name?..." | 將作業(yè)提交到其中一個(gè)指定隊(duì)列 |
-R?"res_req" [-R "res_req" ...] | 指定主機(jī)資源需求 |
-S?stack_limit | 為屬于作業(yè)的每個(gè)進(jìn)程設(shè)置每個(gè)進(jìn)程 (軟) 堆棧段大小限制 (KB) |
-sla?服務(wù)類名 | 指定要在其中運(yùn)行作業(yè)的服務(wù)類 |
-T?線程限制 | 設(shè)置整個(gè)作業(yè)的并發(fā)線程數(shù)限制 |
-t?term_time | 以 [[month:]day:]hour:minute?格式指定作業(yè)終止截止期限 |
-v?swap_limit | 設(shè)置整個(gè)作業(yè)的總進(jìn)程虛擬內(nèi)存限制 (KB) |
-W?run_time[/host_name?|/host_model] | 以 [hour:]minute?格式設(shè)置作業(yè)的運(yùn)行時(shí)限制 |
-h | 將命令用法打印到?stderr?并退出 |
-V | 將?LSF?發(fā)行版打印到?stderr?并退出 |
?