https://dcos.io/releases/https://downloads.dcos.io/dcos/stable/1.12.0/dcos_generate_config.shhttps://docs.mesosphere.com/1.12/installing/production/Nodes 要求:Proxy/Bootstrap:用于安装集群的机器。必须安装Docker(CentOS系统要用RedHat分支的1.13版本)Master node:建议3或者5个,开发测试可用1个。4 cores 处理器,32GB RAM,120GB 硬盘。 建议SSD硬盘挂载/var/lib/dcos。 /var/lib/dcos/mesos/master 日志目录 /var/lib/dcos/cockroach (企业版)CockroachDB /var/lib/dcos/navstar Mnesia数据库 /var/lib/dcos/secrets (企业版)secrets保险箱 /var/lib/dcos/exhibitor Zookeeper数据库Agent node (public):建议6个以上,1个也可以。2 cores 处理器,16GB RAM,60GB 硬盘。 /var 至少20GB 硬盘,可以访问外网或者内部的 Docker 仓库。 必须关闭 firewalld,禁用 DNSmasq 释放 53 端口。 /var/lib/mesos Master和Agent节点持久存储在这个目录,不要远程挂载!<<<-- /var/lib/mesos/slave/slaves 任务的沙盒目录 /var/lib/mesos/slave/volumes 框架使用的 ROOT 持久卷 /var/lib/mesos/docker/store 存储 docker 镜像层,用于提供 URC 容器 /var/lib/docker 存储 docker 镜像层,用于提供 docker 容器,不要远程挂载!<<<--Agent node (private):同上,只是 private agent node,可以有更多个。后面的安装步骤假设有上面描述的 4个节点 安装 dcos 集群。 <<<---其他要求:(将在后面的安装步骤中设置)全部节点启用 SSH (Secure shell)全部节点启用 ICMP (Internet Control Message Protocol)(企业版)全部hostnames能够被 DNS 解析每个节点通过 bootstrap 节点访问网络每个节点通过 IP 连接自己和集群其他节点(企业版)所有端口都应打开,以进行从管理节点到代理节点的来回通信UDP 必须打开才能进入管理节点上的端口 53。为连接到集群,Mesos 代理节点服务 (dcos-mesos-slave) 使用此端口查找 leader.mesos建议为 DC/OS 安装使用高速互联网连接。DC/OS 服务需要每秒至少 10 MBit。如果工件下载时间超过文件 /opt/mesosphere/etc/mesos-slave-common 中 MESOS_EXECUTOR_REGISTRATION_TIMEOUT 的值,某些 DC/OS 服务的安装将失败。MESOS_EXECUTOR_REGISTRATION_TIMEOUT 的默认值为 10 分钟。安装步骤:系统:CentOS 7.4语言:en_US.utf-8文件系统: xfs with d_type检查目录是否有ftype=1:# xfs_info /var/lib | grep -C 10 ftype=1检查整个文件系统:# df -Th格式化新分区:# mkfs.xfs -n ftype=1 -f /dev/mesos/dcos可以使用符号链接将/var/lib下的docker、mesos、dcos,可尝试如下方法:# mkdir -p /export/mesos# mount /dev/mesos/dcos /export/mesosmkdir -p /export/mesos/{docker,mesos,dcos,registry}systemctl stop dockerrm -rf /var/lib/{docker,mesos,docs,registry}ln -s /export/mesos/docker /var/lib/dockerln -s /export/mesos/mesos /var/lib/mesosln -s /export/mesos/dcos /var/lib/dcosln -s /export/mesos/registry /var/lib/registryls -l /var/lib/{docker,mesos,dcos,registry}systemctl start docker && docker info | grep d_type全程联网,需要 root 权限注意:下面涉及到ssh -t命令的,请分别运行,不要一块粘贴到远程终端上。如果安装失败,请跳到最后面的“4. 卸载 dcos”,然后重新安装。1. 准备,在 bootstrap 节点配置SSH,然后远程关闭SELinux、Firewalld等服务,安装Docker等1.1 配置SSH假设不知道 root 账户密码,但可以 sudo 获得 root 权限,可以在普通账户创建 ssh key 后复制到 root 目录,步骤如下:$ ssh-keygen -t rsa // 生成密钥对,一路回车$ ssh-copy-id master // 复制本地公钥到 master 节点此用户的 authorized_keys 文件,需要输入账户密码$ ssh-copy-id agent1 // 同上,复制到 agent1 节点,假设此节点是 public agent$ ssh-copy-id agent2 // 同上,复制到 agent2 节点,假设此节点是 private agent// 复制 ssh 给 root;禁用 sudo 密码提示。方便后面远程连接 root,需要输入账户密码$ sudo mkdir -p /root/.ssh && sudo chmod 700 /root/.ssh && sudo cp ~/.ssh/* /root/.ssh/; echo '%wheel ALL=(ALL) NOPASSWD: ALL' | sudo tee -a /etc/sudoers$ ssh -t master "sudo mkdir -p /root/.ssh && sudo chmod 700 /root/.ssh && sudo cp ~/.ssh/* /root/.ssh/; echo '%wheel ALL=(ALL) NOPASSWD: ALL' | sudo tee -a /etc/sudoers" $ ssh -t agent1 "sudo mkdir -p /root/.ssh && sudo chmod 700 /root/.ssh && sudo cp ~/.ssh/* /root/.ssh/; echo '%wheel ALL=(ALL) NOPASSWD: ALL' | sudo tee -a /etc/sudoers"$ ssh -t agent2 "sudo mkdir -p /root/.ssh && sudo chmod 700 /root/.ssh && sudo cp ~/.ssh/* /root/.ssh/; echo '%wheel ALL=(ALL) NOPASSWD: ALL' | sudo tee -a /etc/sudoers"$ sudo su // 切换到 root# // 下面的操作均在 root 下执行,因此不写 # 提示符了,也不加行尾注释,方便复制1.2 配置SELinux和firewalld等// 先查看 SELinux 状态,如果是 enabled 状态,再进行关闭操作,并且重启sestatus// 如果需要,sed 替换命令,可以设置替换为 permissive(centOS 不可设置为启用)setenforce 0 && sed -i 's/SELINUX=enforcing/SELINUX=disabled/g' /etc/selinux/config && rebootssh -t master "setenforce 0 && sed -i 's/SELINUX=enforcing/SELINUX=disabled/g' /etc/selinux/config && reboot"ssh -t agent1 "setenforce 0 && sed -i 's/SELINUX=enforcing/SELINUX=disabled/g' /etc/selinux/config && reboot"ssh -t agent2 "setenforce 0 && sed -i 's/SELINUX=enforcing/SELINUX=disabled/g' /etc/selinux/config && reboot"// 创建 nogroup 和 docker 组groupadd nogroup && groupadd docker// 关闭 firewalld(centOS 必须关闭 firewalld),关闭 dnsmasq(释放 53 端口,centos最小安装无此服务)systemctl stop firewalld && sudo systemctl disable firewalldsystemctl stop dnsmasq && sudo systemctl disable dnsmasq.servicessh -t master "groupadd nogroup && groupadd docker"ssh -t agent1 "groupadd nogroup && groupadd docker"ssh -t agent2 "groupadd nogroup && groupadd docker"ssh -t master "systemctl stop firewalld && sudo systemctl disable firewalld; systemctl stop dnsmasq && sudo systemctl disable dnsmasq.service"ssh -t agent1 "systemctl stop firewalld && sudo systemctl disable firewalld; systemctl stop dnsmasq && sudo systemctl disable dnsmasq.service"ssh -t agent2 "systemctl stop firewalld && sudo systemctl disable firewalld; systemctl stop dnsmasq && sudo systemctl disable dnsmasq.service"1.3 安装 Docker卸载新版本的 docker-ce(如果存在),安装 Redhat fork docker 1.13,启动,启用,查看版本建议分别运行,以便查看是否安装正确。如果使用国内的centos安装源,请参考:https://mirrors.tuna.tsinghua.edu.cn/help/centos/yum remove -y docker-ce && yum install -y docker && systemctl start docker && systemctl enable docker && docker versionssh -t master "yum remove -y docker-ce && yum install -y docker && systemctl start docker && systemctl enable docker && docker version"ssh -t agent1 "yum remove -y docker-ce && yum install -y docker && systemctl start docker && systemctl enable docker && docker version"ssh -t agent2 "yum remove -y docker-ce && yum install -y docker && systemctl start docker && systemctl enable docker && docker version"如果发现错误,请检查是否有文件冲突提示,加入到 yum remove 命令中。配置Docker仓库镜像(国内,会覆盖daemon.json)echo '{"registry-mirrors": ["https://docker.mirrors.ustc.edu.cn/"]}' > /etc/docker/daemon.json; systemctl restart docker; docker versionssh -t master "echo '{\"registry-mirrors\": [\"https://docker.mirrors.ustc.edu.cn/\"]}' > /etc/docker/daemon.json; systemctl restart docker; docker version"ssh -t agent1 "echo '{\"registry-mirrors\": [\"https://docker.mirrors.ustc.edu.cn/\"]}' > /etc/docker/daemon.json; systemctl restart docker; docker version"ssh -t agent2 "echo '{\"registry-mirrors\": [\"https://docker.mirrors.ustc.edu.cn/\"]}' > /etc/docker/daemon.json; systemctl restart docker; docker version"1.4 安装其他必要组件yum install -y tar xz unzip curl ipset net-tools ntpssh -t master "yum install -y tar xz unzip curl ipset net-tools ntp"ssh -t agent1 "yum install -y tar xz unzip curl ipset net-tools ntp"ssh -t agent2 "yum install -y tar xz unzip curl ipset net-tools ntp"1.5 启用 NTP(网络时间协议)ntptime; adjtimex -p; timedatectlssh -t master "ntptime; adjtimex -p; timedatectl"ssh -t agent1 "ntptime; adjtimex -p; timedatectl"ssh -t agent2 "ntptime; adjtimex -p; timedatectl"1.6 下载 dcos 安装脚本(900MB左右)cd /rootcurl -O https://downloads.dcos.io/dcos/stable/dcos_generate_config.sh// curl -O https://downloads.dcos.io/dcos/stable/1.12.0/dcos_generate_config.shchmod +x dcos_generate_config.sh2. 创建配置文件配置文件结构:dcos_generate_config.shgenconf/genconf/config.yamlgenconf/ip-detectgenconf/ssh_keys2.1 创建 genconf 目录,复制 ssh key,创建 ip-detect 文件mkdir -p genconfcd genconfcp /root/.ssh/id_rsa ssh-keychmod 600 ssh-keyvi ip-detect文件内容:#!/usr/bin/env bash# AWS:# curl -fsSL http://169.254.169.254/latest/meta-data/local-ipv4# GCE:# curl -fsSl -H "Metadata-Flavor: Google" http://169.254.169.254/computeMetadata/v1/instance/network-interfaces/0/ipset -o nounset -o errexitecho $(ip addr|grep 192.168|grep -Eo '[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}' | head -1)文件结束请将文件中 192.168 替换为本机的 ip 地址的前两组数字。chmod +x ip-detect./ip-detect查看是否显示为本机 ip2.2 创建 config.yaml。参见:https://docs.mesosphere.com/1.12/installing/production/advanced-configuration/configuration-reference/#configuration-parametersvi config.yaml文件内容:bootstrap_url: http://:80ip_detect_public_filename: genconf/ip-detectmaster_list:- # - # - public_agent_list:- agent_list:- # - cluster_name: DCOSexhibitor_storage_backend: staticmaster_discovery: staticresolvers:- 8.8.4.4- 8.8.8.8ssh_key_path: /genconf/ssh-keyssh_port: 22ssh_user: rootuse_proxy: 'false'# http_proxy: http:// : @ : # https_proxy: http:// : @ : # no_proxy:# - '.mesos'# - '.thisdcos.directory'# - '.dcos.directory'# - '.zk'# - '127.0.0.1'# - 'localhost'enable_ipv6: 'false'telemetry_enabled: 'false'oauth_enabled: 'false'文件结束文件的最后两行是关闭dcos体验反馈和oauth登录,社区版建议关闭。resolvers最多可以3个,如需解析内网主机名,要指定内网的 DNS。如果指定代理,请同时配置 Docker 代理,见后面“2.4 配置 Docker 代理”企业版可指定superuser_username和superuser_password_hash,密码通过bash dcos_generate_config.ee.sh --hash-password 或者--set-superuser-password生成到config.yaml2.3 返回 dcos_generate_config.sh 路径,准备安装cd ..2.4 配置 Docker 代理(可选)mkdir -p /etc/systemd/system/docker.service.dvi /etc/systemd/system/docker.service.d/http-proxy.conf文件开始[Service]Environment="HTTP_PROXY=http://proxy.example.com:80/" "HTTPS_PROXY=https://proxy.example.com:443/" "NO_PROXY=.mesos,.thisdcos.directory,.dcos.directory,.zk,127.0.0.1,localhost"文件结束systemctl daemon-reload && systemctl restart docker验证代理是否被加载:systemctl show --property=Environment docker3. 安装 dcos3.1 安装 dcosbash dcos_generate_config.shdocker rm -f nginxdocker run -d -p 80:80 -v $PWD/genconf/serve:/usr/share/nginx/html:ro --restart=always --name nginx nginx// 安装 master 节点ssh mastermkdir /tmp/dcos; cd /tmp/dcoscurl -O http:// /dcos_install.shbash dcos_install.sh masterexit// 安装 agent1(public agent)节点ssh agent1mkdir /tmp/dcos; cd /tmp/dcoscurl -O http:// /dcos_install.shbash dcos_install.sh slave_publicexit// 安装 agent2(private agent)节点ssh agent2mkdir /tmp/dcos; cd /tmp/dcoscurl -O http:// /dcos_install.shbash dcos_install.sh slaveexit如果安装成功监视 Exhibitor 页面:显示master节点的zookeeper的状态,主节点融合大约需要 10 分钟http:// :8181/exhibitor/v1/ui/index.htmlDCOS主页:http:// /3.2 配置代理(可选)注意:下面的proxy.env是链接文件,不要用文件复制命令替换,请用vi手动修改。如果dcos需要代理访问,只在前面的方式配置config.yaml和配置docker代理是不够的,还需要在每个节点修改proxy.env。检查是否代理配置成功的方法之一是:访问dcos界面的Catalog页面,默认它会去官网的Universe中获得组件列表。配置master节点代理ssh mastervi /opt/mesosphere/etc/proxy.env文件开始http_proxy=http:// : @ : https_proxy=https:// : @ : no_proxy=".mesos,.thisdcos.directory,.dcos.directory,.zk,127.0.0.1,localhost"文件结束systemctl restart dcos-cosmossystemctl restart dcos-adminrouter.service配置public agent节点代理ssh agent1vi /opt/mesosphere/etc/proxy.env文件开始http_proxy=http:// : @ : https_proxy=https:// : @ : no_proxy=".mesos,.thisdcos.directory,.dcos.directory,.zk,127.0.0.1,localhost"文件结束systemctl restart dcos-mesos-slave-public配置private agent节点代理ssh agent1vi /opt/mesosphere/etc/proxy.env文件开始http_proxy=http:// : @ : https_proxy=https:// : @ : no_proxy=".mesos,.thisdcos.directory,.dcos.directory,.zk,127.0.0.1,localhost"文件结束systemctl restart dcos-mesos-slave3.3 安装 dcos cli(可选)dcos cli 可以安装到任何机器或者节点,并且有 windows、macOS和linux不同的版本。下面假设安装到了 bootstrap 节点。在 DCOS 页面里可以通过左上角的下拉菜单安装,也可以手动安装,注意地址的版本号:curl -O https://downloads.dcos.io/binaries/cli/linux/x86-64/dcos-1.12/dcosmv dcos /usr/local/binchmod +x dcos /usr/local/bin/dcos注意:/usr/local/bin 路径下的程序,默认不会加入 root 账户的 PATH 变量,建议返回普通用户使用 dcos 命令。使用前设置集群地址dcos cluster setup https:// dcos3.4 安装私有 Universe(可选)在不连接外网使用 Universe 的方法mkdir -p ~/universe && cd ~/universecurl -v https://downloads.mesosphere.com/universe/public/local-universe.tar.gz -o local-universe.tar.gzcurl -v https://raw.githubusercontent.com/mesosphere/universe/version-3.x/docker/local-universe/dcos-local-universe-http.service -o dcos-local-universe-http.servicecurl -v https://raw.githubusercontent.com/mesosphere/universe/version-3.x/docker/local-universe/dcos-local-universe-registry.service -o dcos-local-universe-registry.servicecd ..scp -r universe :~ssh -A cd universemv dcos-local-universe-registry.service /etc/systemd/system/mv dcos-local-universe-http.service /etc/systemd/system/docker load < local-universe.tar.gzsystemctl daemon-reloadsystemctl enable dcos-local-universe-httpsystemctl enable dcos-local-universe-registrysystemctl start dcos-local-universe-httpsystemctl start dcos-local-universe-registry验证服务是否成功systemctl status dcos-local-universe-httpsystemctl status dcos-local-universe-registry如果有多个 Master 节点,那么都需要安装上面方法安装。说明:本小节的例子中,将 master.mesos 替换为每个真正的 Master 节点名,若 dcos 命令的操作系统不识别节点名,可配置 hosts(/etc/hosts)技巧:获得主机的IP的方法,假设主机名为master.mesoshost master.mesoshost后面也可以用ip获得主机名。用 dcos 命令添加私有 Universe,如果有多个 Master 节点,需要全部加入dcos package repo remove Universedcos package repo add local-universe http://master.mesos:8082/repo注:重新添加官网 Universe(也可在 dcos 页面的 Settings/Package Repositories 里添加)dcos package repo add Universe https://universe.mesosphere.com/repo为每个 Master 节点配置 Docker 信任证书:创建 Docker 证书dcos node ssh --master-proxy --mesos-id= sudo mkdir -p /etc/docker/certs.d/master.mesos:5000sudo curl -o /etc/docker/certs.d/master.mesos:5000/ca.crt http://master.mesos:8082/certs/domain.crtsudo systemctl restart docker添加到信任(openssl那行会创建 )sudo cp /etc/docker/certs.d/master.mesos:5000/ca.crt /var/lib/dcos/pki/tls/certs/docker-registry-ca.crtcd /var/lib/dcos/pki/tls/certs/openssl x509 -hash -noout -in docker-registry-ca.crtsudo ln -s /var/lib/dcos/pki/tls/certs/docker-registry-ca.crt /var/lib/dcos/pki/tls/certs/ .0exit完成后,DCOS的Catalog页会显示信任的包。可以手动创建一个可选的 Universe,参见:https://docs.mesosphere.com/1.12/administering-clusters/deploying-a-local-dcos-universe/#selected-packages例子:需要一个安装了docker,请能够make,并且能连接网络的linux机器$ git clone https://github.com/mesosphere/universe.git --branch version-3.x$ cd universe/docker/local-universe/// 编译 universe-base 镜像$ sudo make base// 编译 1.12 版本的自定义 local-universe 镜像,最终会生成 local-universe.tar.gz$ sudo make DCOS_VERSION=1.12 DCOS_PACKAGE_INCLUDE="cassandra:1.0.25-3.0.10,marathon:1.4.2" local-universe$ sudo chmod 777 local-universe.tar.gz3.5 私有 Docker Registry(可选)除了使用 Docker hub,还可以使用私有的 Docker Registry,有下面两种情况。3.5.1 安装 Universe 中的 Registry参考:https://github.com/dcos/examples/tree/master/registry内部的 Registry 服务虚拟地址默认是:registry.marathon.l4lb.thisdcos.directory:5000方法一:使用自签名证书配置 Docker Registry应该使用第三方机构(如 Let's Encrypt)创建授权证书,下面的例子是如何使用自签名证书。注意:创建的证书必须安装到每个需要访问 Docker Registry 的节点。(1) 创建证书在 bootstrap 节点cd ~/genconf/serveopenssl req -newkey rsa:4096 -nodes -sha256 -keyout domain.key -x509 -days 365 -out domain.crt------Country Name (2 letter code) [XX]:USState or Province Name (full name) []:NYLocality Name (eg, city) [Default City]:NYCOrganization Name (eg, company) [Default Company Ltd]:mycompanyOrganizational Unit Name (eg, section) []:myorgCommon Name (eg, your name or your servers hostname) []:registry.marathon.l4lb.thisdcos.directoryEmail Address []:myemailaddress@mesosphere.com------查看生成的 domain.crt (将作为registry-certificate)和 domain.key(将作为registry-key) 文件ls -la domain.*查看证书文件cat domain.crt(2) 分发证书到需要访问 Docker Registry 的全部 agent 节点的下面位置:/etc/docker/certs.d/registry.marathon.l4lb.thisdcos.directory:5000/ca.crt并将证书加入到受信任的证书列表里。mkdir -p /etc/docker/certs.d/registry.marathon.l4lb.thisdcos.directory:5000cp domain.crt /etc/docker/certs.d/registry.marathon.l4lb.thisdcos.directory:5000/ca.crtsysctl -w net.netfilter.nf_conntrack_tcp_be_liberal=1; systemctl restart dockerssh -t agent1 "mkdir -p /etc/docker/certs.d/registry.marathon.l4lb.thisdcos.directory:5000"ssh -t agent2 "mkdir -p /etc/docker/certs.d/registry.marathon.l4lb.thisdcos.directory:5000"scp domain.crt agent1:/etc/docker/certs.d/registry.marathon.l4lb.thisdcos.directory:5000/ca.crtscp domain.crt agent2:/etc/docker/certs.d/registry.marathon.l4lb.thisdcos.directory:5000/ca.crtssh -t agent1 "sysctl -w net.netfilter.nf_conntrack_tcp_be_liberal=1; systemctl restart docker"ssh -t agent2 "sysctl -w net.netfilter.nf_conntrack_tcp_be_liberal=1; systemctl restart docker"(3) 在 dcos 界面的 Catalog 里添加 Registry配置修改如下:选择Security页勾选 enable填写 http tls download ip 为 bootstrap 的 ip 地址其他默认(http tls download port:80,http tls certificate filename:domain.crt,http tls key filename:domain.key)安装即可。(4) 测试(可选)(4.1) 添加一个 registry-frontend 服务在 dcos 界面的 Services 里添加一个新服务选择 Single ContrainerService ID: /registry-frontendInstances: 1Container Image: konradkleine/docker-registry-frontend:v2CPUs: 0.5Memory (MiB): 128Networking 页面Network Type: Bridge+ Add Service EndpointsContainer Port: 80Service Endpoint Name: web取消勾选 Assign Automatically (可选,设置Host Port方便以后直接访问固定端口)Host Port: 5555勾选 Enable Load Balanced Service AddressLoad Balanced Port: 8080Health Checks 页面+ Add Health CheckProtocol: HTTPService Endpoint: webPath: /Environment 页面添加环境变量:ENV_DOCKER_REGISTRY_HOST: registry.marathon.l4lb.thisdcos.directoryENV_DOCKER_REGISTRY_PORT: 5000ENV_MODE_BROWSE_ONLY: trueENV_DOCKER_REGISTRY_USE_SSL: 1 (如果registry-frontend获取不到资源,可以去掉试试)添加Labels:DCOS_SERVICE_PORT_INDEX: 0DCOS_SERVICE_NAME: registry-frontendHAPROXY_GROUP: externalDCOS_SERVICE_SCHEME: http由于不能直接访问 http://DCOS/service/registry-frontend/因此需要到DCOS的Services/registry-frontend 的Tasks页面,点击正在运行的实例,Marathon Task Configuration节里有 Host 和 Ports,请用这个地址直接访问。(4.2) push 一个 nginxdocker pull nginxdocker tag nginx registry.marathon.l4lb.thisdcos.directory:5000/nginxdocker push registry.marathon.l4lb.thisdcos.directory:5000/nginx方法二:不安全的 Docker Registry(警告:仅测试使用) ~~~~~~~~ !!!我测试无法启动docker,后来采用修改daemon.json的方法: ssh -t master "echo '{\"insecure-registries\": [\"registry.marathon.l4lb.thisdcos.directory:5000/\"]}' > /etc/docker/daemon.json; systemctl restart docker; docker version" ssh -t agent1 "echo '{\"insecure-registries\": [\"registry.marathon.l4lb.thisdcos.directory:5000/\"]}' > /etc/docker/daemon.json; systemctl restart docker; docker version" ssh -t agent2 "echo '{\"insecure-registries\": [\"registry.marathon.l4lb.thisdcos.directory:5000/\"]}' > /etc/docker/daemon.json; systemctl restart docker; docker version" ~~~~~~~~不配置TLS证书,修改 docker 服务来忽略安全设置。在所有的节点执行下面命令(请复制$后面及所有行):$ sudo tee /etc/systemd/system/docker.service.d/override.conf <<-'EOF'[Service]EnvironmentFile=-/etc/sysconfig/dockerEnvironmentFile=-/etc/sysconfig/docker-storageEnvironmentFile=-/etc/sysconfig/docker-networkExecStart=ExecStart=/usr/bin/docker daemon -H fd:// $OPTIONS \ $DOCKER_STORAGE_OPTIONS \ $DOCKER_NETWORK_OPTIONS \ $BLOCK_REGISTRY \ $INSECURE_REGISTRY \ --storage-driver=overlay \ --insecure-registry registry.marathon.l4lb.thisdcos.directory:5000 EOFsystemctl daemon-reloadsystemctl restart docker3.5.2 安装私有的 Docker Registry假设已经有一个私有的 Docker Registry,地址是 some.docker.host.com创建 docker.tar.gz,此文件就是 docker 登录后的本机生成的记录登录信息的文件,打成了包。步骤如下:首先登录需要访问的私有 Registry:docker login some.docker.host.com~~~~~~~~ 注意:如果是非https的地址,需要在加入如下到 /etc/docker/daemon.json { "insecure-registries" : ["myregistrydomain.com:5000"] } 还可以创建一个自签名证书: https://docs.docker.com/registry/insecure/#docker-still-complains-about-the-certificate-when-using-authentication mkdir -p certs openssl req \ -newkey rsa:4096 -nodes -sha256 -keyout certs/domain.key \ -x509 -days 365 -out certs/domain.crt 注意输入正确的domain 然后运行registry docker run -d \ --restart=always \ --name registry \ -v `pwd`/certs:/certs \ -e REGISTRY_HTTP_ADDR=0.0.0.0:443 \ -e REGISTRY_HTTP_TLS_CERTIFICATE=/certs/domain.crt \ -e REGISTRY_HTTP_TLS_KEY=/certs/domain.key \ -p 443:443 \ registry:2 最后,可能需要参考前面3.4节,添加信任到 marathon-lb。~~~~~~~~然后打包cd ~tar -czf docker.tar.gz .docker最后,复制到全部的节点的 /etc/ 下,比如:scp docker.tar.gz master:/etc/scp docker.tar.gz agent1:/etc/scp docker.tar.gz agent2:/etc/之后就可以在服务定义的 json 中指定这个文件位置了,如:"{ "id": "/some/name/or/id", "cpus": 1, "mem": 1024, "instances": 1, "container": { "type": "DOCKER", "docker": { "image": "some.docker.host.com/namespace/repo" } }, "fetch": [ { "uri": "file:///etc/docker.tar.gz" } ]}当然也可以指定一个http的地址,只要能下载到docker.tar.gz即可。3.6 其他技巧关闭并禁用一个 agentsudo systemctl kill -s SIGUSR1 dcos-mesos-slave && sudo systemctl stop dcos-mesos-slavesudo systemctl kill -s SIGUSR1 dcos-mesos-slave-public && sudo systemctl stop dcos-mesos-slave-public3.7 升级 dcos升级前应查阅版本发布文档,避免出错。升级指 1.X -> 1.Y 的过程;修补是指 1.X.A -> 1.X.B;升级会重启服务;修补不会影响服务运行,但是方式是一样的。在 bootstrap 节点生成升级文件:dcos_generate_config.sh --generate-node-upgrade-script 企业版dcos_generate_config.ee.sh --generate-node-upgrade-script 然后到每个节点运行:curl -O bash dcos_node_upgrade.shecho $?返回0,表示完成升级。注意:在升级或者修补 Master 节点前,手动删除 /opt/mesosphere/lib/libltdl.so.7 可避免冲突失败。4. 卸载 dcos注:官方未提供卸载说明。在所有master和agent节点执行下面命令:/opt/mesosphere/bin/pkgpanda uninstallrm -rf /opt/mesosphere /opt/dcos-prereqs.installed /var/lib/{mesos,dcos,zookeeper,mesosphere} /var/log/mesos /etc/mesosphere /etc/profile.d/dcos.sh /etc/systemd/journald.conf.d/dcos.confrm -rf /etc/systemd/system/{dcos-*,dcos.*} /etc/systemd/system/multi-user.target.wants/{dcos-*,dcos.*}ps -ef|egrep 'mesos|dcos'|grep -v grep|awk '{print $2}'|xargs kill -9systemctl daemon-reloadrm -rf /tmp/dcos还需要手动改回dns解析文件,否则agent节点不能访问bootstrap,重新下载脚本:vi /etc/resolv.conf也可以通过 bootstrap 节点 scp 覆盖过来,如:scp /etc/resolv.conf master:/etc/resolv.confscp /etc/resolv.conf agent1:/etc/resolv.confscp /etc/resolv.conf agent2:/etc/resolv.conf可选重启:reboot如果出现 Systemd 错误,可以强制重启:reboot -f在bootstrap节点,停用nginx,转到dcos_generate_config.sh所在目录,然后删除多余文件:docker rm -f nginxcd /rootrm -rf dcos-*.tar genconf/{*.json,serve,state}然后可以重新安装dcos。5. 问题5.1 如果安装某些服务(如:marathon-lb)运行失败,在日志中报告错误:/usr/bin/docker-current: Error response from daemon: shim error: docker-runc not installed on system.可以在对应的节点里配置 /etc/docker/daemon.json"hosts": ["unix:///var/run/docker.sock","tcp://0.0.0.0:2375"],"runtimes": { "docker-runc": { "path": "/usr/libexec/docker/docker-runc-current" }},"add-runtime": "docker-runc=/usr/libexec/docker/docker-runc-current","default-runtime": "docker-runc"5.2 如果 dns 失败,可以手动更改 /opt/mesosphere/bin/gen_resolvconf.py,强制加入 dns 解析设置contents += "search some.domain.com\n" contents += "nameserver 10.10.10.1\n"contents += "nameserver 10.10.10.2\n"然后重启服务systemctl restart dcos-adminroutersystemctl restart dcos-mesos-dns