Milvus应用bootcamp中text_search_engine更换中文搜索模型
SentenceTransformers是一个可以用于句子、文本和图像嵌入的Python库。可以为100多种语言计算文本的嵌入并且可以轻松地将它们用于语义文本相似性、语义搜索和同义词挖掘等常见任务。按照官方的文档最近在搭建Milvus的搜索。参考官方文档地址如下:https://github.com/milvus-io/bootcamp/tree/master/solutions/text_search_engine/quick_deploy 按照上面的方法使用docker搭建起了一个搜索内容,并且通过导入测试文件text.csv以及example.csv文件可以进行NLP检...[>>…]
Milvus应用bootcamp中text_search_engine中文乱码可能的原因和解决
1.Python中使用pandasread_csv方法中文乱码问题UnicodeDecodeError:'utf-8'codeccan'tdecodebyte0xd6inposition12:invalidcontinuationbyte修改读取的csv文件编码,需要保证csv文件编码和读取编码一致。在/app/src/operations/目录下的load.py中的第13行读取csv文件添加编码设置。data=pd.read_csv(file_dir,encoding='utf8')2.bootcamp执行插入Mysql时失败了Incorrectstringvalue:python代码报如下异常: raiseerrorclass(errno,errval) pymysql.err.InternalError:(1366,"Incorrectstringvalue:''\xEF\xBF\xBD\x...[>>…]
关于Milvus向量数据库以及Milvus Insight安装
Milvus是一款开源的、针对海量特征向量的相似性搜索引擎。基于异构众核计算框架设计,成本更低,性能更好。在有限的计算资源下,十亿向量搜索仅毫秒响应。Milvus是专为AI而生的数据库。Milvus具有以下特点和优势:向量数据库:它是一个向量数据库,更加工业级可用。海量数据快速检索:万亿条向量数据搜索的平均延迟以毫秒级别,速度不比Facebook的Faiss差。稳定可靠:具有故障转移和故障恢复机制。高可用可拓展:读写分离、实时离线分离,提供单机和分布式版本。索引支持:集成了Faiss、NMSL...[>>…]
Docker安装官方Milvus2.0镜像太慢了
在docker下安装Milvus2.0的步骤并不多,官方文档地址:https://milvus.io/docs/v2.0.x/install_standalone-docker.md先下载docker-compose.yml文件,然后设置DOCKER_VOLUME_DIRECTORY的值执行docker-compose安装即可。但在执行下载镜像的时候太慢了。 root@testMC:~/#wgethttps://raw.githubusercontent.com/milvus-io/milvus/master/deployments/docker/standalone/docker-compose.yml-Odocker-compose.yml root@testMC:~/#DOCKER_VOLUME_DIRECTORY=/disk root@testMC:~/#docker-composeup-...[>>…]
Ubuntu18.04下列式存储ClickHouse的安装及使用
Ubuntu下ClickHouse的安装使用比较简单,跟着ClickHouse的官网安装方法操作即可,地址:https://clickhouse.tech/#quick-start #执行如下命令 apt-getinstall-yapt-transport-httpsca-certificatesdirmngr apt-keyadv--keyserverhkp://keyserver.ubuntu.com:80--recvE0C56BD4 echo"debhttps://repo.clickhouse.tech/deb/stable/main/"tee/etc/apt/sources.list.d/clickhouse.list apt-getupdate apt-getinstall-yclickhouse-serverclickhouse-client #在执行安装的时候会提示输入默认密码 C...[>>…]
php的Elasticsearch类库和简单处理类
需要使用php处理elasticsearch,可在composer中找对应版本的类库:https://packagist.org/packages/elasticsearch/elasticsearch。我这里使用的是elasticsearch/elasticsearch:~6.0,类库文件包大小1.5M左右。使用起来很简单方便: #php索引代码: $this->client=ClientBuilder::create()->setHosts($hostArr)->setRetries(2)->build(); #循环调用一下,如果较多可批量调用另外也可考虑增量索引 $params=array( 'index'=>'test', 'type'=>'_doc', 'body'=>array( 'id'=&g...[>>…]
在Kibana中创建Elasticsearch7.*索引并使用Ik分词的写法
Elasticsearch变化太快,版本间的变化也太大,到了7.*版本之后,网上很多文档都失效了,这是个麻烦的事。在网上找了很多文档资料,但在我搭建的7.7版本Elasticsearch中总是报错。花了些时间才找到问题点。如下为创建一个index:test,同时在此索引下创建一个article的type,结果报错Failedtoparsemapping[_doc]:Rootmappingdefinitionhasunsupportedparameters. #创建Elasticsearch7.*索引: PUT/test { "settings":{ "index":{ "refresh_interval":"5s", "number_of_shards":12, "number_of...[>>…]
Elasticsearch7.7设置账号密码时的逻辑矛盾问题
2019年1月30日,外媒又报道了一起Elasticsearch数据泄露事件!2019年1月份的至少有6起Elasticsearch数据泄露事件了。原因何在,很简单,开发者在服务启动之后总是懒得去修改,哪怕是添加个密码,不信?你去看看你们公司的REDIS服务器,看看有多少设置了密码,至少我公司不相关的部门的业务,他们的REDIS我都能远程登录(因对接关系我知道了redis服务器IP)。 好吧,回到Elasticsearch7.7的密码设置问题上来吧,说说我遇到的Elasticsearch设置账号密码时的矛盾问题,很...[>>…]
logstash根据指定的grok规则拆分nginx日志:LogStash::ConfigurationError:message Expected
使用filebeat读取nginx日志,传给logstash,在logstash中通过配置message的正则匹配规则,将nginx分割出我们想要的字段。整个过程容易理解,不过初次调试grok里面的匹配规则,真是有点抓狂,logstash重启一次挺麻烦,每次修改都去重启logstash也不方便啊,好在有一个现成的grokdebug在线调试工具:https://grokdebug.herokuapp.com/ ,这个链接里也有一些规则参考:https://grokdebug.herokuapp.com/patterns# 不过即便如此,还是不太方便,因为在grokdebug中调...[>>…]
Filebeat结合logstash进行日志处理入elasticsearch
进入filebeat目录,增加nginxlog.yml配置文件,配置如下,主要修改paths下的log目录地址以及设置output为logstash的IP端口地址。 user@u007:/opt/filebeat/filebeat-7.7.1-linux-x86_64$catnginxlog.yml filebeat.inputs: -type:log enabled:true paths: -/opt/nginxlog/*.log filebeat.config.modules: path:${path.config}/modules.d/*.yml reload.enabled:true setup.template.settings: index.number_of_shards:6 output.logstash: hosts:["10.21.45.25:5044"] #启动filebeat同时使用public输出日志 user@u007:/o...[>>…]